Китайський стартап DeepSeek випустив прев’ю-версії нової флагманської ШІ-моделі V4.
DeepSeek назвав її найпотужнішою моделлю з відкритим вихідним кодом (open source), відзначивши високі результати V4 у програмуванні та значний прогрес у галузях міркувань (reasoning) і виконання агентських завдань.

Модель має дві лінійки – V4 Flash і V4 Pro. У них реалізовані архітектурні та оптимізаційні поліпшення, повідомила компанія на платформі Hugging Face.
Бюджетна Flash має 284 млрд параметрів, включно з 13 млрд активних, просунута Pro – 1,6 трлн параметрів (49 млрд активних), ідеться в її повідомленні в соцмережі X.
Версія Pro порівнянна за результатами з найкращими світовими моделями із закритим кодом, заявляє DeepSeek. При цьому вартість її експлуатації (інференсу) значно нижча, ніж у аналогів.
V4 заснована на так званій архітектурі гібридної уваги (Hybrid Attention Architecture), що поліпшує здатність запам’ятовувати запити в рамках довгих діалогів. Вона також підтримує контекст завдовжки до 1 млн токенів (одиниць текстової або іншої інформації, 100 токенів еквівалентні приблизно 75 англійським словам – ІФ-У), що дає змогу обробляти довгі документи або цілі бази коду за один прийом.
DeepSeek у WeChat вказує на надзвичайно обмежену наявність обчислювальних потужностей для обслуговування V4 Pro, але прогнозує значне зниження цін на модель після запуску комп’ютерних кластерів на чипах Huawei Ascend 950 у другому півріччі.
Після цього повідомлення акції основного чипмейкера Huawei – Semiconductor Manufacturing International Corp. (SMIC) – підскочили на 9,4% у Гонконзі. Інший чипмейкер – Hua Hong Semiconductor – наростив капіталізацію більш ніж на 13%. Папери компанії Knowledge Atlas Technology (колишня Zhipu), яка конкурує з DeepSeek, впали на 8%.
Наразі DeepSeek обговорює залучення капіталу від Tencent і Alibaba в рамках свого першого інвестраунду, пише Bloomberg.
DeepSeek здобула широку популярність на початку минулого року після виходу моделі R1. Порівняно з розробками OpenAI, ця модель вимагала набагато менше витрат на навчання, що спричинило сильні зміни котирувань на світових ринках акцій, обваливши вартість Nvidia за одну сесію майже на $600 млрд.