Думки Новий король штучного інтелекту: як Google вирішив здивувати світ і що з цього вийшло
Експерт з високих технологій Володимир Бандура по-хорошому вражений новою версією Gemini — ШІ від Google. Перші поглиблені тести показують просто революційний розвиток — але, звичайно, все це диво ще треба буде перевірити на практиці.
Володимир Бандура Консультант з інвестицій 0

Новий король штучного інтелекту, і все та одразу від Google.
Наскільки якось жалібно виглядав Google у 2023, намагаючись хоча б наздогнати OpenAI в технології, які Гугл же і придумав. Настільки ж сильно і системно вони просуваються у 2025.
При чому цікавий і зсув в подачі, в маркетингу продуктів. Багато років Гугл послідовно все подавав в жахливо якісь сірій корпоративній стилістиці. Зі сцени, з довгими промовами, в строгих костюмчиках. Якщо це якийсь помічник, його обов’язково мали назвати "Гугл Асистент" і ніяк інакше.
Зараз подають значно веселіше, теж, видно, ОпенАІ вплинув. З гумором, з прикольними назвами, симпатично і молодіжно.
Відео дня
То до суті.
Головне – видали нарешті "Геміні 3 Про", їх нову флагманську модель. Вже декілька разів писав, що вже маячить в тестах і під різними назвами ховається, то от нарешті її дочекались для всіх.
І так, модель виглядає дуже сильною, в низці характеристик навіть проривною.
І так, вона доступна для всіх – можете навіть безкоштовно її протестувати.
1. Величезний стрибок здібностей за тестом ARC-AGI-2. Тест спеціально створений для тестування вирішення "творчих" out-of-distribution задач. Тобто задач, відповіді на які модель не могла вивчити в процесі навчання, нових задач. В цьому тесті вона набирає 31.1%, це порівняно з 4.9% попередньої "Геміні 2.5". Це реально прорив. І майже х2 кращий результат, ніж "ГПТ 5.1". (17.6%), ніж "Грок 4" (16%).
І набирає аж 45.1% в режимі "deep think" — коли багато агентів "Геміні" думають над задачею одночасно і вибирають найкраще рішення ("GPT 5 Pro" – 18.3%).
І це не підпільні китайські результати. Зараз, якщо зайти на сторінку тесту – ці моделі є офіційним лідером. Вони навіть набирають більше, ніж найкращі рішення від експертів, де вони загорнули конкурентні моделі в спеціальні агентські стратегії, що значно покращило їх результат.
2. Величезний стрибок в мультимодальних здібностях – себто розуміти не тільки текст, але і зображення, і відео, і аудіо. І це дуже багатогранний результат.
Від нового рівня здібностей в читанні та розумінні документів (якраз цього чекав, те, що нам потрібно для юридичного додатку, який зараз в розробці). До розуміння відео. І до зовсім нового рівня "смаку" і здібностей до створення інтерфейсів, дизайнів і візуалізацій.
Різниця від "Геміні 2.5" просто колосальна. І тут, як то кажуть, краще один раз побачити. І так, ви це можете побачити на сторінці "Геміні 3". Там є низка дуже показових демо.
І що цікаво – вони це будуть розгортати для всіх користувачів. Це буде просто щось шалене для навчання. Як вони його просувають – ці здібності будуть представлені і в додатку "Геміні", і в АІ режимі пошуку Гугл (безкоштовно?). І дозволять візуалізувати дуже складні процеси. Наприклад, зробити "на льоту" класну анімацію про ДНК чи взаємодію молекул. Чи я от собі зробив про перші хвилини після "великого вибуху".
Це, мабуть, займе деякий час – бо я ще не бачу цього у своєму платному додатку. Але вже бачу в Google AI Studio – яке і рекомендую всім для тестування – тим паче, що воно безкоштовне.
Важливо Google представила найрозумніший ШІ у світі: чим здивувала модель Gemini 3 Pro (фото, відео)
Новий рівень результату в Останньому Екзамені людства – що показує енциклопедичні знання моделі та її здібності вирішувати складні експертні задачі в багатьох сферах.
Аналогічно — №1 результат в GPQA-Diamond – тести в біології, фізиці, хімії експертного рівня, які не експерт не зможе вирішити, навіть маючи доступ до інтернет-пошуку.
Новий рівень агентських здібностей – ділить результат №1 з Grok-4 в тесті Vending bench (тест, в якому модель довгостроково керує бізнесом вендінг-автоматів).
Вирішує всі дуже складні задачі, 100%, Американської математичної олімпіади, AIME 2025.
Якийсь шалений приріст здібностей до розуміння того, що відбувається на екрані – в тесті ScreenSpot-Pro набирає 72.7% порівняно з 11.4% "Геміні 2.5. Про" і 3.5% "ГПТ 5.1" (!). При тому, що у ОpenАІ досить таки толковий агент, то дуже цікаво подивитись на агента в браузері від Гугла на основі цієї нової моделі.
І так, вони це вже використовують. Вони дали певні інструменти – як модель може тестувати нові додатки прямо в інтерфейсі. Ще одна класна фішка.
І так, зберігається традиційна перевага Гугла в обсязі контексту моделі. Правда, слід врахувати, що з великими обсягами контексту вона суттєво більше втрачає фактів з нього.
Цю модель вони поступово зарядять в усі свої продукти. І випускають низку нових – тому і кажу, все та одразу. І в ці тижні ще багато чого цікавого виходить.
Традиційно вважаю: щоб її оцінити, потрібні будуть тижні чи краще місяці тестування. Тести створюють певні очікування, але їх має підтвердити практика.
Автор висловлює особисту думку, яка може не збігатися із позицією редакції. Відповідальність за опубліковані дані в рубриці "Думки" несе автор.
Джерело