9.3 C
Kyiv
Понеділок, 10 Листопада, 2025

По-другому Путин не может нас ломать: Зеленский объяснил, почему РФ бьет по энергетике

Президент Украины Владимир Зеленский объяснил, почему глава...

МАГАТЕ закликала обмежити військову активність щодо інфраструктури українських АЕС

Хмельницька та Рівненська АЕС внаслідок пошкодження російськими...

Останній місяць спокою: ціновий монстр йде в Україну

Енергетичний шок та святковий ажіотаж — чому...

Аналіз і прогноз: який ШІ краще за всіх пророкує майбутнє

ФінансиАналіз і прогноз: який ШІ краще за всіх пророкує майбутнє

Складено рейтинг із 25 ШІ-агентів за чотирма рівнями обробки інформації. Solen Feyissa / unsplash.com Solen Feyissa / unsplash.com

Проєкт FutureX представив рейтинг штучного інтелекту (ШІ), оцінюючи моделі за їхньою здатністю прогнозувати майбутнє у сферах політики, економіки, культури, спорту та інших галузях. Лідером серед 25 учасників виявився Grok-4 від компанії xAI Ілона Маска. Про це повідомляють Dengi.ua з посиланням на Emergent Mind.

Зазначається, що розробники описують FutureX як "бенчмарк для прогнозування майбутнього, спеціально розроблений для агентів LLM, що підтримує щоденні оновлення в режимі реального часу та унеможливлює спотворення даних завдяки автоматизованому конвеєру для збирання запитань і відповідей".

Читайте також: Проєкт RoboLab: в університетах з'являться лабораторії з робототехніки

Повідомляється, що зараз у рамках FutureX аналізується 25 моделей LLM/агентів. До їх числа входять системи з можливостями міркування, пошукової інтеграції та використанням зовнішніх інструментів. За словами авторів проєкту, "ця комплексна оцінка оцінює адаптивне мислення і продуктивність агентів у динамічних середовищах, поглиблений аналіз видів збоїв агентів і проблем продуктивності під час виконання завдань, орієнтованих на майбутнє, включно з вразливістю до фейкових вебсторінок і тимчасовою валідністю".

У проєкті розглядаються 25 моделей, розділених на чотири групи за рівнем складності прогнозування:

  • Базовий – прості питання з мінімальною неоднозначністю.
  • Широкий пошук – завдання, що вимагають розширеного пошуку інформації.
  • Глибокий пошук – прогнози з помірною волатильністю, засновані на послідовних міркуваннях та інтеграції різних джерел.
  • Суперагент – висока невизначеність і волатильність, що вимагають складних багатокрокових міркувань і надійного аналізу вихідних даних.

Основні висновки:

  1. Стратифікація складності: спостерігається явне монотонне зниження продуктивності моделі від базового рівня до рівня "Суперагент", що підтверджує правильність дизайну бенчмарка. Більшість моделей добре справляються з простими завданнями з одним або кількома варіантами відповіді, але різко втрачають у складних, високоволатильних подіях.
  2. Пошук і використання інструментів: моделі з інтегрованими можливостями пошуку і міркувань значно перевершують базові LLM-програми під час розв'язання складних завдань. Grok-4 і GPT-o4-mini (Think+Search) досягають найвищих результатів у найскладніших ситуаціях, забезпечуючи баланс між точністю і швидкістю виведення.
  3. Базові LLM: DouBao-Seed1.6-Thinking демонструє високі результати при виконанні завдань з вилучення знань, перевершуючи деякі агентні моделі на нижчих рівнях.
  4. Варіативність домену: Продуктивність варіюється залежно від домену; наприклад, моделі GPT чудові в криптографії та технологіях, тоді як DouBao-Seed1.6-Thinking лідирує у фінансах і бізнесі.
  5. Порівняння з людьми: Експерти-люди постійно перевершують агентів LLM на більшості рівнів, за винятком деяких завдань із кількома варіантами вибору, де вичерпне порівняння варіантів дає перевагу моделям.
  6. Факторний аналіз: лінійна регресія підтверджує, що рівень складності та домен є найбільш значущими предикторами ефективності моделі, при цьому найкращі моделі збігаються із загальною таблицею лідерів.

Найкращі ШІ-агенти за категоріями

  • Прогнозування минулого і майбутнього

Контрольований експеримент, що порівнює прогнози минулого (після розв'язання події) і прогнози майбутнього (до розв'язання події), показує, що моделі з доповненим пошуковим опрацюванням, як-от Grok-4, чудово справляються з видобутком розв'язаних результатів, але розрив між прогнозами минулого й майбутнього підкреслює складність істинного прогнозування.

  • Планування агента і поведінка пошуку

Аналіз пам'яті планування SmolAgent показує, що повнота плану, надійність джерел і наявність здійсненних кроків сильно корелюють із точністю прогнозування. Моделі, які частіше використовують інструменти та посилаються на авторитетні джерела, працюють краще, тоді як надлишкова історія діалогів вносить шум.

  • Фінансове прогнозування

Агенти LLM наближаються до професійних аналітиків Волл-стріт за показниками прибутку і виручки індексу S&P 500, але не перевершують їх, водночас найкращі моделі досягають рівня виграшних угод у 33-37%.

  • Уразливість підроблених веб-сайтів

Більшість агентів глибоких досліджень уразливі до шкідливих підроблених веб-сайтів, за винятком Gemini-2.5-Pro Deep Research, який, мабуть, використовує сигнали довіри до домену, щоб уникнути цитування.

  • Пошук у реальному часі

У завданнях, чутливих до часу (наприклад, результати спортивних змагань у реальному часі), GPT-o3 Deep Research демонструє найсильніший пошук у реальному часі, але навіть спеціалізовані агенти не завжди перевершують універсальні LLM з доповненим пошуком.

інфографіка інфографіка / emergentmind.com

Нагадаємо, Dengi.ua повідомляли про те, звіт дослідницької ініціативи NANDA Массачусетського технологічного інституту показав, що, незважаючи на зростаючий інтерес компаній до генеративного штучного інтелекту, лише близько 5% пілотних проєктів забезпечують швидке зростання виручки.

Також Dengi.ua писали, що інтеграція штучного інтелекту у пошук Google змінює правила роботи в Інтернеті та ставить під загрозу звичні моделі медіабізнесу.

Останні новини