Мінцифри та "Київстар" визначилися, де випробують національну LLM України.
Google DeepMind / unsplash.com
Мінцифри спільно з компанією "Київстар" обрали велику мовну модель, на якій тренуватимуть національну українську LLM, якою стане Gemma 3 від Google. Про це повідомляють Dengi.ua з посиланням на пресслужбу міністерства.
За словами Chief AI Officer Мінцифри та CEO WINWIN AI Center of Excellence Данила Цьвока, український LLM будується на базі загальнодоступної open-source-моделі. При цьому головним завданням у розробці є попереднє її навчання на наших унікальних даних. Це допоможе опрацьовувати тексти українською мовою і мінімізувати лінгвістичні та моральні ризики в LLM.
Читайте також: ЦАХАЛ впроваджує ШІ для стеження за соцмережами військовослужбовців: деталі
Повідомляється, що обрану модель адаптують до української мови, зокрема, планується:
- удосконалити український токенайзер – це покращить роботу моделі з українською мовою, зменшить помилки при створенні україномовних текстів та оптимізує обчислювальні витрати при використанні моделі;
- довчити модель на унікальних україномовних текстах, які зараз збирають експерти;
- створити бенчмарки (тести) для більш точного налаштування моделі для подальшого використання.
Як зазначив директор з розробки діджитал-продуктів компанії "Київстар" Михайло Нестор, вибір Gemma забезпечує оптимальний баланс між продуктивністю та ресурсами, а також високу якість навчання української LLM. Крім того, модель підтримує понад 140 мов, включно з українською, має до 128 тисяч токенів, мультимодальні можливості та гнучку архітектуру, що дає змогу адаптувати її під різні завдання.
При цьому ключовими перевагами у виборі моделі стали:
- Оптимальний баланс продуктивності та ресурсів Gemma забезпечує високу якість за оптимальних інфраструктурних вимог. Це одна з найкращих серед відкритих моделей з погляду співвідношення розміру та якості.
- Багатомовна підтримка – модель уже має українську мову у своєму діапазоні та легко адаптується через довчання.
- Мультимодальність – модель може сприймати й аналізувати не лише текст, а й зображення.
- Розширений токенайзер – об'єм токенів забезпечує точне та ефективне опрацювання текстів і донавчань. Модель має довге контекстне вікно – це 128 тисяч токенів.
- Наявність декількох розмірностей дає змогу гнучко обирати розмір моделі під конкретну сферу застосування.
- Успішні приклади та досвід використання Gemma для створення україномовних LLM, зокрема Lapa LLM та MamayLM.
У міністерстві підкреслили, що Gemma вже продемонструвала чудові результати як базова модель для MamayLM і Lapa LLM – перших і найкращих українських LLM, а також для INSAIT BgGPT – сучасної LLM для болгарської мови.
Як раніше повідомляли Dengi.ua, Україна спільно з компанією NVIDIA створює суверенний штучний інтелект.
Dengi.ua також писали про те, що штучний інтелект швидко стає частиною повсякденного життя українців.