Перейти до основного вмісту
Рубрики
Технології

Українську LLM натренують на моделі Gemma від Google

Автори
Прес-офіс Міністерства
Дата та час публікації:
Час читання:
3 хв
Зображення новини Українську LLM натренують на моделі Gemma від Google

Разом з Київстар обрали велику мовну модель, на якій тренуватимуть національну українську LLM, — нею стане Gemma 3 від Google.

Ми будуємо українську LLM на базі загальнодоступної open-source-моделі. Головне завдання в розробці — попередньо навчити її на наших унікальних даних. При виборі орієнтувалися на те, наскільки якісно модель вже опрацьовує тексти українською мовою та її контрольованість під час навчання. Це допоможе мінімізувати лінгвістичні та етичні ризики в нашій LLM.

Данило Цьвок, Chief AI Officer Мінцифри та CEO WINWIN AI Center of Excellence

Вибрану модель адаптують до української мови, зокрема планується:

  • вдосконалити український токенайзер — це покращить роботу моделі з українською мовою, зменшить помилки при створенні україномовних текстів та оптимізує обчислювальні витрати при використанні моделі;
  • донавчити модель на унікальних україномовних текстах, які зараз збирають експерти; 
  • створити бенчмарки (тести) для більш точного налаштування моделі для подальшого використання.

Вибір Gemma забезпечує оптимальний баланс між продуктивністю та ресурсами, а також високу якість навчання української LLM. Модель підтримує понад 140 мов, включно з українською, має до 128 тисяч токенів, мультимодальні можливості та гнучку архітектуру, що дозволяє адаптувати її під різні завдання.

Михайло Нестор, директор з розробки диджитал-продуктів Київстар

Ключовими перевагами у виборі моделі стали: 

  • Оптимальний баланс продуктивності та ресурсів — Gemma забезпечує високу якість при оптимальних інфраструктурних вимогах. Це одна з найкращих серед відкритих моделей з погляду співвідношення розміру та якості.
  • Багатомовна підтримка — модель уже має українську мову у своєму діапазоні та легко адаптується через донавчання.
  • Мультимодальність — модель може сприймати й аналізувати не лише текст, а й зображення.
  • Розширений токенайзер — обсяг токенів забезпечує точне та ефективне опрацювання текстів та донавчання. Модель має довге контекстне вікно — це 128 тисяч токенів.
  • Наявність кількох розмірностей дозволяє гнучко обирати розмір моделі під конкретну сферу застосування.
  • Успішні приклади та досвід використання Gemma для створення українськомовних LLM, зокрема Lapa LLM та MamayLM

Для нас велика честь, що Міністерство цифрової трансформації та Київстар обрали Gemma як основу для національної української великої мовної моделі (LLM). Це рішення підкреслює стратегічну цінність Gemma, яка забезпечує оптимальний баланс між продуктивністю та ресурсами, а також сильну багатомовну підтримку. Спираючись на успіх Gemma як бази для провідних українських LLM-моделей, ми налаштовані й надалі підтримувати цю ключову ініціативу, спрямовану на розвиток цифрового досвіду в Україні.

Кшиштоф Казьов, керівник з Customer Engineering Google Cloud у регіоні Центральної та Східної Європи

Gemma вже продемонструвала чудові результати як базова модель для MamayLM та Lapa LLM — перших і наразі найкращих українських LLM, а також для INSAIT BgGPT — сучасної LLM для болгарської мови.

Поділитись