Рубрики: Штучний інтелект

Будуємо фундамент для українського Gemini — коли запрацює національна LLM

Автори: Прес-офіс Міністерства
Дата та час публікації:: 07 січ., 16:15
Час читання:: 2 хв

У 2025 році ми поставили амбітну ціль — створити українську велику мовну модель (LLM). Це технологія, яка запустить бум ШІ-чатів та асистентів для держсервісів і бізнесів. Вони працюватимуть як Gemini та ChatGPT, тільки на базі українських даних.

Ми вже пройшли шлях від концепції до реальних технічних рішень. Тож розповідаємо, що відбувається «під капотом» проєкту просто зараз.

Хто будує та на якій технології

Технічним партнером став Київстар. Компанія фінансує та веде розробку, а після фінішу — передасть мовну модель державі.

Фундаментом для нашої великої мовної моделі обрали сімейство моделей Gemma від Google. Це передові технології, які ми «українізуємо» — адаптуємо під нашу мову та контекст.

Що відбувається зараз

Зараз триває «невидима», але найважливіша частина роботи — підготовка даних. Це головний виклик, адже якісна українська модель потребує не лише інформації з інтернету, а й глибоких знань з історичних архівів та інших письмових джерел.

Інформацію для навчання збираємо у державних інституціях, медіа, університетах та наукових закладах. Але значна частина важливих текстів досі існує лише на папері, що вчергове нагадує про потребу загальної цифровізації в країні.

Для незалежного контролю розробки моделі ми зібрали комітет експертів, які працюють за чотирма напрямами: науково-технічним, правовим, культурно-історичним та мовним. Їхнє поточне завдання — розробити професійні бенчмарки (систему тестування). Це дозволить переконатися, що модель навчена якісно.

Вже в січні 2026 року ми матимемо:

Першу базу текстів для тренування мовної моделі
Покращений токенізатор — інструмент, який ефективно розбиває слова на елементи. Це дозволить моделі обробляти українську мову швидше та продуктивніше
Власні бенчмарки для оцінки якості — стандарти, за якими ми перевірятимемо ефективність та безпеку LLM

Паралельно створюємо юридичні правила, щоб робота з даними для моделі була прозорою, безпечною та відповідала вимогам у сфері інтелектуальної власності.

Коли реліз

Першу версію моделі плануємо запустити в бета-тестування вже навесні 2026 року. Вона буде навчена на унікальних даних і зможе конкурувати з іншими моделями у відкритих рейтингах.

А поки готуємося обрати ім’я для української LLM. У січні запустимо голосування в Дії — назву оберете саме ви.