UK Flag EN UA Flag UA

MamayLM v1.0
Створення високоефективної мультимодальної LLM для української та англійської мов

MamayLM Thumbnail

MamayLM тепер може бачити! Ми випускаємо MamayLM v1.0, найефективнішу українську мовну модель, яка перевершує всі моделі подібного розміру як українською, так і англійською мовами, при цьому відповідаючи або перевершуючи здібності моделей у 10 разів більші.

Ми раді оголосити про випуск MamayLM v1.0, нової сучасної великої мовної моделі (LLM), орієнтованої на українську мову. Ми випускаємо модель у двох розмірах – 4B та 12B – обидві є економічно ефективними, швидкими, мультимодальними та можуть працювати на одному графічному процесорі, проте ефективні як українською, так і англійською мовами. Модель має потужні можливості, що перевершують відкриті моделі подібних розмірів обома мовами, водночас відповідаючи або вигідно порівнюючись із набагато більшими моделями. MamayLM є результатом співпраці дослідників з INSAIT та ETH Zurich.

Нова версія має такі оновлення:

  1. Потужніша базова модель: Використання моделей Gemma 3 як базової моделі забезпечує покращену продуктивність та можливості для завдань з української мови.
  2. Мультимодальність: Модель розроблена для обробки кількох модальностей, включаючи текст та зображення, що забезпечує ширший спектр застосувань та варіантів використання як англійською, так і українською мовами.
  3. Довший контекст: Модель розроблена для обробки довших контекстів, що дозволяє їй краще розуміти та генерувати текст зі складнішими залежностями та зв'язками.

Збагачення навчальних даних для української мови

У нашій версії v0.1 ми успішно адаптували модель Gemma 2 до української мови, спираючись на наше попереднє дослідження з перенесення мовних знань. Тепер, взявши за основу модель Gemma 3 з її ще потужнішими багатомовними (та мультимодальними!) можливостями, ми застосували схожий процес курації даних, безперервного попереднього навчання та інструктивного донавчання, з деякими помітними покращеннями в різних аспектах, щоб адаптувати Gemma 3 4B та 12B до української мови, використовуючи загалом 81 мільярд токенів українського та англійського тексту.

Етап попереднього навчання

У попередній версії наші дані для попереднього навчання українською мовою базувалися на датасетах FineWeb2, Malyuk та CulturaX. Для поточного релізу v1.0 ми перейшли на датасет Kobza, який побудований на тих самих джерелах, але також інтегрує HPLT. Kobza також включає нечітку дедуплікацію та використовує ширший спектр вебданих, оскільки HPLT дотримується іншого процесу та збирає багатомовний контент з різноманітних джерел. Оскільки FineWeb2 та CulturaX покладаються на дані, що перетинаються, та мають схожу дату зрізу знань, ми обрали підмножини FineWeb2 та UberText (українські новини) в межах датасету Kobza, щоб максимізувати покриття. Такий підхід забезпечує більшу та різноманітнішу основу для нашого корпусу попереднього навчання. Додатково ми застосували техніку «регідратації» даних, включивши підмножину української Вікіпедії, що забезпечило більший акцент на високоякісному контенті.

Під час попереднього навчання ми використовували пакування за найкращим збігом (best-fit packing), щоб упакувати послідовності до бажаної довжини контексту, зберігаючи структуру та зв'язність даних з мінімальними порушеннями. Цей підхід покращує навчання на контексті та вдосконалює здатність до мовного мислення. Щоб запобігти катастрофічному забуванню, ми включаємо невелику частку англомовних даних, таких як англійська Вікіпедія, Smoltalk та Mixture of Thoughts.

Етап донавчання

Подібно до версії v0.1, на етапі донавчання ми виділили теми, пов'язані з українською історією та культурою, що дозволило згенерувати синтетичний набір даних українських пар «питання-відповідь» за допомогою дистиляції знань з більшої моделі. Ми також застосували наш процес перекладу на основі LLM для перекладу галузевих даних українською мовою, покращуючи як кількість, так і якість цільовою мовою.

Наш набір даних для інструктивного донавчання включає різноманітні відкриті датасети, такі як SFT та Post-Training від Nemotron, OpenCoder (OPC) SFT, Aya Collection та інші. Ми визнаємо значний внесок української спільноти відкритого коду, зокрема творців Spivavtor, UAlpaca, UA-Squad, Ukrainian StackExchange, Crimean Tatar Parallel Corpora та UA-Lawyer QA, які посилюють потенціал українського донавчання.

Адаптація Gemma 3 до української мови

На етапі попереднього навчання ми розділили набір даних на дві частини на основі різних великих веб-датасетів, повторно вводячи менші вузьконаправлені набори даних в обидві частини. На основі тренування з різними частинами набору тренувальних даних ми використали техніку «супу моделей» (model souping) для покращення продуктивності попередньо навченої моделі — це дозволило нам значно підвищити ефективність попереднього навчання.

На етапі донавчання ми тренували інструктивно донавчені моделі, орієнтовані на англійську та українську мови, окремо, а потім об'єднали їх у фінальну, кращу версію. Такий роздільний підхід дозволяє нам ще більше підвищити продуктивність обома мовами завдяки наявності даних, орієнтованих на конкретну мову. Ми також застосували передову техніку злиття моделей, натхненну заміною шарів (Layer Swapping), для більш точного вилучення мовних можливостей. Крім того, ми враховуємо висновки щодо мовних дисбалансів та злиття моделей, які підкреслюють вплив пропорцій змішування даних на продуктивність моделі.

Обраний процес дозволяє нам не лише зберегти візуальні можливості та здатність працювати з довгим контекстом, але й покращити їх для обох мов без використання спеціальних наборів даних для цих доменів. Ми вважаємо, що візуальна багатомовна продуктивність сильно залежить від мовних можливостей моделі в даних мовах, тому ми спостерігаємо покращення на візуальних бенчмарках без навчання на даних «текст-зображення».

Оцінка можливостей MamayLM v1.0 12B

Ми оцінили MamayLM на наборі стандартних англійських бенчмарків, їх перекладеній версії українською мовою, а також на зібраних нами специфічних для української мови бенчмарках:

  1. ЗНО: обов'язкове тестування знань української шкільної програми з української мови та літератури, історії, математики та географії
  2. Winogrande challenge: тестування загальних знань та розуміння світу
  3. Hellaswag: тестування на завершення речень
  4. ARC Easy/Challenge: тестування логічного мислення
  5. TriviaQA: тестування ерудиції
  6. GSM-8K: розв'язання задач з вибором відповіді зі шкільної математики
  7. MMLU: тестування знань з великої кількості тем
  8. IFEval: тестування навичок слідування інструкціям

Ми взялися за завдання знайти найкращий метод перекладу для англомовних бенчмарків. Хоча певні зусилля в цьому напрямку вже були зроблені, ми виявили, що вони були недостатньо масштабними, а українські переклади можна було покращити. Ми визначили дві ключові проблеми в перекладі бенчмарків:

  1. розділення питання та відповіді під час перекладу;
  2. якість перекладу, що сильно залежить від few-shot промптингу або додаткової перевірки виводу моделі.

Для вирішення цих проблем ми розробили фреймворк для перекладу, який зберігає контекст як питань, так і відповідей. Він також використовує мультисемплінг та оцінку кандидатів на переклад для оптимізації балансу між якістю машинного перекладу та участю людини, забезпечуючи максимальну ефективність. Усі адаптовані бенчмарки для української мови доступні у відповідному репозиторії на GitHub.

Продуктивність у порівнянні з моделями схожого розміру

Як показано на графіках нижче, на всіх бенчмарках MamayLM перевершує всі моделі схожого розміру (навіть перевершуючи набагато більші 70B моделі українською!). Це досягається як англійською, так і українською мовами завдяки особливому методу, використаному для навчання MamayLM (згадано вище).

MamayLM оцінювання англійською
Середня оцінка серед використаних англомовних тестів
MamayLM оцінювання українською
Середня оцінка серед використаних українськомовних тестів

Продуктивність у порівнянні з більшими моделями

Ми також оцінили MamayLM v1.0 у порівнянні з сучасними передовими LLM. Вражаюче, наша модель перевершує моделі, що в 6 разів більші, на різноманітних бенчмарках, включаючи ті, що специфічні для українського контексту, як показано на графіку нижче.

MamayLM Ukrainian evaluation
Результати тестування на використаних тестах та їх порівняння з великими моделями

Продуктивність на Зовнішньому незалежному оцінюванні (ЗНО)

Важливо, що, як показано на графіку нижче, MamayLM v1.0 досягає найвищого балу на іспитах ЗНО (Зовнішнє незалежне оцінювання) серед моделей схожого розміру, водночас перевершуючи набагато більші моделі, включаючи Gemma2 27B, Llama 3.1 70B та Qwen 2.5 72B.

MamayLM оцінювання на ЗНО
Результати оцінювання моделей на Зовнішньому Незалежному Оцінюванні (ЗНО)

Продуктивність на візуальних бенчмарках

Ми також оцінили MamayLM v1.0 на візуальних бенчмарках, де вона демонструє високу продуктивність як українською, так і англійською мовами. Здатність моделі розуміти та генерувати текст на основі візуальних даних підкреслює її універсальність та ефективність у різних модальностях.

Для оцінки продуктивності англійською мовою ми використовуємо оригінальні бенчмарки MMMU, де наша навчена модель показує покращену продуктивність у порівнянні з базовою версією.

MamayLM оцінювання на MMU
Результати оцінювання моделей на англомовних тестах MMMU з візуальними питаннями

Для моніторингу візуальної продуктивності українською мовою ми використовували ZNO-Vision для оцінки можливостей моделі у розумінні місцевих культурних та історичних знань, а також інших галузевих можливостей українською мовою. Наша модель також демонструє позитивні покращення після навчання порівняно з базовою моделлю.

MamayLM оцінювання на MMZNO
Результати оцінювання моделей на Зовнішньому Незалежному Оцінюванні (MMZNO) з візуальними питаннями

Генеративна продуктивність порівняно з більшими моделями

На додаток до тестів, ми оцінили MamayLM v1.0 з точки зору генеративної продуктивності на 500 складних питаннях. Результати показують, що наша модель значно перевершує продуктивність набагато більших моделей як у лінгвістичних якостях генерованого українського тексту, так і в самому змісті. Щоб уникнути упередженості та отримати найкращі можливі судження, ми використовуємо Gemini 2.0 Flash, який відмінно володіє українською мовою та розуміє культурні та лінгвістичні особливості.

Ми оцінюємо продуктивність моделі на фактичних українських даних запитань-відповідей, де наша модель показує позитивну продуктивність проти набагато більших моделей, а також GPT-4o та Claude 3.7 Sonnet.

MamayLM оцінювання на UKR-GEMMA
Результати оцінювання моделей на питаннях з відкритою відповіддю на українську тематику

Ми також перевіряємо продуктивність моделі на m-ArenaHard (українська підмножина), розробленому для оцінки більш специфічних знань у математиці та кодуванні, де наша модель демонструє так само хорошу продуктивність проти набагато більших моделей.

MamayLM оцінювання на UKR-GEMMA
Результати оцінювання моделей на питаннях з відкритою відповіддю m-ArenaHard

Оцінка можливостей MamayLM v1.0 4B

Ми оцінюємо можливості MamayLM v1.0 4B, використовуючи ті самі тести, спрямовані на оцінку генерації тексту, розуміння та знань з конкретних доменів для української та англійської мов. Модель показує сильну продуктивність порівняно з моделями подібного розміру, демонструючи свою ефективність у різних завданнях.

MamayLM оцінювання на 4B
Результати оцінювання на українськомовних тестах для MamayLM v0.1 4B та моделей схожих розмірів

Переваги MamayLM

У сучасному технологічному прогресі потреба у швидких, адаптивних та локально оптимізованих рішеннях стала критично важливою. Доступна у розмірах 4B та 12B, MamayLM є відносно компактною і стабільно перевершує моделі, що в 10 разів більші, як англійською, так і українською мовами. Її здатність працювати на одному графічному процесорі дозволяє швидше адаптуватися, знижує операційні витрати та спрощує розгортання, що робить її особливо придатною для середовищ з обмеженими ресурсами та мінливими вимогами. Крім того, нова версія тепер має візуальні можливості та здатність працювати з довгим контекстом з підвищеною продуктивністю для обох мов.

Це надає значні переваги для українських місцевих бізнесів та державних установ, які можуть інтегрувати передові технології штучного інтелекту без непомірних витрат або складних технічних вимог, що зазвичай пов'язані з більшими системами. Наявність меншого розміру надає більше гнучкості у розгортанні та масштабуванні для менших компаній, які не мають розгалуженої інфраструктури. Крім того, двомовні можливості моделі підтримують її застосування в таких секторах, як освіта та охорона здоров'я, де подолання мовних бар'єрів може мати значний вплив. Зокрема, це допомагає задовольняти нагальні потреби в Україні шляхом покращення надання послуг у критично важливих сферах.

Завантаження моделей та тестів

Ми робимо доступними звичайну та квантизовану версії MamayLM на HuggingFace, разом із детальним описом того, як їх використовувати для генерації тексту:

Українські тести доступні у відповідному GitHub репозиторії.

Якщо ви використовуєте наші моделі, будь ласка, розгляньте можливість цитування нашої роботи (цитування нижче).

Зворотній зв'язок

З будь-якими питаннями щодо MamayLM, будь ласка, зв'яжіться з нами за адресою contact@insait.ai.

INSAIT - це світового класу дослідницький інститут комп'ютерних наук та ШІ, який є частиною Софійського університету, розташованого в Софії, Болгарія. INSAIT був створений у 2022 році у партнерстві зі швейцарськими ETH Zurich та EPFL. Це стратегічна установа для Болгарії, фінансована з початковим фондом близько 100 мільйонів доларів США болгарським урядом, протягом 10 років, і щедро підтримується пожертвами приблизно 15 мільйонів доларів США від SiteGround, Google, AWS, VMware та інших великих технологічних компаній. INSAIT - це перший центр такого типу у Східній Європі, структурований відповідно до провідних західних інституцій комп'ютерних наук та ШІ - він надає світового класу пакети та умови для видатних викладачів на tenure-track та з постійним терміном, наукових дослідників, доцентів, докторів наук та багатьох інших посад. На даний момент, INSAIT приймає дослідників з більш ніж 23 національностей і проводить дослідження в областях, що охоплюють базові моделі, безпечний та надійний ШІ, робототехніку, комп'ютерний зір, квантові обчислення, алгоритми, інформаційну безпеку та інші ключові області.

Цитування

Для використання в академічному контексті, будь ласка, цитуйте цю роботу так:

"MamayLM v1.0: Ефективна передова мультимодальна українська LLM", 2025.

BibTeX цитування

@misc{MamayLMv1,
      title={MamayLM v1.0: An efficient state-of-the-art multimodal Ukrainian LLM},
      author={Yukhymenko, Hanna and Alexandrov, Anton and Vechev, Martin},
      year={2025},
      }

Шаблон Distill

Цей блог був заснований на основі Distill Шаблону від Leandro von Werra.