MamayLM тепер може бачити! Ми випускаємо MamayLM v1.0, найефективнішу українську мовну модель, яка перевершує всі моделі подібного розміру як українською, так і англійською мовами, при цьому відповідаючи або перевершуючи здібності моделей у 10 разів більші.
Ми раді оголосити про випуск MamayLM v1.0, нової сучасної великої мовної моделі (LLM), орієнтованої на українську мову. Ми випускаємо модель у двох розмірах – 4B та 12B – обидві є економічно ефективними, швидкими, мультимодальними та можуть працювати на одному графічному процесорі, проте ефективні як українською, так і англійською мовами. Модель має потужні можливості, що перевершують відкриті моделі подібних розмірів обома мовами, водночас відповідаючи або вигідно порівнюючись із набагато більшими моделями. MamayLM є результатом співпраці дослідників з INSAIT та ETH Zurich.
У нашій версії v0.1 ми успішно адаптували модель Gemma 2 до української мови, спираючись на наше попереднє дослідження з перенесення мовних знань
У попередній версії наші дані для попереднього навчання українською мовою базувалися на датасетах FineWeb2
Під час попереднього навчання ми використовували пакування за найкращим збігом (best-fit packing)
Подібно до версії v0.1, на етапі донавчання ми виділили теми, пов'язані з українською історією та культурою, що дозволило згенерувати синтетичний набір даних українських пар «питання-відповідь» за допомогою дистиляції знань з більшої моделі. Ми також застосували наш процес перекладу на основі LLM для перекладу галузевих даних українською мовою, покращуючи як кількість, так і якість цільовою мовою.
Наш набір даних для інструктивного донавчання включає різноманітні відкриті датасети, такі як SFT та Post-Training від Nemotron, OpenCoder (OPC) SFT, Aya Collection та інші. Ми визнаємо значний внесок української спільноти відкритого коду, зокрема творців Spivavtor, UAlpaca, UA-Squad, Ukrainian StackExchange, Crimean Tatar Parallel Corpora та UA-Lawyer QA, які посилюють потенціал українського донавчання.
На етапі попереднього навчання ми розділили набір даних на дві частини на основі різних великих веб-датасетів, повторно вводячи менші вузьконаправлені набори даних в обидві частини. На основі тренування з різними частинами набору тренувальних даних ми використали техніку «супу моделей» (model souping) для покращення продуктивності попередньо навченої моделі — це дозволило нам значно підвищити ефективність попереднього навчання.
На етапі донавчання ми тренували інструктивно донавчені моделі, орієнтовані на англійську та українську мови, окремо, а потім об'єднали їх у фінальну, кращу версію. Такий роздільний підхід дозволяє нам ще більше підвищити продуктивність обома мовами завдяки наявності даних, орієнтованих на конкретну мову. Ми також застосували передову техніку злиття моделей, натхненну заміною шарів (Layer Swapping)
Обраний процес дозволяє нам не лише зберегти візуальні можливості та здатність працювати з довгим контекстом, але й покращити їх для обох мов без використання спеціальних наборів даних для цих доменів. Ми вважаємо, що візуальна багатомовна продуктивність сильно залежить від мовних можливостей моделі в даних мовах, тому ми спостерігаємо покращення на візуальних бенчмарках без навчання на даних «текст-зображення».
Ми оцінили MamayLM на наборі стандартних англійських бенчмарків, їх перекладеній версії українською мовою, а також на зібраних нами специфічних для української мови бенчмарках:
Ми взялися за завдання знайти найкращий метод перекладу для англомовних бенчмарків. Хоча певні зусилля в цьому напрямку вже були зроблені
Для вирішення цих проблем ми розробили фреймворк для перекладу, який зберігає контекст як питань, так і відповідей. Він також використовує мультисемплінг та оцінку кандидатів на переклад для оптимізації балансу між якістю машинного перекладу та участю людини, забезпечуючи максимальну ефективність. Усі адаптовані бенчмарки для української мови доступні у відповідному репозиторії на GitHub.
Як показано на графіках нижче, на всіх бенчмарках MamayLM перевершує всі моделі схожого розміру (навіть перевершуючи набагато більші 70B моделі українською!). Це досягається як англійською, так і українською мовами завдяки особливому методу, використаному для навчання MamayLM (згадано вище).
Ми також оцінили MamayLM v1.0 у порівнянні з сучасними передовими LLM. Вражаюче, наша модель перевершує моделі, що в 6 разів більші, на різноманітних бенчмарках, включаючи ті, що специфічні для українського контексту, як показано на графіку нижче.
Важливо, що, як показано на графіку нижче, MamayLM v1.0 досягає найвищого балу на іспитах ЗНО (Зовнішнє незалежне оцінювання) серед моделей схожого розміру, водночас перевершуючи набагато більші моделі, включаючи Gemma2 27B, Llama 3.1 70B та Qwen 2.5 72B.
Ми також оцінили MamayLM v1.0 на візуальних бенчмарках, де вона демонструє високу продуктивність як українською, так і англійською мовами. Здатність моделі розуміти та генерувати текст на основі візуальних даних підкреслює її універсальність та ефективність у різних модальностях.
Для оцінки продуктивності англійською мовою ми використовуємо оригінальні бенчмарки MMMU
Для моніторингу візуальної продуктивності українською мовою ми використовували ZNO-Vision
На додаток до тестів, ми оцінили MamayLM v1.0 з точки зору генеративної продуктивності на 500 складних питаннях. Результати показують, що наша модель значно перевершує продуктивність набагато більших моделей як у лінгвістичних якостях генерованого українського тексту, так і в самому змісті. Щоб уникнути упередженості та отримати найкращі можливі судження, ми використовуємо Gemini 2.0 Flash, який відмінно володіє українською мовою та розуміє культурні та лінгвістичні особливості.
Ми оцінюємо продуктивність моделі на фактичних українських даних запитань-відповідей, де наша модель показує позитивну продуктивність проти набагато більших моделей, а також GPT-4o та Claude 3.7 Sonnet.
Ми також перевіряємо продуктивність моделі на m-ArenaHard (українська підмножина), розробленому для оцінки більш специфічних знань у математиці та кодуванні, де наша модель демонструє так само хорошу продуктивність проти набагато більших моделей.
Ми оцінюємо можливості MamayLM v1.0 4B, використовуючи ті самі тести, спрямовані на оцінку генерації тексту, розуміння та знань з конкретних доменів для української та англійської мов. Модель показує сильну продуктивність порівняно з моделями подібного розміру, демонструючи свою ефективність у різних завданнях.
У сучасному технологічному прогресі потреба у швидких, адаптивних та локально оптимізованих рішеннях стала критично важливою. Доступна у розмірах 4B та 12B, MamayLM є відносно компактною і стабільно перевершує моделі, що в 10 разів більші, як англійською, так і українською мовами. Її здатність працювати на одному графічному процесорі дозволяє швидше адаптуватися, знижує операційні витрати та спрощує розгортання, що робить її особливо придатною для середовищ з обмеженими ресурсами та мінливими вимогами. Крім того, нова версія тепер має візуальні можливості та здатність працювати з довгим контекстом з підвищеною продуктивністю для обох мов.
Це надає значні переваги для українських місцевих бізнесів та державних установ, які можуть інтегрувати передові технології штучного інтелекту без непомірних витрат або складних технічних вимог, що зазвичай пов'язані з більшими системами. Наявність меншого розміру надає більше гнучкості у розгортанні та масштабуванні для менших компаній, які не мають розгалуженої інфраструктури. Крім того, двомовні можливості моделі підтримують її застосування в таких секторах, як освіта та охорона здоров'я, де подолання мовних бар'єрів може мати значний вплив. Зокрема, це допомагає задовольняти нагальні потреби в Україні шляхом покращення надання послуг у критично важливих сферах.
Ми робимо доступними звичайну та квантизовану версії MamayLM на HuggingFace, разом із детальним описом того, як їх використовувати для генерації тексту:
Українські тести доступні у відповідному GitHub репозиторії.
Якщо ви використовуєте наші моделі, будь ласка, розгляньте можливість цитування нашої роботи (цитування нижче).
З будь-якими питаннями щодо MamayLM, будь ласка, зв'яжіться з нами за адресою contact@insait.ai.
INSAIT - це світового класу дослідницький інститут комп'ютерних наук та ШІ, який є частиною Софійського університету, розташованого в Софії, Болгарія. INSAIT був створений у 2022 році у партнерстві зі швейцарськими ETH Zurich та EPFL. Це стратегічна установа для Болгарії, фінансована з початковим фондом близько 100 мільйонів доларів США болгарським урядом, протягом 10 років, і щедро підтримується пожертвами приблизно 15 мільйонів доларів США від SiteGround, Google, AWS, VMware та інших великих технологічних компаній. INSAIT - це перший центр такого типу у Східній Європі, структурований відповідно до провідних західних інституцій комп'ютерних наук та ШІ - він надає світового класу пакети та умови для видатних викладачів на tenure-track та з постійним терміном, наукових дослідників, доцентів, докторів наук та багатьох інших посад. На даний момент, INSAIT приймає дослідників з більш ніж 23 національностей і проводить дослідження в областях, що охоплюють базові моделі, безпечний та надійний ШІ, робототехніку, комп'ютерний зір, квантові обчислення, алгоритми, інформаційну безпеку та інші ключові області.
Для використання в академічному контексті, будь ласка, цитуйте цю роботу так:
"MamayLM v1.0: Ефективна передова мультимодальна українська LLM", 2025.
BibTeX цитування
@misc{MamayLMv1, title={MamayLM v1.0: An efficient state-of-the-art multimodal Ukrainian LLM}, author={Yukhymenko, Hanna and Alexandrov, Anton and Vechev, Martin}, year={2025}, }
Цей блог був заснований на основі Distill Шаблону від Leandro von Werra.