Названы языки, которые лучше всего передают или усваивают знания для ИИ

Институт AIRI представил на конференции ACL 2024 в Таиланде результаты исследования, в ходе которого команда ученых проанализировала взаимодействие между 189 языками, охватив около 5 тысяч языковых пар.

При участии коллег из Сколтеха исследователи определили «супердоноров» и «суперреципиентов» — языки, которые наиболее эффективно передают или усваивают знания.

В мире существует более 7100 разговорных языков, однако лишь небольшая их часть поддерживается современными технологическими сервисами: электронными словарями, системами автоматического перевода, голосовыми и ИИ-ассистентами. Большинство языков относится к малоресурсным (МРЯ) — им свойственны малое распространение в сети, нехватка переводчиков и ряд других особенностей, которые затрудняют их цифровую обработку и обучение ИИ-моделей, усиливая языковой разрыв. Большинство работ опирается на английский как на основной источник, но доказательств того, что этот выбор наиболее оптимален на данный момент нет. Понять, какие языки могут быть гораздо удобнее и полезнее английского для обучения систем ИИ — интересная задача для научного сообщества.

Цель исследования заключалась в проверке гипотезы о том, что дообучение моделей на многоресурсных языках может улучшить качество обработки малоресурсных. Исследователи рассмотрели 158 многоресурсных и 31 малоресурсный языки. Вопреки ожиданиям, английский не вошел в число лучших доноров. Ими стали африкаанс, словенский, литовский и французский, а среди языков-реципиентов выделились гуарани и коптский.

Команда ученых использовала универсальную многоязычную модель mT5 для межъязыкового переноса (трансфер-лернинг). На первом этапе энкодер-декодер модели позволил оценить, насколько лучше она моделировала малоресурсные языки после обучения на многоресурсных. Второй этап исследования был направлен на интерпретацию полученных результатов на конкретных задачах: экспериментах по предсказанию части речи слова (POS-tagging) и машинному переводу. В ходе экспериментов ученые показали, что универсальные доноры помогают языковым моделям лучше понимать малоресурсные языки, что подтверждается ростом метрик в вышеупомянутых задачах.

Результаты открывают новые возможности для исследования малоресурсных языков и совершенствования методов их обработки. Они подтверждают, что даже при ограниченных ресурсах можно достичь значительных улучшений, создав базу для дальнейших исследований и разработки более эффективных подходов.

«Одна из проблем заключается в том, что современные исследования сосредоточены на многоресурсных языках из-за их доступности. Это приводит к тому, что почти все статьи и исследования сводятся к языкам, которые и так прекрасно изучены. Прошлые работы в данной области использовали не более нескольких десятков языков для анализа, а в качестве малоресурсных рассматривали, к примеру, литовский, который едва ли можно таковым назвать. В нашем исследовании мы проанализировали почти 200 языков, включая вымирающие или уже вымершие. В будущем планируем продолжить исследования на разных моделях, чтобы внутри них найти и понять различия в представлении языков», — подчеркнул Виталий Протасов, младший научный сотрудник Института AIRI.

Читать далее:

Студент с помощью ИИ за месяц собрал дома термоядерный реактор и получил плазму

Физики раскрыли тайну эффекта, который описал еще Эйнштейн

Зонд «Новые горизонты» показал, насколько темный на самом деле космос

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Телескоп «Уэбб» рассмотрел уникальные детали рождения двух звезд
Космос
Предиктивная аналитика: как прогнозы в промышленности помогают повысить маржинальность
Мнения
Сапфировые наноструктуры защищают экраны от царапин, а линзы — от запотевания и влаги
Наука
Ученые разрабатывают «искусственные мышцы» для борьбы с тремором рук
Наука
Модуль «Афина» упал при посадке на Луну, но луноход и часть приборов работают
Космос
«Убегающие» звезды указали на скрытую черную дыру вблизи Млечного Пути
Космос
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Космос
Гуманоидный робот с ИИ начал работать в лаборатории по созданию лекарств
Новости
Зонд «Афина» готовится к посадке у южного полюса Луны: где смотреть трансляцию
Космос
Китайские ученые «хранили свет» более часа: это новый рекорд
Наука
Предложена теория, которая объединяет квантовую механику и общую теорию относительности
Наука
Часть приборов «Вояджеров» отключат ради продления миссии за пределами Солнечной системы
Космос
Google тестирует поиск на основе ИИ: он дает ответы на развернутые вопросы
Новости
Свет впервые превратили в твердое тело, которое течет как жидкость
Наука
Квантовые технологии становятся компактнее: физики охладили атомы в системе на чипе
Новости
Модуль Blue Ghost поймал сигнал GPS на поверхности Луны
Космос
Сэм Альтман объявил о задержке выхода ChatGPT-4.5 и анонсировал изменение системы оплаты
Новости
В Китае нашли останки «гигантского» скорпиона, который жил в эпоху динозавров
Наука
Астрономы наблюдали сигналы от планеты, которую разорвала собственная звезда
Космос
Опубликовано подробное видео посадки модуля Blue Ghost на Луну
Космос