Группа «Т-Технологии» открыла доступ к двум языковым моделям: T-Pro с 32 млрд параметров и обновленную версию T-Lite с 7 млрд параметров. Обе модели разработаны на базе открытой архитектуры Qwen-2.5 и были дополнительно обучены для работы с русскоязычными задачами.
Разработчики использовали технологию продолженного предобучения (Continual Pretraining). Это процесс, при котором уже обученную на больших объемах информации модель продолжают тренировать на материалах, специфичных для определенной задачи или области, и адаптируют ее на русский язык. По словам представителей компании, это позволило сократить затраты на создание моделей примерно на 80-90% по сравнению с разработкой с нуля.
Модели доступны для загрузки на платформе Hugging Face под открытой лицензией Apache 2.0. T-Pro работает в двух режимах: ее можно дообучить под конкретные бизнес-задачи, а также использовать в режиме промптинга — ставить задачи в режиме диалога.
Разработчики заявляют, что при решении задач на русском языке эта модель превосходит аналогичные открытые модели по индустриальным бенчмаркам MERA, ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval. При этом в ряде тестов она уступает проприетарной GPT-4o.
Директор по искусственному интеллекту Т-Банка Виктор Тарнавский считает, что публикация моделей позволит компаниям эффективнее внедрять технологии ИИ, не тратить средства на обучение собственных LLM.
Читать далее:
323 флакона со смертельными вирусами пропали из лаборатории в Австралии
Квантовый чип Google превзошел суперкомпьютеры на септиллионы лет
Создан уникальный квантовый двигатель: Эйнштейн высмеивал эту идею
Иллюстрация на обложке: Изображение от freepik, сведения о лицензии