Команда Yandex Research совместно с учёными из НИУ ВШЭ, MIT, KAUST и ISTA разработала метод быстрой квантизации больших языковых моделей (LLM), который позволяет запускать их даже на обычных устройствах — без дорогих серверов и мощных видеокарт. Об этом «Хайтеку» сообщили в пресс-службе «Яндекса».
Новый подход сокращает размер модели, сохраняя её качество, и избавляет от необходимости использовать специализированное оборудование. Теперь для тестирования и внедрения нейросетей достаточно ноутбука или смартфона. Это делает технологии доступными для небольших компаний, независимых разработчиков и исследовательских групп.
Раньше квантизация моделей занимала часы или даже недели — и требовала серверов с высокой вычислительной мощностью. Теперь её можно провести прямо на конечном устройстве за считанные минуты.
Почему это важно
Большие языковые модели до сих пор были доступны лишь ограниченному числу игроков — из-за их огромного размера и требований к инфраструктуре. Даже если модель распространяется в открытом доступе, воспользоваться ею могли только те, кто располагает мощным «железом». Например, DeepSeek-R1 с 671 млрд параметров не помещается даже на продвинутые AI-серверы.
Метод от Yandex Research позволяет запускать такие гигантские модели в сжатом виде без серьёзных потерь качества. Это открывает доступ к LLM в сферах с ограниченными ресурсами — например, в образовании, в научных стартапах или для государственных нужд.
В чём суть метода
Метод получил название HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети:
- без дополнительной подготовки данных;
- без сложной оптимизации параметров;
- с сохранением высокого качества.
Это особенно важно, если у разработчиков нет собственных датасетов или ресурсов на дообучение модели.
Метод уже протестировали на популярных моделях Llama 3 и Qwen2.5. Результаты показали, что HIGGS — лидер по соотношению качества и размера среди всех бездатасетных методов квантизации, включая NF4 и HQQ.
Доступность и признание
Метод уже выложен на Hugging Face и GitHub, а подробное описание опубликовано в препринте на arXiv. Научную статью приняли на конференцию NAACL 2025 — одно из крупнейших мероприятий по ИИ в мире, которая пройдёт в Альбукерке (США) с 29 апреля по 4 мая. Там же выступят Google, Microsoft Research, Гарвард и другие ключевые игроки.
Работой уже заинтересовались Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии и Фуданьский университет — они сослались на статью в своих исследованиях.
Что делал Яндекс до этого
Это не первый вклад команды в развитие квантизации: ранее Yandex Research представил 12 научных работ на эту тему. В их числе — методы, которые сокращают вычислительные затраты в 8 раз без существенного падения качества, а также веб-сервис, позволяющий запускать 8-миллиардную LLM прямо в браузере, без необходимости использовать мощный ПК.
Читать далее:
Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды