Ученые из Яндекса и MIT придумали, как запускать LLM на ноутбуках и смартфонах

Команда Yandex Research совместно с учёными из НИУ ВШЭ, MIT, KAUST и ISTA разработала метод быстрой квантизации больших языковых моделей (LLM), который позволяет запускать их даже на обычных устройствах — без дорогих серверов и мощных видеокарт. Об этом «Хайтеку» сообщили в пресс-службе «Яндекса».

Новый подход сокращает размер модели, сохраняя её качество, и избавляет от необходимости использовать специализированное оборудование. Теперь для тестирования и внедрения нейросетей достаточно ноутбука или смартфона. Это делает технологии доступными для небольших компаний, независимых разработчиков и исследовательских групп.

Раньше квантизация моделей занимала часы или даже недели — и требовала серверов с высокой вычислительной мощностью. Теперь её можно провести прямо на конечном устройстве за считанные минуты.

Почему это важно

Большие языковые модели до сих пор были доступны лишь ограниченному числу игроков — из-за их огромного размера и требований к инфраструктуре. Даже если модель распространяется в открытом доступе, воспользоваться ею могли только те, кто располагает мощным «железом». Например, DeepSeek-R1 с 671 млрд параметров не помещается даже на продвинутые AI-серверы.

Метод от Yandex Research позволяет запускать такие гигантские модели в сжатом виде без серьёзных потерь качества. Это открывает доступ к LLM в сферах с ограниченными ресурсами — например, в образовании, в научных стартапах или для государственных нужд.

В чём суть метода

Метод получил название HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети:

  • без дополнительной подготовки данных;
  • без сложной оптимизации параметров;
  • с сохранением высокого качества.

Это особенно важно, если у разработчиков нет собственных датасетов или ресурсов на дообучение модели.

Метод уже протестировали на популярных моделях Llama 3 и Qwen2.5. Результаты показали, что HIGGS — лидер по соотношению качества и размера среди всех бездатасетных методов квантизации, включая NF4 и HQQ.

Доступность и признание

Метод уже выложен на Hugging Face и GitHub, а подробное описание опубликовано в препринте на arXiv. Научную статью приняли на конференцию NAACL 2025 — одно из крупнейших мероприятий по ИИ в мире, которая пройдёт в Альбукерке (США) с 29 апреля по 4 мая. Там же выступят Google, Microsoft Research, Гарвард и другие ключевые игроки.

Работой уже заинтересовались Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии и Фуданьский университет — они сослались на статью в своих исследованиях.

Что делал Яндекс до этого

Это не первый вклад команды в развитие квантизации: ранее Yandex Research представил 12 научных работ на эту тему. В их числе — методы, которые сокращают вычислительные затраты в 8 раз без существенного падения качества, а также веб-сервис, позволяющий запускать 8-миллиардную LLM прямо в браузере, без необходимости использовать мощный ПК.

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Эта черная дыра «проснулась» настолько голодной, что нарушила все модели ученых
Космос
Мошенники начали использовать схему с домофоном, чтобы красть деньги с банковских карт
Новости
Галактика-соседка Млечного Пути начинает разрушаться: что происходит
Космос
Россиян поздравили с Днем космонавтики прямо с МКС
Космос
Разработаны «бактерии-шпионы»: они посылают сигнал, заметный с высоты
Наука
Ученые разработали «плащ-невидимку» для нейронов для лечения Паркинсона
Наука
В России разработали проект строительства атомной электростанции на Луне
Космос
Пробуждение гиганта: яркие вспышки наблюдали у проснувшейся черной дыры
Космос
В ИТМО придумали, как «продлить жизнь» ракового белка для тестирования лекарств
Наука
Создана карта полумиллиарда нейронных связей, которые позволяют мышам видеть
Наука
Облачную платформу для квантовых вычислений создали в Университете Иннополис
Новости
Эйнштейн ошибся: возможно, пространства-времени вообще не существует
Космос
Тестовый снимок «Гершель» показал скрытые галактики во Вселенной
Космос
«Яндекс» ищет хакеров, чтобы проверить безопасность нейросетей
Новости
Запрет ИИ обсудят в России: каким будет новый закон
Наука
Google показала Ironwood: чип для ИИ, который в 24 раза быстрее самого мощного суперкомпьютера
Новости
Найдена связь между незаметными повреждениями мозга и риском деменции
Наука
Ученые придумали, как защитить изделий из титана в экстремальных условиях
Новости
Посмотрите на боевого робота-скарабея: его сделали в Москве
Новости
Калифорнийский стартап представил «фотонный компьютер нового типа»
Новости