Компания ужала модель голосового управления до 200 килобайт без потери качества. Нейросеть работает локально, почти не тратит заряд и не отправляет аудио в облако. Об этом сообщает «Хайтек» со ссылкой на пресс-службу «Яндекса».
Руководитель направления голосовой активации в «Яндексе» Дмитрий Солодуха рассказал о разработке ультрамалой нейросетевой модели. Её объём сократили примерно до 200 килобайт. Это меньше, чем одна фотография на смартфоне.
Носимые устройства сильно ограничены по аккумулятору, памяти и вычислительной мощности. При этом система голосовой активации обязана непрерывно слушать аудиопоток и ждать ключевую команду. Инженеры применили двухэтапную схему. Сначала лёгкая модель определяет, есть ли речь в потоке звука, и почти не нагружает устройство. Основная модель включается только после этого и проверяет, произнесли ли ключевую фразу.
Число параметров нейросети сократили примерно в десять раз за счёт более компактной архитектуры. Качество распознавания при этом не пострадало. Обработка идёт локально, аудиосигнал не уходит в облако. Это снижает энергопотребление и уменьшает задержку. Дополнительно инженеры задействовали чипы с NPU — специализированным нейропроцессором, который ускоряет вычисления и тратит меньше энергии, чем обычный процессор.
По словам Солодухи, подход применим в любых устройствах с обработкой речи в реальном времени: наушниках, умных часах и других компактных носимых гаджетах с ИИ-функциями.
Читать далее:
Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды
Обложка: magnific