Кейсы 14 февраля 2017

Новый микрочип, распознающий речь, потребляет на 99% меньше энергии

Далее

Исследователи МТИ разработали чип автоматического распознавания речи для мобильных устройств, который экономит от 90% до 99% энергии по сравнению с существующими аналогами.

Тогда как смартфон, на котором установлена программа распознавания речи, может потреблять около 1 ватта энергии, новый чип требует всего от 0,2 до 10 милливатт, в зависимости от количества слов, которые ему нужно обработать.

Чип создан таким образом, чтобы постоянно работать в энергосберегающем режиме и идеально подходит для использования в мобильных и носимых устройствах, которым важно как можно дольше работать на одном заряде. «Голосовой ввод становится естественным интерфейсом для многих носимых приложений и умных устройств. Их миниатюризация требует другого интерфейса, не сенсорного экрана или клавиатуры. Важно будет встраивать голосовой функционал так, чтобы не растрачивать лишнюю энергию», — говорит профессор Анантха Чандракасан, чья группа и разработала новый чип.

Современные системы распознавания голоса могли бы быстро разрядить батарею смартфона, если бы работали постоянно. Поэтому в микрочипах есть простой «детектор голосовой активности», который отличает посторонние шумы от речи.

Проведя эксперимент, ученые установили, что самая сложная электрическая схема детектора голосовой активности — самая энергосберегающая. Несмотря на то, что она потребляет больше энергии, она создает меньше ложно-положительных сигналов, то есть реже активирует систему распознавания речи.

Нейронная сеть для распознавания речи слишком велика, чтобы ее можно было уместить в памяти устройства, и приходится обращаться к памяти вне микросхемы, а это снова ведет к энергозатратам. Ученые МТИ постарались минимизировать объем данных, которые чип извлекал бы из сторонних источников.

Детектор речи, который ученые разместили на чипе, работает на скрытой марковской модели, рассказал изданию TechCrunch Майкл Прайс, студент МТИ, работавший в команде Чандракасана. «Она переводит аудиосигналы произвольной длины в предложения. Модель перевода — это взвешенный конечный преобразователь. Акустическая модель — упреждающая нейронная сеть», — объясняет он.

Блокчейн завоюет финансовый мир к 2020 году

Цукерберга хотят снять с поста главы совета директоров Facebook

По прогнозам Gadget Show, в течение 5 лет технологии распознавания лиц и голоса станет стандартом безопасности для миллионов мобильных устройств. С 2016 по 2021 год в мире появится более 600 миллионов устройств, которые будут оснащены инструментами биометрической идентификации.