Пит Уорден, инженер из Google, разработал дешевые одноразовые микрочипы для распознавания голоса. Когда заряд батареи закончится, микрочип за 50 центов можно будет выбросить и купить новый.
При такой низкой цене «железо» станет одноразовым, и это откроет невиданные доселе возможности. Например, появятся детские игрушки или простая бытовая электроника с голосовым управлением. Уорден считает, что его изобретение возможно будет использовать и в промышленности, для отслеживания звуков, а не голосов, к примеру, шума станков.
Уорден понимает, что поставил перед собой трудную задачу. Уменьшить нейросеть Alexa, например, чтобы она работала на микрочипе с тактовой частотой всего в сотню мегагерц, нереально. Отчасти потому, что Alexa должна интерпретировать множество разных звуков, а еще потому, что ИИ, занимающийся распознаванием речи, требователен к ресурсам.
Поэтому инженер сузил задачу до определения всего нескольких самых нужных команд: «включить», «выключить», «старт», «стоп» и так далее. Также он отказался от обычных алгоритмов распознавания речи. Вместо этого взял аудиозапись, нарезал ее на короткие отрывки и рассчитал частотный спектр каждого из них. Затем он выстроил каждый из графиков частоты один за другим, создав двухмерное изображение частотного спектра по отношению ко времени, и применил алгоритмы распознавания визуальной информации для определения характерной сигнатуры произнесения отдельного слова.
Спустя 20 лет лекарство, которое подавляет гены, доказало свою эффективность
Идеи
Первые испытания требовали 8 миллионов вычислений для анализа записи длиной 1 секунду с точностью 89%. Их можно было запускать на мобильном телефоне и отказаться от облака, но слабые микрочипы с ними справлялись плохо. Однако после применения алгоритмов, которые использовались в Android для распознавания фразы «Оk, Google», система смогла проводить анализ речи с 85% точностью и сократить число операций до 750 000.
Инженеры опубликовали свой код на сайте TensorFlow для свободного использования. Сейчас он работает на микрочипах вроде тех, которые используются в смартфонах или Raspberry Pi, но Уорден собирается еще больше упростить его, чтобы с ним справлялись чипы Arduino, сообщает MIT Technology Review.
Японские города начали отключаться от централизованных энергосетей
Технологии
Рекорд в распознавании речи принадлежит Microsoft. Компания добилась снижения числа ошибок до 5,1%. До этого лидировала IBM — 5,5% ошибок.