Создан одноразовый ИИ-чип распознавания голоса

При такой низкой цене «железо» станет одноразовым, и это откроет невиданные доселе возможности. Например, появятся детские игрушки или простая бытовая электроника с голосовым управлением. Уорден считает, что его изобретение возможно будет использовать и в промышленности, для отслеживания звуков, а не голосов, к примеру, шума станков.

Уорден понимает, что поставил перед собой трудную задачу. Уменьшить нейросеть Alexa, например, чтобы она работала на микрочипе с тактовой частотой всего в сотню мегагерц, нереально. Отчасти потому, что Alexa должна интерпретировать множество разных звуков, а еще потому, что ИИ, занимающийся распознаванием речи, требователен к ресурсам.

Поэтому инженер сузил задачу до определения всего нескольких самых нужных команд: «включить», «выключить», «старт», «стоп» и так далее. Также он отказался от обычных алгоритмов распознавания речи. Вместо этого взял аудиозапись, нарезал ее на короткие отрывки и рассчитал частотный спектр каждого из них. Затем он выстроил каждый из графиков частоты один за другим, создав двухмерное изображение частотного спектра по отношению ко времени, и применил алгоритмы распознавания визуальной информации для определения характерной сигнатуры произнесения отдельного слова.

Спустя 20 лет лекарство, которое подавляет гены, доказало свою эффективность

Идеи

Первые испытания требовали 8 миллионов вычислений для анализа записи длиной 1 секунду с точностью 89%. Их можно было запускать на мобильном телефоне и отказаться от облака, но слабые микрочипы с ними справлялись плохо. Однако после применения алгоритмов, которые использовались в Android для распознавания фразы «Оk, Google», система смогла проводить анализ речи с 85% точностью и сократить число операций до 750 000.

Инженеры опубликовали свой код на сайте TensorFlow для свободного использования. Сейчас он работает на микрочипах вроде тех, которые используются в смартфонах или Raspberry Pi, но Уорден собирается еще больше упростить его, чтобы с ним справлялись чипы Arduino, сообщает MIT Technology Review.

Японские города начали отключаться от централизованных энергосетей

Технологии

Рекорд в распознавании речи принадлежит Microsoft. Компания добилась снижения числа ошибок до 5,1%. До этого лидировала IBM — 5,5% ошибок.

Создан одноразовый ИИ-чип распознавания голоса

Читайте «Хайтек» в