Подразделение Alphabet по разработке искусственного интеллекта, Google AI, создало нейросеть, способную распознавать речь без микрофона — только на основе визуального анализа. Об этом пишет Venturebeat.
Алгоритм, который получил название SpecAugment, использует средства визуального распознавания данных для определения речи по спектрограммам, визуальным представлениям слов и звуков.
В ходе тестирования на библиотеке устной речи LibriSpeech960h точность распознавания составила 97,4%, а при прослушивании 260-часовой подборки телефонных разговоров упала до 93,2%, говорится в сообщении компании.
Ранее инженеры из Массачусетского технологического института (MIT) разработали алгоритм, который позволяет роботизированной руке определить состояние объекта и на основе этого вылепить из него определенную форму.