Кейсы 5 октября 2016

Baidu представила голосовую виртуальную клавиатуру для Android

Далее

Приложение TalkType для мобильных устройств на базе Android выводит на передний план голосовой набор, а не традиционный метод ввода текста. В основе разработки лежит алгоритм машинного обучения, который превосходит человека по скорости и качеству набора текста. Технология Baidu позволяет свободно диктовать текст любого объема и сложности на английском языке, впрочем без "трудностей перевода" не обошлось

TalkType распознает английскую речь, а также отдельные голосовые команды, в том числе знаки препинания. Приложение разработало подразделение Baidu Research, которое базируется в калифорнийской Кремниевой долине и в Пекине. «TalkType — это первая смартфон-клавиатура, в которой голос играет ключевую, а не вспомогательную роль», — отметил руководитель лаборатории ИИ Baidu Research Биджит Халдер.

В основе TalkType лежит алгоритм распознавания речи Deep Speech 2, адаптированный для английского и китайского языков. Еще летом эту технологию испытали эксперты из Стэнфордского университета и Университета штата Вашингтон. Алгоритм соревновался с 32 участниками эксперимента. Они должны были набирать словосочетания на слух. Англоязычные пользователи использовали раскладку QWERTY, а носители китайского языка — клавиатуру пиньинь для iOS. В результате Deep Speech 2 набирала тексты на английском языке в 3 раза быстрее, а на китайском в 2,8 раз быстрее человека, а также делала меньше ошибок — особенно на китайском языке.

Робот-каменщик теперь может выкладывать 1000 кирпичей в час

В программе также есть функция QuickShare, которая позволяет быстро вставлять GIF-изображения, геолокацию и другие данные. Приложение уже доступно бесплатно на Google Play, но пока что только с поддержкой английского языка.

Впрочем, в реальных условиях результат машинного набора текста пока далек от идеала. Издание Quartz опубликовало новостную заметку о голосовой клавиатуре, используя ее для набора текста. Корреспондент Дэвид Гершгорн приводит две версии каждого абзаца — расшифровку TalkType и отредактированную человеком версию. Как отмечает журналист, с именами собственными программа справляется плохо, а необходимость называть знаки препинания вслух утомляет.

Ученые приблизили создание компьютеров нового поколения

Тем не менее, многие эксперты прогнозируют постепенный переход от привычных методов ввода к голосовым интерфейсам. Виртуальные помощники, вроде Siri и Alexa, все лучше распознают речь и команды. Google недавно приобрела российский стартап Api.ai — платформу для разработки клиентоориентированных голосовых интерфейсов. В Google считают, что за ними будущее. Ранее глава компании Сундар Пичаи заявил, что пользователи направляют 20% поисковых запросов в Google на мобильных телефонах с помощью голоса. Сегодня голосовые интерфейсы позволяют управлять транспортными средствами, приборами интернета вещей и даже удостоверять свою личность в банке.