Исследователи создали алгоритм, который умеет распознавать диалекты, сленг и язык, которым обычно общаются люди в интернете. Его обучили на Википедии, Urban Dictionary и Twitter.
Исследователи из Стэнфордского университета создали «социально справедливый» инструмент обработки естественного языка. Он учитывает даже региональные диалекты и сленг, пишет VentureBeat.
Новый инструмент под названием Equilid, по данным разработчиков, является более точным, чем обычно используемые средства идентификации, такие как langid.py и CLD2 от Google. Equilid был создан для того, чтобы лучше понимать сленг, региональные диалекты и язык общения людей в интернете, особенно когда они переключаются между языками.
Equilid обучали на Википедии, Urban Dictionary, Twitter, новостных сайтах. Он может распознавать почти 98 млн твиттов от 1,5 млн пользователей на 53 языках. По мнению разработчиков, более эффективная идентификация языка может даже помочь выявлять опасные тенденции в развитии инфекционных заболеваний. Кроме того, он повышает точность распознавания речи и может находить закономерности — к примеру, идентифицировать предубеждения против расы или пола.
Следующее поколение интернет-пользователей будет безграмотным
Технологии
Весной этого года IBM удалось снизить долю ошибок в компьютерном распознавании речи до 5,5%, и это стало новым рекордом. Ранее искусственный интеллект компании показывал результат в 6,9%, а прежний рекорд алгоритма от Microsoft составлял 5,9% ошибок. Для человека доля ошибок в распознавании речи равна примерно 5%.