Появилась самая большая база образцов речи. По ней будут учить алгоритмы

Консорциум MLCommons выпустил самый полный набор данных о человеческой речи на английском языке, чтобы обучать алгоритмы.

Как заявили в MLCommons, их набор данных — один из самых крупных в мире. Записи голоса, собранные там, лицензированы для академического и коммерческого использования. Также там есть разговорные слова на разных языках (MSWC), это также самый крупный датасет, собранный на 50 языках.

Датасеты помогут разным разработчикам создавать свои системы распознавания речи, при этот тратя меньше денег, чем раньше.

Современные модели машинного обучения полагаются на огромные объемы данных для обучения. Наши датасеты с самым большим количеством данных на 50 языках отлично подойдут для этого. Мы провели исследование и поняли, что на большинстве из этих 50 языков никогда не было общедоступных наборов данных для определения ключевых слов. Если даже они и были, то имели очень ограниченный словарный запас. 

Текст сообщения

С 2018 года во главе с MLCommons появилась рабочая группа, которая определила 50 наиболее часто используемых языков в мире и объединила информацию о них в единый набор данных. В группе были сотрудники Гарварда и Мичиганского университета, а также представители Alibaba, Oracle, Google, Baidu, Intel и других крупных компаний. 

В результате получилось два набора данных — People’s Speech — он нацелен на распознавание речи, и второй, MSWC, он работает на поиск и идентификацию ключевых слов.

Набор данных People’s Speech включает более 30 тыс. часов аудиозаписей разговоров, выпущенных по лицензии Creative Commons. Данные можно использовать для создания моделей распознавания голоса или ПО для транскрипции.

MSWC содержит более 340 тыс. ключевых слов с более чем 23,4 млн примеров и охватывает языки, на которых говорят более 5 млрд человек. Набор подойдет, например, для центров обработки вызовов и интеллектуальных устройств.

Читать далее

Зонд Mars Express «пообщался» с китайским ровером на Красной планете

Исследование из Китая: штамм омикрон обходит защиту от вакцинации и перенесенного COVID-19

Посмотрите на рыбу с прозрачным лбом: ее мозг и глаза видно сквозь голову

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Тайны древней звезды по соседству изучили, «подслушав ее песню»
Космос
Baidu делает ИИ для перевода звуков животных в человеческую речь
Наука
Оказалось, ИИ врет чаще при одном условии: как этого избежать
Новости
Суперкомпьютер Маска сжирает электричество как 300 000 домов: люди протестуют
Новости
Посмотрите, как робот стремительно отбивает подачи в настольном теннисе
Новости
Физики исполнили мечту алхимиков: свинец в коллайдере превратили в золото
Наука
Создано музыкальное приложение для реабилитации после инсульта
Наука
«Эффект аккордеона» превращает жесткий графен в эластичный материал
Наука
ИИ восстановил имя автора свитка, который пережил последний день Помпеи
Наука
Частный лунный модуль вышел на орбиту спутника после двух месяцев полета
Космос
Предок тираннозавра «иммигрировал» в Америку из Азии, считают ученые
Наука
Обновленный Gemini 2.5 Pro от Google возглавил рейтинг ИИ для разработчиков
Новости
Ученые решили проблему, которая мешала запуску термоядерных реакторов почти 70 лет
Наука
Китайское «супероружие» для подводных диверсий оказалось не таким, как считалось
Новости
Отключение мобильного интернета в Москве: какие последствия для бизнеса
Новости
Киберполиция назвала новые схемы мошенников: как они воруют аккаунты на «Госуслугах»
Новости
Хокинг предсказал гибель Земли: оказалось, НАСА сочло угрозу реальной
Наука
Создатель Ethereum признал свои ошибки и решил изменить криптовалюту
Новости
«Ред ОС 8» заработала на Arm-платформах — теперь и на «Байкале»
Новости
Компания Цукерберга использовала уязвимость подростков для рекламы
Новости