Первое место в конкурсе заняла китайская технологическая компания USTC-iFlytek — ее инженеры смогли создать алгоритм, который с точностью в 53,6% распознал слова и предложения на фоне громкого шума и среди многочисленных голосов. Система российской команды смогла добиться точности распознавания в 45,5%.
«Как и у других научных челленджей, задача CHiME — обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. В этом году мы как раз решали самую сложную из них. По итогам участники выступают на конференции с докладами по своим решениям. Так что это не только шанс „поломать голову“ и похвастать результатом, но и обменяться опытом с коллегами и вместе с ними приблизиться к решению задачи, над которой человечество бьется уже много лет».
Нейросеть «ВКонтакте» сможет распознать товары на фото и видео
Идеи
В рамках конкурса участникам необходимо было распознать речь говорящих людей из различных отрывков — на фоне многочисленных голосов, записанных на вечеринках и ужинах. Слышна при этом была не только речь других людей, но также музыка и звон тарелок.