Сотрудники музыкальных сервисов слушают песни или читают их тексты для того, чтобы определить, есть ли там мат. Компания Deezer представила ИИ, который в скором времени сможет автономно справиться с этой задачей. Служба потоковой музыки представила технику машинного обучения, которая обнаруживает матерные слова, прослушивая аудио.
Вместо того, чтобы просто обучать ИИ распознавать мат с помощью большого набора аннотированных семплов, алгоритм самостоятельно извлекает вокал и ищет случаи, когда слово совпадает с записями в словаре нецензурных выражений. Простой двоичный классификатор решает, является ли данное слово матерным.
Команда также надеется уменьшить предвзятость и повысить точность алгоритма, используя равное количество песен из каждого музыкального жанра. Однако в Deezer уверены, что ИИ пока нельзя использовать как единственный инструмент. Несмотря на то, что он гораздо лучше выявляет нецензурную лексику, чем классический метод, ему все же не хватает мощностей для всестороннего анализа.
В будущем технология продвинется настолько, что ИИ сможет работать в одиночку. Это не только уменьшит нагрузку на сотрудников, прикрепляющих метки «нецензурный» к песням, но и снизит вероятность того, что пользователи меньше 18 лет услышат мат в произведениях.