Исследователи обнаружили, что если сравнивать нейронные сети с разными обучающими метками, то эффективнее будут те, которые записаны человеческим голосом, а не с помощью простых двоичных входных данных.
Язык двоичных чисел компактен и точен для передачи информации. В отличие от этого, разговорный человеческий язык более тональный и аналоговый. Поскольку числа являются эффективным способом оцифровки данных, программисты редко используют входыне данные другого типа, когда разрабатывают нейронную сеть.
Одно из наиболее распространенных упражнений для проверки нового метода машинного обучения: научить ИИ распознавать объекты или животных на фотографии. Авторы новой работы провели эксперимент: они создали две новые нейронные сети, которые должны были распознавать десять различных типов объектов на коллекции из 50 тыс. фотографий.
Первая система ИИ была обучена традиционным способом: в нее загрузили таблицу данных из тысяч строк, каждая соответствовала одной тренировочной фотографии.
А во вторую систему авторы загрузили таблицу данных, строки которой содержали фотографию животного или объекта, а во второй колонке был аудиофайл, на котором человек произносит название объекта или животного.
В результате первая нейросеть выдавала цифровое значение объекта, который ей показывали, а вторая пыталась «сказать» то, что она видела. Оба алгоритма справлялись с задачей одинаково эффективно и отвечали правильно в 92% случаев, отмечают авторы.
Однако результаты эксперимента изменились, когда ученые сократили выборку с 50 тыс. до 2,5 тыс. Тогда правильность ответов первого ИИ упала до 35%, а у второго, который был обучен голосом, снизилась всего до 70%.
Читать далее
Исследователи впервые погрузились к самому глубоколежащему утонувшему кораблю
Создана первая точная карта мира. Что не так со всеми остальными?
Появилась беспроводная система, которая помогает парализованным