Огромные датасеты не нужны
История машинного обучения началась на заре XX века. За это время модели прошли путь от простых алгоритмов, которые умели фильтровать письма и находить вредоносные программы, до интеллектуального анализа данных, способных предсказать развитие болезни у пациентов и победить шахматистов мирового класса.
Какой бы ни была задача модели, ее цель — предсказать результат по входным данным. Чем разнообразнее датасет (набор данных, которые «скармливают» модели), тем алгоритму проще найти закономерности, а значит, точнее результат на выходе.
Для работы модели нужно два основных компонента: данные и алгоритм. Под данными подразумевается уже размеченная информация, где каждому примеру входных данных (например, фотографии улицы, на которых есть пешеходы) поставлен ожидаемый результат работы нейросети (контуры фигур пешеходов, которые должна выделить нейросеть).
Сейчас в мире машинного обучения доминирует подход, ориентированный на саму модель, поэтому ML-инженеры тратят много времени на алгоритмы — второй важный компонент работы модели. От выбора алгоритма зависит скорость и точность работы. Но, несмотря на то, что этот подход проще и интереснее для инженеров, не стоит забывать о простом принципе garbage in, garbage out. Если собранные данные не репрезентативны, никакие алгоритмические хитрости не помогут улучшить качество работы модели. Поэтому фокус инженеров постепенно смещается на данные.
ML-инженеры все чаще смотрят в сторону data-centric AI, идея которого собрать меньше данных, но более качественных. Это эффективнее: отработка алгоритмов дает улучшение работы модели на 0–10%, а работа с качеством данных — на 10–30%.
Все начинается с данных
В идеальном мире компания, которая использует технологии машинного обучения соблюдает культуру сбора данных. Но со сбора данных все только начинается. Дальше идет трудоемкий и дорогостоящий процесс разметки. Следуя концепции Data-driven AI, ML-инженеры могут добиться гораздо более высоких результатов работы модели по сравнению с разметкой данных «как можно дешевле». Вот главные принципы этого подхода:
- Качественные гайдлайны по разметке
Можно подумать: зачем формализовать каждый пункт процесса постановки и решения задачи, когда ее можно сформулировать одним предложением. Допустим, речь идет о разметке данных для автопилота, она может звучать так: «выделите всех пешеходов на фотографиях». Но аннотаторы быстро встретят неоднозначные кейсы — выделять ли велосипедиста, человека на самокате или пассажира в открытом кузове как пешехода? Каждый аннотатор придет к ответу сам, но он будет разным и разрушит однородность данных. Поэтому нужно заносить все сложные примеры в базу данных, куда аннотаторы, в случае сложностей, могут обратиться. Но чтобы такой документ появился — нужна обратная связь от аннотаторов.
- Обратная связь
База данных не может появиться из ниоткуда. Для этого нужно два условия: культура уважения к обратной связи аннотаторов и ответственные за поддержание этой базы в актуальном состоянии сотрудники. Как правило, это самый опытный из разметчиков или сам дата-сайентист.
Ресурсы нужно подключать по мере образования ядра команды, которое чувствует всю ответственность и важность процесса, помогают новичкам включиться в него.
- Кросс-проверки
В компании чаще всего работает больше одного аннотатора с разными уровнями квалификации. Поэтому один и тот же набор данных можно разметить по-разному. Так что результаты работы надо периодически проверять. Это даст понимание, где специалисты сталкиваются со сложностями, которые стоит занести в базу данных — это снизит фактор человеческой ошибки.
- Пропуск данных через дата-саентиста
Прежде чем отдать аннотаторам данные для разметки, полезно, чтобы дата-сайентист сам окунулся в данные и разметил первые пару сотен примеров. Это позволит понять, насколько задача решаема для модели.
Хотя разделение труда привлекательно с точки зрения стоимости работы, не надо ждать от аннотаторов такого же уровня работы с данными, как от дата-сайентистов — разметчики не могут и не должны выявлять проблемы машинного обучения.
Если работать приходится со специфическими данными, нужны знания в отрасли. Например, если алгоритм должен распознавать рентгеновские снимки с опухолью, правильно обучить модель можно только в случае, если живые специалисты уверены, что в каждом отмеченном фрагменте есть новообразования, а не брак снимка.
- «Пограничные» примеры важны
Главный принцип ручной разметки — она должна быть интеллектуальной. В процессе обучения нейросети можно предположить, об какие примеры в тренировочной выборке она скорее всего «споткнется». Их лучше отдать на ручную разметку, это повысит качество работы модели больше, чем миллионы размеченных примеров, тренируясь на которых модель и так не ошибется.
- Аугментация или синтетика данных
Если данных мало или разметка собранных данных слишком дорогая — можно размножить их. Например, если данные текстовые, одни и те же пользовательские обращения можно перефразировать. Если это изображения — можно менять яркость, вырезать и переворачивать часть картинок.
В увеличении количества данных есть и другой подход — синтезировать их. Но такие данные не всегда могут заменить реальные, особенно если нейросеть выдает однотипные или идеализированные данные. В этом случае можно использовать синтетические данные только на определенных шагах работы модели.
От теории к практике
- Социальные сети
Чтобы обезопасить пользователей и оградить их от негатива, крупнейшие соцсети интегрируют детектор токсичного контента на основе машинного обучения. В процессе работы главной проблемой становится не подбор модели, а сбор и анализ данных. Проблема в том, что токсичного контента меньше, чем обычного, поэтому команде нужно собрать базу такого контента на платформе, что без алгоритма сделать нельзя. Поэтому на сбор данных уходит до 90% времени дата-сайентистов. Зато повышается качество работы финальной модели.
- Онлайн-ритейл
При тренировке модели, который превращает рецепт в список покупок на основе 2 млн примеров модель предсказуемо показывала качество в 97%. На масштабе модель работала прекрасно, но в случае конкретного ритейлера, с нетипичными продуктами качество резко падало до неприемлемых 70%. Для решения этой проблемы команда аннотаторов сфокусировалась на том, чтобы новые данные не терялись на фоне отработанного датасета. Модели было достаточно дотренироваться на пару тысяч примеров и качество снова выросло до 97%.
- Конвейерное производство
Компания, использовавшая искусственный интеллект для обнаружения дефектов деталей на конвейерной ленте, получила 90% точности работы модели после первоначальной работы с данными. Но такие показатели не дотягивали до требований клиента.
Пытаясь улучшить работу модели, ML-инженеры «полировали» работу алгоритмов, не работая с данными, что улучшило результат всего на 0,4%. После повторного анализа данных, очистки датасета от некачественно размеченных примеров и доразметки вновь собранных данных, результат повысился на 8%.
- Рекомендательная система
Рекомендательная система приложений рецептов стабильно показывала низкий показатель кликов — 5%. Работа с алгоритмами не помогала, а анализ данных указывал на то, что клиенты, чьи данные использовали для тренировки модели, в основном были вегетарианцами, а общая масса пользователей, в основном, ели мясо. Система, заточенная на вегетарианцев, плохо улавливала интересы остальных и была сильно подвержена влиянию предпочтений пользователей-вегетарианцев. Балансировка тренировочных данных улучшила конверсию до 11%.
В прошлом сфера искусственного интеллекта в основном фокусировалась на больших данных — обучение проводилось на обширном датасете. Несмотря на то, что в создании таких моделей все еще есть прогресс, фокус постепенно смещается на малые данные и работу с ними. Это расширяет входной порог в область ИИ — уже сейчас сложные решения можно создать даже с небольшим количеством данных.
Читать далее:
Черная дыра в Галактике подтвердила правоту Эйнштейна. Главное
Космос разрушает кости и меняет их структуру: ученые не знают, как люди полетят на Марс
Астрономы нашли планеты, которые отличаются от Земли, но пригодны для жизни