OpenAI расшифровала более миллиона часов видео на YouTube для обучения ChatGPT

Для обучения ИИ техногиганты использовали «серые схемы» и обсуждали нарушение закона, сообщает New York Times.

Отчет New York Times подробно рассказывает, как крупные компании в области искусственного интеллекта решали проблему недостатка качественных данных для обучения ИИ. По данным журналистов лидеры рынка активно использовали «серые схемы», обсуждали возможность нарушения авторских прав и меняли пользовательские соглашения.

Компания OpenAI, как сообщается, разработала собственную модель для расшифровки аудио Whisper и использовала более миллиона часов видео с YouTube для обучения наиболее известной большой языковой модели GPT-4. При этом журналисты пишут, что компания знала, что пользовательское соглашение YouTube запрещает автоматизированное распознавание видео.

Представители Google, которой принадлежит YouTube, сообщили The Verge, что компания «видела неподтвержденные сообщения» о деятельности OpenAI. Они также подтвердили, что Условия обслуживания запрещают несанкционированное сканирование или загрузку контента YouTube. При этом журналисты пишут, что Google не препятствовала сбору данных с видеохостинга, потому что также использовала расшифровку данных для обучения собственного ИИ.

С проблемой недостатка качественных данных также столкнулась Meta*, которой принадлежат социальные сети Instagram* и Facebook*. По данным американских журналистов, на внутренних совещаниях в компании обсуждали возможность использовать защищенный авторским правом контент несмотря на возможные иски или покупку издательства, чтобы получить доступ к книгам.

Модели ИИ становятся лучше, чем больше данных они поглощают. Разработчики таких систем находятся в постоянном поиске новых источников за пределами общедоступной информации в сети, которая уже полностью использована.

Возможное решение этой проблемы использовать синтетические данные. В этом случае модели ИИ сами генерируют искусственный контент и используют его для обучения. Но судя по многочисленным сообщениям и искам — компании также активно используют пользовательскую информацию несмотря на возможные риски.

* Компания Meta Platforms Inc. признана в России экстремистской. Деятельность компании и принадлежащих ей социальных сетей Facebook и Instagram на территории РФ запрещена


Читать далее:

Ученые поняли, почему «Вояджер-1» отправлял ерунду почти пять месяцев

Посмотрите, что подводный робот нашел на дне Байкала

Солнечное затмение: чем оно опасно, когда и как смотреть в России, и сколько продлится

На обложке: Изображение от freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Юпитер оказался не таким, как считали ученые: открытие опровергает гипотезу о гиганте
Космос
Физики придумали, как найти новые измерения в пространстве
Наука
Посмотрите на первое фото кометы C/2024 G3 в России: она прилетает раз в 160 000 лет
Космос
Ученые нашли необычные частицы: их поведение невозможно объяснить обычной физикой
Наука
Байден запретит поставки ИИ-чипов в Россию: что ответила NVIDIA
Новости
300 млрд киловатт-часов: Китай строит крупнейшую в мире гидроэлектростанцию
Новости
Парниковые газы предложили хранить в стенах домов для борьбы с изменением климата
Наука
Ученые разгадали тайну, как древние птерозавры поднялись в воздух
Наука
Эксперимент показал, что фотоны света могут вести себя как частицы темной материи
Наука
ИИ создал крупнейшую базу данных фотографий северного сияния
Наука
Молекулы РНК превратили в «фонарики», чтобы отслеживать их работу в клетке
Наука
Европейский зонд показал северный полюс Меркурия в рекордных деталях
Космос
Посмотрите, как изменится внешний вид людей через 30 лет  
Наука
Посмотрите на первые фото Tesla Model Y без камуфляжа  
Новости
«Тостер» для смартфона обновляет зарядку гаджета за секунды
Новости
Гаджет, который научился читать мысли человека, показали на CES 2025
Новости
Эта камера будет снимать на Луне: Nikon представила прототип на CES 2025  
Новости
Ярчайший гамма-всплеск в истории связали с теорией струн и темной материей  
Новости
Наука в фокусе: кто и зачем делает научно-популярные видеоблоги в России
Кейсы
Telegram раскрыл данные о 2000 пользователях в после ареста Дурова
Новости