IBM создали набор данных Project CodeNet: 14 млн образцов кода научат ИИ программировать

Подразделение IBM по исследованиям искусственного интеллекта представило набор данных из 14 млн выборок для разработки моделей машинного обучения, которые могут помочь в задачах программирования. Набор данных Project CodeNet получил свое название от ImageNet, знаменитого хранилища помеченных фотографий, которое произвело революцию в компьютерном зрении и глубоком обучении. Об этом пишет Venture Beat.

Программисты открывают новые проблемы и исследуют различные решения, используя множество механизмов сознательного и подсознательного мышления. Напротив, большинство алгоритмов машинного обучения требуют четко определенных задач и большого количества аннотированных данных для разработки моделей, которые могут решать те же проблемы.

Экспертным сообществом было приложено много усилий для создания наборов данных и тестов для разработки и оценки систем «ИИ для кода». Но, учитывая творческий и открытый характер разработки программного обеспечения, очень сложно создать идеальный набор данных для программирования.

С помощью Project CodeNet исследователи IBM попытались создать многоцелевой набор данных, который можно использовать для обучения моделей машинного обучения различным задачам. Создатели CodeNet описывают его как «очень крупномасштабный, разнообразный и высококачественный набор данных для ускорения алгоритмических достижений в области искусственного интеллекта для кода».

Набор данных содержит 14 млн примеров кода с 500 млн строк кода, написанных на 55 различных языках программирования. Образцы кода были получены из представленных почти на 4 000 задач, размещенных на онлайн-платформах кодирования AIZU и AtCoder. Примеры кода включают как правильные, так и неправильные ответы на поставленные задачи.

Одна из ключевых особенностей CodeNet — это количество аннотаций, добавленных к примерам. Каждая из задач кодирования, включенных в набор данных, имеет текстовое описание, а также время процессора и ограничения памяти. Каждая отправка кода содержит дюжину частей информации, включая язык, дату отправки, размер, время выполнения, принятие и типы ошибок.

Исследователи из IBM также приложили огромные усилия, чтобы обеспечить сбалансированность набора данных по различным параметрам, включая язык программирования, приемлемость и типы ошибок.

CodeNet — не единственный набор данных для обучения моделей машинного обучения задачам программирования. Но есть несколько характеристик, которые выделяют его. Во-первых, это огромный размер набора данных, включая количество образцов и разнообразие языков.

Но, возможно, более важны метаданные, которые идут с образцами кода. Богатые аннотации, добавленные в CodeNet, делают его подходящим для разнообразного набора задач, в отличие от других наборов данных кодирования, которые специализируются на конкретных задачах программирования.

Есть несколько способов использования CodeNet для разработки моделей машинного обучения для задач программирования. Один из них — языковой перевод. Поскольку каждая задача кодирования в наборе данных содержит представления различных языков программирования, специалисты по данным могут использовать ее для создания моделей машинного обучения, которые переводят код с одного языка на другой. Это может быть удобно для организаций, которые хотят перенести старый код на новые языки и сделать их доступными для новых поколений программистов.


Читайте также

Ученые выяснили, что сверхобогащенное золото образуется как простокваша

Крошечный водородный двигатель заменил аналоги на ископаемом топливе

Высокий рост, пропавшие зубы, новые кости: что произошло с телом человека за сто лет

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Трагедию с Xiaomi на автопилоте начали расследовать в Китае
Новости
Посмотрите, как выглядит самый быстрый пассажирский самолет в мире
Новости
Странная форма материи меняет планеты: как она повлияет на Землю
Космос
Новые фотодиоды в 10 раз чувствительнее аналогов: они пригодятся в медицине
Наука
В России создадут региональный совет по дронам: зачем он нужен
Новости
Государство компенсирует бизнесу 20% затрат на роботов: как работает система
Новости
Разработан маршрутизатор для фотонов: он объединит квантовые компьютеры в единую сеть
Наука
ИИ обнаружил два новых гена, которые влияют на риск ишемического инсульта
Наука
Создание изображений в стиле Ghibli привело к рекордной нагрузке на ChatGPT
Новости
Физики МГУ оценили потенциал фотонных процессоров для нейросетей
Новости
Телескоп НАСА для изучения ранней Вселенной сделал первые снимки
Космос
Путин подписал закон против кибермошенничества: что изменится для россиян
Новости
Генератор изображений OpenAI теперь доступен бесплатно, но с ограничениями  
Новости
Apple готовит iOS 19: какие iPhone не получится обновить  
Новости
ЦЕРН представил проект нового коллайдера: что известно прямо сейчас
Наука
На «Госуслугах» запустили сервис для проверки сим-карт: как он работает  
Новости
В России введут маркировку электроники: это изменится для покупателей
Новости
Разработан мозговой имплант, который переводит мысли в речь почти мгновенно
Новости
«Хаббл» зафиксировал драматические сезонные изменения в атмосфере Урана
Космос
Физики МГУ придумали, как ускорить память компьютера терагерцовым излучением
Новости