IBM создали набор данных Project CodeNet: 14 млн образцов кода научат ИИ программировать

Подразделение IBM по исследованиям искусственного интеллекта представило набор данных из 14 млн выборок для разработки моделей машинного обучения, которые могут помочь в задачах программирования. Набор данных Project CodeNet получил свое название от ImageNet, знаменитого хранилища помеченных фотографий, которое произвело революцию в компьютерном зрении и глубоком обучении. Об этом пишет Venture Beat.

Программисты открывают новые проблемы и исследуют различные решения, используя множество механизмов сознательного и подсознательного мышления. Напротив, большинство алгоритмов машинного обучения требуют четко определенных задач и большого количества аннотированных данных для разработки моделей, которые могут решать те же проблемы.

Экспертным сообществом было приложено много усилий для создания наборов данных и тестов для разработки и оценки систем «ИИ для кода». Но, учитывая творческий и открытый характер разработки программного обеспечения, очень сложно создать идеальный набор данных для программирования.

С помощью Project CodeNet исследователи IBM попытались создать многоцелевой набор данных, который можно использовать для обучения моделей машинного обучения различным задачам. Создатели CodeNet описывают его как «очень крупномасштабный, разнообразный и высококачественный набор данных для ускорения алгоритмических достижений в области искусственного интеллекта для кода».

Набор данных содержит 14 млн примеров кода с 500 млн строк кода, написанных на 55 различных языках программирования. Образцы кода были получены из представленных почти на 4 000 задач, размещенных на онлайн-платформах кодирования AIZU и AtCoder. Примеры кода включают как правильные, так и неправильные ответы на поставленные задачи.

Одна из ключевых особенностей CodeNet — это количество аннотаций, добавленных к примерам. Каждая из задач кодирования, включенных в набор данных, имеет текстовое описание, а также время процессора и ограничения памяти. Каждая отправка кода содержит дюжину частей информации, включая язык, дату отправки, размер, время выполнения, принятие и типы ошибок.

Исследователи из IBM также приложили огромные усилия, чтобы обеспечить сбалансированность набора данных по различным параметрам, включая язык программирования, приемлемость и типы ошибок.

CodeNet — не единственный набор данных для обучения моделей машинного обучения задачам программирования. Но есть несколько характеристик, которые выделяют его. Во-первых, это огромный размер набора данных, включая количество образцов и разнообразие языков.

Но, возможно, более важны метаданные, которые идут с образцами кода. Богатые аннотации, добавленные в CodeNet, делают его подходящим для разнообразного набора задач, в отличие от других наборов данных кодирования, которые специализируются на конкретных задачах программирования.

Есть несколько способов использования CodeNet для разработки моделей машинного обучения для задач программирования. Один из них — языковой перевод. Поскольку каждая задача кодирования в наборе данных содержит представления различных языков программирования, специалисты по данным могут использовать ее для создания моделей машинного обучения, которые переводят код с одного языка на другой. Это может быть удобно для организаций, которые хотят перенести старый код на новые языки и сделать их доступными для новых поколений программистов.


Читайте также

Ученые выяснили, что сверхобогащенное золото образуется как простокваша

Крошечный водородный двигатель заменил аналоги на ископаемом топливе

Высокий рост, пропавшие зубы, новые кости: что произошло с телом человека за сто лет

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Сильнейшая солнечная буря произошла в конце последнего ледникового периода
Космос
Пароль зашифровали внутри молекулы: это альтернатива для хранения данных
Наука
Орангутаны используют сложную структуру речи: считалось, что так могут только люди
Наука
Молодая звезда стремительно тяжелеет: набирает массу двух юпитеров ежегодно
Космос
Врачи с помощью CRISPR «переписали ДНК» ребенка с редким заболеванием
Наука
Разработан чип, похожий на мозг, который позволит роботам видеть и думать
Наука
Почему мы до сих пор не нашли инопланетян: ученые нашли объяснение
Космос
Этот грибок захватит планету к концу столетия: в зоне риска 10 млн человек
Наука
Посмотрите на космическую радугу в зодиакальном свете на небе
Космос
Ученые объяснили необычную активность в недрах Луны
Космос
Мошенники начали использовать схему с самозапретом на кредиты 
Новости
Дуров заплатит $50 000 за вирусный ролик о превосходстве Telegram над WhatsApp
Новости
НАСА починило двигатели «Вояджера-1», которые вышли из строя 21 год назад
Космос
ИИ-агенты формируют собственные социальные нормы без помощи человека
Наука
Мозг мышей увеличился на 6,5%, когда им ввели крошечную часть ДНК человека
Наука
Археологи нашли первую «тату-студию» майя в пещере в Белизе
Наука
Российский алгоритм оптимизирует пропускную способность дорог
Наука
Марсоход впервые наблюдал полярные сияния с поверхности другой планеты
Космос
Android 16 превращает ворованный смартфон в кирпич: нельзя обойти даже в настройках
Новости
Китай начал стоить дата-центр на базе ИИ прямо на орбите
Новости