IBM создали набор данных Project CodeNet: 14 млн образцов кода научат ИИ программировать

Подразделение IBM по исследованиям искусственного интеллекта представило набор данных из 14 млн выборок для разработки моделей машинного обучения, которые могут помочь в задачах программирования. Набор данных Project CodeNet получил свое название от ImageNet, знаменитого хранилища помеченных фотографий, которое произвело революцию в компьютерном зрении и глубоком обучении. Об этом пишет Venture Beat.

Программисты открывают новые проблемы и исследуют различные решения, используя множество механизмов сознательного и подсознательного мышления. Напротив, большинство алгоритмов машинного обучения требуют четко определенных задач и большого количества аннотированных данных для разработки моделей, которые могут решать те же проблемы.

Экспертным сообществом было приложено много усилий для создания наборов данных и тестов для разработки и оценки систем «ИИ для кода». Но, учитывая творческий и открытый характер разработки программного обеспечения, очень сложно создать идеальный набор данных для программирования.

С помощью Project CodeNet исследователи IBM попытались создать многоцелевой набор данных, который можно использовать для обучения моделей машинного обучения различным задачам. Создатели CodeNet описывают его как «очень крупномасштабный, разнообразный и высококачественный набор данных для ускорения алгоритмических достижений в области искусственного интеллекта для кода».

Набор данных содержит 14 млн примеров кода с 500 млн строк кода, написанных на 55 различных языках программирования. Образцы кода были получены из представленных почти на 4 000 задач, размещенных на онлайн-платформах кодирования AIZU и AtCoder. Примеры кода включают как правильные, так и неправильные ответы на поставленные задачи.

Одна из ключевых особенностей CodeNet — это количество аннотаций, добавленных к примерам. Каждая из задач кодирования, включенных в набор данных, имеет текстовое описание, а также время процессора и ограничения памяти. Каждая отправка кода содержит дюжину частей информации, включая язык, дату отправки, размер, время выполнения, принятие и типы ошибок.

Исследователи из IBM также приложили огромные усилия, чтобы обеспечить сбалансированность набора данных по различным параметрам, включая язык программирования, приемлемость и типы ошибок.

CodeNet — не единственный набор данных для обучения моделей машинного обучения задачам программирования. Но есть несколько характеристик, которые выделяют его. Во-первых, это огромный размер набора данных, включая количество образцов и разнообразие языков.

Но, возможно, более важны метаданные, которые идут с образцами кода. Богатые аннотации, добавленные в CodeNet, делают его подходящим для разнообразного набора задач, в отличие от других наборов данных кодирования, которые специализируются на конкретных задачах программирования.

Есть несколько способов использования CodeNet для разработки моделей машинного обучения для задач программирования. Один из них — языковой перевод. Поскольку каждая задача кодирования в наборе данных содержит представления различных языков программирования, специалисты по данным могут использовать ее для создания моделей машинного обучения, которые переводят код с одного языка на другой. Это может быть удобно для организаций, которые хотят перенести старый код на новые языки и сделать их доступными для новых поколений программистов.


Читайте также

Ученые выяснили, что сверхобогащенное золото образуется как простокваша

Крошечный водородный двигатель заменил аналоги на ископаемом топливе

Высокий рост, пропавшие зубы, новые кости: что произошло с телом человека за сто лет

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Живые башни из червей: посмотрите на «суперорганизм», который нашли в саду
Наука
Имплантат сетчатки из нанопроводов восстановил зрение у мышей
Наука
На российских сайтах хотят запретить авторизацию через почту Google
Новости
ИИ против айтишников: как новые инструменты меняют ИТ-бизнес
Мнения
Оказалось, Apple Watch «обманывают» в подсчете калорий
Новости
Китай впервые проверил квантовую связь QSDC на борту многоразовой ракеты
Наука
В Москве пройдет форум MOSТИМ 2025 — обсудят цифровизацию в строительстве и выберут лучших в BIM
Новости
Россиянам могут заблокировать входящие звонки из-за рубежа
Новости
Страдающее «лицо» появилось на Солнце: ученые фиксируют поток частиц в сторону Земли
Космос
Маск и Трамп начали войну в соцсетях: что произошло и какие будут последствия
Кейсы
В Нижнем Новгороде создали «умный» материал для 3D-печати человеческих тканей
Наука
ИИ против супербактерий: в ИТМО создали платформу для поиска новых лекарств
Новости
Парк промышленных роботов в России вырос на 62% за один год
Новости
Геофизики объяснили загадочное ускорение сейсмических волн в недрах Земли
Наука
Семь российских вузов разделят 4,7 млрд рублей на исследования в области ИИ
Иннополис
Найден способ изучать квантовые состояния, которые десятилетиями не получалось поймать
Наука
Каталог кейсов применения квантовых технологий представили в России
Новости
Ozempic и мужское здоровье: как препарат влияет на либидо и восприятие размера пениса
Наука
Землю 2.0 нашли рядом со звездой, похожей на Солнце
Космос
Рыбу «Судного дня» случайно нашли в на пляже: почему ее опасаются
Наука