Компания создала набор данных, который назвала Project CodeNet, в нем есть 14 млн образцов суммарным объемом в 500 млн строк кода на более чем 55 языках программирования: от Java, C и Go до COBOL, Pascal и FORTRAN. Однако основными языками являются С++ и Python: на них приходится три четверти кода.
Авторы использовали код с двух японских конкурсов по программированию: Aizu и AtCoder. На них участники должны были написать код, необходимый для превращения заданного набора входных данных в набор желаемых выходных для 4 000 различных задач. В результате получилось 14 млн образцов кода, половина из которых была рабочей.
В IBM планируют сделать проект стандартным набором данных для обучения ИИ-моделей, способных распознавать структуру программ.
CodeNet планируется использовать для создания интеллектуальных инструментов разработки, осуществляющих поиск нужных процедур в приложениях и библиотеках, перевод с одного языка программирования на другой, выбор правильных реализаций и отсев ошибочных, классификацию кода и так далее.
Читать далее
В реакторе Чернобыльской АЭС усилились ядерные реакции
Ученые показали, как черная дыра разрывает звезду
Физики создали аналог черной дыры и подтвердили теорию Хокинга. К чему это приведет?