«Нормализация характеристик является важным элементом обучения глубоких нейронных сетей, и внимание к функциям не менее важно для того, чтобы помочь сетям выделить, какие функции, извлеченные из необработанных данных, являются наиболее важными для выполнения задач», — объясняет Тианфу Ву, доцент кафедры электротехники и вычислительной техники в NC State. «Но в основном они обрабатывались отдельно. Мы обнаружили, что их объединение сделало их более эффективными и действенными».
Чтобы протестировать свой AN-модуль, исследователи подключили его к четырем наиболее широко используемым архитектурам нейронных сетей: ResNets, DenseNets, MobileNetsV2 и AOGNets. Затем они протестировали сети от стандартных двух отраслевых показателей: классификация ImageNet-1000 тест и обнаружение объекта и сегментация экземпляра тест MS-COCO 2017 года.
«Мы обнаружили, что AN улучшил производительность для всех четырех архитектур в обоих тестах», — заявил Ву. «Например, точность Top-1 в ImageNet-1000 улучшилась на 0,5–2,7%. Точность средней точности (AP) увеличилась до 1,8% для ограничивающей рамки и 2,2% для семантической маски в MS-COCO. Еще одно преимущество AN состоит в том, что он способствует лучшей передаче обучения между различными доменами. Например, от классификации изображений в ImageNet до обнаружения объектов и семантической сегментации в MS-COCO. Это иллюстрируется улучшением производительности в тесте MS-COCO, которое было получено путем точной настройки глубоких нейронных сетей, предварительно обученных ImageNet в MS- COCO».
«Мы выпустили исходный код и надеемся, что наша AN приведет к лучшему интегративному дизайну глубоких нейронных сетей» — заключают ученые.
Читать также
Ледник «Судного дня» оказался опаснее, чем думали ученые. Рассказываем главное
Появилось сразу два доказательства внеземной жизни. Одно на Венере, другое — неизвестно где