В МТИ создали алгоритм ускоряющий анализ больших данных в 100 раз

Ученые из МТИ разработали программный алгоритм под названием Taco, который позволяет автоматизировать компрессию тензорных таблиц (3D-матриц), состоящих из большого количества пустых данных. «Нули» при умножении таблиц заставляли процессор работать «вхолостую» и занимали слишком много места в памяти, а оптимизация требовала большого труда от программистов, пишет Science Daily.

Тензорные таблицы — это своего рода математические матрицы (в программировании — двухмерные массивы или просто таблицы), соединенные друг с другом в 3D-пространство. В реальном мире их используют для составления карт для баз данных, например, для Amazon, где ID покупателя соотносится с товарами. Причем, в матрицу помещаются все имеющиеся у магазина товары, напротив которых единицей отмечается факт покупки. Эти данные можно, в свою очередь, связать с рейтингом покупателя и его отзывами, которые хранятся в другой таблице.

Подобные матрицы более удобны для анализа больших данных и машинного обучения, нежели обычные SQL-базы. Однако у них есть очевидный минус: если единицей отмечается покупка, то все остальные ячейки заполнены нулями. При умножении таблиц это создает ненужную нагрузку на процессор и забивает память нулевыми данными. В итоге реализация тензорных таблиц для всей базы данных Amazon займет 107 экзабайт памяти, что в 10 раз больше, чем все серверы Google вместе взятые.

Болезнь Альцгеймера и ПТСР можно будет вылечить простой диетой

В принципе, оптимизировать «разреженную» тензорную таблицу могут и программисты, что они и делали все эти годы. Правда, это чрезвычайно утомительно и занимает много времени. Исследователи из МТИ придумали, как автоматизировать этот процесс так, чтобы от программиста лишь требовалось импортировать файл с данными и выбрать необходимую операцию для расчета. Технически алгоритм Taco реализован так, что сначала он отбирает все ненулевые значения, а потом избавляется от тех пар, где есть умножение на ноль, и лишь после этого записывает их память.

Также ученые решили проблему оптимизации самих расчетов. Если раньше требовалось умножить таблицы, результат записать в память, и только потом производить его сложение с другой таблицей, то теперь Taco позволяет совершать множественные расчеты в рамках одного цикла или «ядра». И главная новость в том, что в МТИ разработали разные «ядра» для наиболее часто встречающихся в анализе больших данных операций с тензорными таблицами.

Результат впечатляет: благодаря Taco тензорные таблицы для всего, что есть в Amazon теперь займут какие-то 14 Гб и поместятся в обычном смартфоне.

Разработано устройство, ускоряющее обучение на 40%

IBM разработала способ имитации квантового 56-кубитного компьютера на неквантовом суперкомпьютере. Решение задачи, ранее считавшееся невозможным, вероятно, изменит расстановку сил в квантовой гонке крупнейших IT-компаний. Для этого ученые также использовали тензорные таблицы.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Чрезвычайно молодую планету нашли у звезды с «кривым» диском
Космос
Предложен способ навигации дронов без GPS: по «отпечаткам рельефа»
Новости
Ученые раскрыли тайну гигантских черных дыр ранней Вселенной
Космос
Microsoft и Atom Computing выпустят коммерческий квантовый компьютер в 2025 году
Новости
Создан робот-голубь, который летает как настоящая птица
Наука
На страницах тысячелетнего Голубого Корана нашли скрытый текст
Наука
Уязвимость ИИ: типы атак LLM-injection и способы защиты от них
Технологии
Intel случайно упомянула о планах по разработке ИИ-ускорителя
Новости
S.T.A.L.K.E.R. 2: Heart of Chornobyl вышел спустя 15 лет: цены, патчи, бесплатный контент и концовка
Новости
Посмотрите, как прототип космоплана Aurora разогнали до 1,1 Маха 
Новости
Российских айтишников обяжут преподавать в вузах: кого это коснется
Новости
Киберспорт в России сегодня: плюсы и минусы разных бизнес-моделей
Мнения
Одинокого дельфина нашли в Балтийском море: он «разговаривает» сам с собой
Наука
Физики обнаружили сразу три формы хаоса
Наука
Российского хакера экстрадировали в США за создание вируса-вымогателя
Новости
Ученые впервые раскрыли форму короны черной дыры
Космос
Названы сроки запуска аналога Apple Pay в России
Новости
В России придумали, как искать телефонных мошенников по голосу
Новости
Лазерную связь в космосе предложили использовать, чтобы фотографировать черные дыры
Космос
Чат-бот Google научили запоминать пользователей
Новости