В МТИ создали алгоритм ускоряющий анализ больших данных в 100 раз

Ученые из МТИ разработали программный алгоритм под названием Taco, который позволяет автоматизировать компрессию тензорных таблиц (3D-матриц), состоящих из большого количества пустых данных. «Нули» при умножении таблиц заставляли процессор работать «вхолостую» и занимали слишком много места в памяти, а оптимизация требовала большого труда от программистов, пишет Science Daily.

Тензорные таблицы — это своего рода математические матрицы (в программировании — двухмерные массивы или просто таблицы), соединенные друг с другом в 3D-пространство. В реальном мире их используют для составления карт для баз данных, например, для Amazon, где ID покупателя соотносится с товарами. Причем, в матрицу помещаются все имеющиеся у магазина товары, напротив которых единицей отмечается факт покупки. Эти данные можно, в свою очередь, связать с рейтингом покупателя и его отзывами, которые хранятся в другой таблице.

Подобные матрицы более удобны для анализа больших данных и машинного обучения, нежели обычные SQL-базы. Однако у них есть очевидный минус: если единицей отмечается покупка, то все остальные ячейки заполнены нулями. При умножении таблиц это создает ненужную нагрузку на процессор и забивает память нулевыми данными. В итоге реализация тензорных таблиц для всей базы данных Amazon займет 107 экзабайт памяти, что в 10 раз больше, чем все серверы Google вместе взятые.

Болезнь Альцгеймера и ПТСР можно будет вылечить простой диетой

В принципе, оптимизировать «разреженную» тензорную таблицу могут и программисты, что они и делали все эти годы. Правда, это чрезвычайно утомительно и занимает много времени. Исследователи из МТИ придумали, как автоматизировать этот процесс так, чтобы от программиста лишь требовалось импортировать файл с данными и выбрать необходимую операцию для расчета. Технически алгоритм Taco реализован так, что сначала он отбирает все ненулевые значения, а потом избавляется от тех пар, где есть умножение на ноль, и лишь после этого записывает их память.

Также ученые решили проблему оптимизации самих расчетов. Если раньше требовалось умножить таблицы, результат записать в память, и только потом производить его сложение с другой таблицей, то теперь Taco позволяет совершать множественные расчеты в рамках одного цикла или «ядра». И главная новость в том, что в МТИ разработали разные «ядра» для наиболее часто встречающихся в анализе больших данных операций с тензорными таблицами.

Результат впечатляет: благодаря Taco тензорные таблицы для всего, что есть в Amazon теперь займут какие-то 14 Гб и поместятся в обычном смартфоне.

Разработано устройство, ускоряющее обучение на 40%

IBM разработала способ имитации квантового 56-кубитного компьютера на неквантовом суперкомпьютере. Решение задачи, ранее считавшееся невозможным, вероятно, изменит расстановку сил в квантовой гонке крупнейших IT-компаний. Для этого ученые также использовали тензорные таблицы.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Ученые в тупике: «Уэбб» засек невозможный свет в галактике
Космос
Новый сплав для имплантатов имитирует кость человека
Наука
РКН пообещал обезличить данные россиян, но эксперты сомневаются эффективности метода
Новости
Rutube недоступен в Турции: что происходит, блокировка или нет
Новости
Квантовый компьютер сгенерировал по-настоящему случайные числа
Новости
Загадка древних гигантов: ученые нашли организм, не похожий ни на что живое
Наука
Вскрытие мамонтенка Яны: в Якутии изучили древнюю тушу
Наука
Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения
Новости
Дрон доставил обед: в Иннополисе испытали курьера с Telegram-управлением
Иннополис
Зонд Parker сблизился с Солнцем, собрав важнейшие данные
Космос
Спутниковую связь для обычных смартфонов протестируют в РФ
Новости
Российские ученые нашли безазотную замену тротилу и ракетному топливу
Наука
Российский рынок промышленной автоматизации удвоится к 2030 году, но есть сложности  
Новости
В Южной Корее вспыхнули крупнейшие лесные пожары: что происходит прямо сейчас
Наука
Беспилотники против браконьеров: в России расширят полномочия ведомств
Новости
В янтаре нашли осу с хвостом-ловушкой, как у венериной мухоловки
Наука
Физики из ИТМО разработали сверхтонкий материал для «умной» памяти
Наука
Средневековый языческий ритуал: археологи нашли козий череп под срубом в Новгороде
Наука
«Уэбб» снял полярные сияния Нептуна: они были не там, где ожидали ученые
Космос
Российские ученые разработали нейросеть, способную сомневаться в своих решениях
Новости