В МТИ создали алгоритм ускоряющий анализ больших данных в 100 раз

Ученые из МТИ разработали программный алгоритм под названием Taco, который позволяет автоматизировать компрессию тензорных таблиц (3D-матриц), состоящих из большого количества пустых данных. «Нули» при умножении таблиц заставляли процессор работать «вхолостую» и занимали слишком много места в памяти, а оптимизация требовала большого труда от программистов, пишет Science Daily.

Тензорные таблицы — это своего рода математические матрицы (в программировании — двухмерные массивы или просто таблицы), соединенные друг с другом в 3D-пространство. В реальном мире их используют для составления карт для баз данных, например, для Amazon, где ID покупателя соотносится с товарами. Причем, в матрицу помещаются все имеющиеся у магазина товары, напротив которых единицей отмечается факт покупки. Эти данные можно, в свою очередь, связать с рейтингом покупателя и его отзывами, которые хранятся в другой таблице.

Подобные матрицы более удобны для анализа больших данных и машинного обучения, нежели обычные SQL-базы. Однако у них есть очевидный минус: если единицей отмечается покупка, то все остальные ячейки заполнены нулями. При умножении таблиц это создает ненужную нагрузку на процессор и забивает память нулевыми данными. В итоге реализация тензорных таблиц для всей базы данных Amazon займет 107 экзабайт памяти, что в 10 раз больше, чем все серверы Google вместе взятые.

Болезнь Альцгеймера и ПТСР можно будет вылечить простой диетой

В принципе, оптимизировать «разреженную» тензорную таблицу могут и программисты, что они и делали все эти годы. Правда, это чрезвычайно утомительно и занимает много времени. Исследователи из МТИ придумали, как автоматизировать этот процесс так, чтобы от программиста лишь требовалось импортировать файл с данными и выбрать необходимую операцию для расчета. Технически алгоритм Taco реализован так, что сначала он отбирает все ненулевые значения, а потом избавляется от тех пар, где есть умножение на ноль, и лишь после этого записывает их память.

Также ученые решили проблему оптимизации самих расчетов. Если раньше требовалось умножить таблицы, результат записать в память, и только потом производить его сложение с другой таблицей, то теперь Taco позволяет совершать множественные расчеты в рамках одного цикла или «ядра». И главная новость в том, что в МТИ разработали разные «ядра» для наиболее часто встречающихся в анализе больших данных операций с тензорными таблицами.

Результат впечатляет: благодаря Taco тензорные таблицы для всего, что есть в Amazon теперь займут какие-то 14 Гб и поместятся в обычном смартфоне.

Разработано устройство, ускоряющее обучение на 40%

IBM разработала способ имитации квантового 56-кубитного компьютера на неквантовом суперкомпьютере. Решение задачи, ранее считавшееся невозможным, вероятно, изменит расстановку сил в квантовой гонке крупнейших IT-компаний. Для этого ученые также использовали тензорные таблицы.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Крошечные «бессмертные» черные дыры могут заполнять Вселенную и объяснять темную материю
Наука
Ученые впервые наблюдали, как орангутанг занимается самолечением
Наука
SpaceX не смогла скрыть полет ракеты над Россией: в сети публикуют фото
Космос
Зонд «Эйнштейн» показал первую партию редких космических фото
Космос
Миссию по доставке образцов с загадочной стороны Луны запустили в Китае
Наука
Ученые подтвердили ключевые события из Библии
Наука
Недалеко от нас есть планета, где ветер дует быстрее пули
Космос
Найден необычный способ бороться с хроническим стрессом
Наука
Посмотрите на самый редкий торнадо, который пронесся над США
Наука
Над Землей пролетел астероид, который вращался быстрее всех остальных
Космос
Ученые показали лицо женщины, которая жила 75 000 лет назад
Наука
Анализ генов показал, как древние водоросли вышли на поверхность планеты
Наука
Древняя технология поможет вырастить растения на Марсе, считают ученые
Космос
Физики из MIT добились рекордной близости между атомами для квантовых исследований
Наука
В Германии на ветряную электростанцию впервые установили деревянные лопасти
Новости
Инженеры разработали искусственную пиявку для безболезненного забора крови у детей
Наука
Solar Orbiter запечатлел «пушистую» корону Солнца в завораживающих деталях
Космос
Китай отправляет миссию на обратную сторону Луны: как смотреть онлайн
Космос
ИИ нашел асимметрию материи и антиматерии на Большом адронном коллайдере
Наука
TikTok вернулся в Россию? Что известно прямо сейчас
Новости