В МТИ создали алгоритм ускоряющий анализ больших данных в 100 раз

Ученые из МТИ разработали программный алгоритм под названием Taco, который позволяет автоматизировать компрессию тензорных таблиц (3D-матриц), состоящих из большого количества пустых данных. «Нули» при умножении таблиц заставляли процессор работать «вхолостую» и занимали слишком много места в памяти, а оптимизация требовала большого труда от программистов, пишет Science Daily.

Тензорные таблицы — это своего рода математические матрицы (в программировании — двухмерные массивы или просто таблицы), соединенные друг с другом в 3D-пространство. В реальном мире их используют для составления карт для баз данных, например, для Amazon, где ID покупателя соотносится с товарами. Причем, в матрицу помещаются все имеющиеся у магазина товары, напротив которых единицей отмечается факт покупки. Эти данные можно, в свою очередь, связать с рейтингом покупателя и его отзывами, которые хранятся в другой таблице.

Подобные матрицы более удобны для анализа больших данных и машинного обучения, нежели обычные SQL-базы. Однако у них есть очевидный минус: если единицей отмечается покупка, то все остальные ячейки заполнены нулями. При умножении таблиц это создает ненужную нагрузку на процессор и забивает память нулевыми данными. В итоге реализация тензорных таблиц для всей базы данных Amazon займет 107 экзабайт памяти, что в 10 раз больше, чем все серверы Google вместе взятые.

Болезнь Альцгеймера и ПТСР можно будет вылечить простой диетой

В принципе, оптимизировать «разреженную» тензорную таблицу могут и программисты, что они и делали все эти годы. Правда, это чрезвычайно утомительно и занимает много времени. Исследователи из МТИ придумали, как автоматизировать этот процесс так, чтобы от программиста лишь требовалось импортировать файл с данными и выбрать необходимую операцию для расчета. Технически алгоритм Taco реализован так, что сначала он отбирает все ненулевые значения, а потом избавляется от тех пар, где есть умножение на ноль, и лишь после этого записывает их память.

Также ученые решили проблему оптимизации самих расчетов. Если раньше требовалось умножить таблицы, результат записать в память, и только потом производить его сложение с другой таблицей, то теперь Taco позволяет совершать множественные расчеты в рамках одного цикла или «ядра». И главная новость в том, что в МТИ разработали разные «ядра» для наиболее часто встречающихся в анализе больших данных операций с тензорными таблицами.

Результат впечатляет: благодаря Taco тензорные таблицы для всего, что есть в Amazon теперь займут какие-то 14 Гб и поместятся в обычном смартфоне.

Разработано устройство, ускоряющее обучение на 40%

IBM разработала способ имитации квантового 56-кубитного компьютера на неквантовом суперкомпьютере. Решение задачи, ранее считавшееся невозможным, вероятно, изменит расстановку сил в квантовой гонке крупнейших IT-компаний. Для этого ученые также использовали тензорные таблицы.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
В 21 регионе России «замедлился интернет»: Роскомнадзор объяснил причину
Новости
Ядерные отходы хотят переработать в материалы для электроники
Новости
«Уэбб» рассмотрел кольца из углерода в двойной звездной системе
Новости
Квантовые инженеры поместили кота Шредингера в компьютерный чип
Наука
Кофе может снизить риск смертности, но только в одном случае
Наука
Этот ядерный двигатель поможет быстрее долететь до Марса: как он работает
Космос
Запуск Falcon 9 завершился успехом: что было на борту миссии
Космос
Прототип Boom Supersonic XB-1 приблизился к звуковому барьеру
Новости
Ученые заглянули внутрь нейтронных звезд, используя квантовую физику
Космос
Квантовые симуляторы: объяснение от ученого
Мнения
Источник в СМИ назвал возможную причину сбоя рунета
Новости
Мошенники начали выдавать себя за начальников в рабочих чатах: как это работает
Новости
Холодные атомы этого металла могут создавать новые состояния материи
Наука
Древние артефакты в Украине раскрыли тайны навигации викингов
Наука
Послушайте, как звучат вспышки на Солнце: данные собрал Solar Orbiter  
Космос
Тяжелый беспилотник на водородных топливных ячейках впервые испытали в Китае
Новости
Ученые создали катализатор, который нарушает законы физики
Наука
Физики обнаружили необычные магнитные свойства в трехслойном графене
Наука
Биоинженеры создали ДНК-робота, который может менять форму искусственной клетки
Наука
«Горы» на нейтронных звездах могут вызывать рябь в пространстве-времени
Космос