Исследователи из Массачусетского технологического института разработали систему прогнозирования, которая работает с любыми рядами временных данных и доступна для использования неспециалистами. Результаты экспериментов показали, что используемые алгоритмы эффективнее существующих методов глубокого машинного обучения в предсказании будущих значений различных показателей и заполнении отсутствующих данных.
Прогнозирование значений показателей, изменяющихся со временем, таких, например, как погода, цена на акции или риск развития заболевания, осуществляется на основе анализа исторических данных. Чтобы построить качественный прогноз, как правило, нужно использовать сложные алгоритмы машинного обучения. Такие алгоритмы трудно применять неспециалистам.
Чтобы сделать инструменты прогнозирования доступнее, программисты из Массачусетского технологического института (МТИ) разработали систему, которая интегрирует функции прогнозирования поверх существующей базы данных временных рядов. Упрощенный интерфейс системы tspDB выполняет все сложное моделирование без участия пользователя.
Пользователю системы достаточно нажать несколько клавиш, чтобы получить прогноз. При этом расчет будущих значений осуществляется в среднем за 0,9 мс, отмечают авторы. Для того, чтобы неспециалист смог принять решение, система также рассчитывает доверительные интервалы, учитывая степень неопределенности прогноза.
Одна из причин успеха tspDB заключается в использовании нового алгоритма прогнозирования временных рядов. Наш алгоритм особенно эффективен при анализе многомерных временных рядов, то есть данных, содержащих более одной переменной, зависящей от времени. Например, в базе данных погоды температура, точка росы и облачность зависят от своих прошлых значений.
Абдулла Аломар, аспирант факультета электротехники и информатики МТИ, соавтор разработки
В качестве основы для своего алгоритма исследователи взяли анализ сингулярного спектра (SSA). С использованием этого метода можно вычислять значения и строить прогнозы на основе отдельных временных рядов. Программисты из МТИ доработали алгоритм, чтобы исключить необходимость ручной настройки переменных.
Вторая и ключевая проблема, по словам разработчиков, заключалась в том, чтобы адаптировать этот метод для анализа нескольких временных рядов. Решение, предложенное исследователями, заключалось в том, чтобы «сложить» матрицы отдельных временных рядов в одну большую матрицу, к которой может быть применен SSA. Свой метод разработчики назвали mSSA. Подробное описание исследования и алгоритма ученые ранее опубликовали в статье на ArXiv.
Ученные сравнили mSSA с другими современными алгоритмами, в том числе методами глубокого обучения, на реальных наборах временных данных, описывающих электросети, дорожное движение и финансовые рынки.
По словам исследователей, результаты тестирования показали, что их алгоритм превзошел все альтернативы по восстановлению пропущенных прошлых данных и все альтернативы кроме одной в прогнозировании будущих значений. Разработчики также показали универсальный характер алгоритма: он может одинаково эффективно применяться к любым временным рядам.
Исследователи говорят, что продолжат совершенствовать tspDB, добавляя в нее новые алгоритмы, которые еще больше повысят точность прогнозов.
Мы заинтересованы в том, чтобы сделать tspDB широко используемой системой с открытым исходным кодом. Анализ временных рядов очень важен, а встраивание функции прогнозирования непосредственно в базу данных кажется нам наиболее удобным способом анализа. Такого раньше никогда не делали, и поэтому мы хотим убедиться, что мир использует наше решение.
Деваврат Шах, профессор факультета электротехники и информатики МТИ, соавтор разработки
Читать далее
«Пятый элемент» существует: новый эксперимент подтвердит, что информация материальна
Жуткие звуки и загадочные существа: самые странные находки в Марианской впадине
Посмотрите на самый качественный снимок Солнца: он состоит из 83 млн пикселей