Введение

Прогнозирование временных рядов — это метод предсказания событий через временную последовательность. Он предсказывает будущие события, анализируя тенденции данных в прошлом, исходя из предположения, что будущие тенденции будут аналогичны историческим тенденциям. Многие проблемы прогнозирования включают временной компонент и, следовательно, требуют экстраполяции данных временных рядов или прогнозирования временных рядов. Он широко используется во многих областях, таких как бизнес-планирование, распознавание образов, обработка сигналов, прогнозирование погоды, эконометрика, математические финансы и т. д.

Прогнозирование временных рядов также является важной областью машинного обучения и может рассматриваться как задача обучения с учителем. К нему можно применить такие методы машинного обучения, как Regression, Neural Networks, Random Forests и XGBoost.

Некоторые термины

При работе с данными временных рядов необходимо понимать некоторые специальные термины:

  • Автокорреляция: описывает взаимосвязь между значениями одного и того же ряда данных в разные периоды времени. Формулу можно записать так:

где rk – автокорреляция для задержки k.

Например, на рисунке ниже видно, что 12-е и 36-е наблюдения сильно коррелированы.

  • Частичная автокорреляция: статистическая мера, которая фиксирует корреляцию между двумя переменными после учета влияния других переменных. Например, если мы регрессируем сигнал St​ с тем же сигналом с задержками t−1,t−2, t-3 (Ст-1​, Ст-2​, Ст-3​), частичная корреляция между St​ и St-3​ – это величина корреляции между St​ и St-3​, которая не t объясняется их взаимными корреляциями с St-1​ и St-2​.
  • Сезонность: колебания модели из-за сезонных детерминант в течение определенного периода времени, например дня, недели, месяца или сезона. Также может быть получен из графика автокорреляции, если он имеет синусоидальную форму.
  • Тренд: увеличение или уменьшение ряда данных за более длительный период.
  • Случайные или нерегулярные изменения: нестабильность из-за случайных факторов, которые не повторяются в шаблоне.
  • Стационарность. Говорят, что временной ряд является стационарным, если его статистические свойства не меняются с течением времени. Другими словами, он имеет постоянное среднее значение и дисперсию, а его ковариация не зависит от времени. Для проверки стационарности можно использовать метод Дики-Фуллера.

Типы моделей временных рядов

Существует множество способов моделирования временных рядов для прогнозирования. К наиболее популярным способам относятся:

  • Экспоненциальное сглаживание (ES)
  • Авторегрессия (АР)
  • Скользящая средняя (MA)
  • Авторегрессионная скользящая средняя (ARMA)
  • Авторегрессионное интегрированное скользящее среднее (ARIMA)
  • Сезонная авторегрессионная интегрированная скользящая средняя (SARIMA)
  • Векторная авторегрессия (VAR)
  • Векторная коррекция ошибок (VEC)
  • LSTM, XGBoost, N-Beats, Prophet, DeepAR, Temporal Fusion Transformer (Google) и т. д.

1. Модель экспоненциального сглаживания

- Простое экспоненциальное сглаживание (SES)

Этот метод простого экспоненциального сглаживания подходит для прогнозирования данных без явных трендов или сезонности. Формула прогнозирования Simple ES может быть записана как:

где 0≤α≤1 — параметр сглаживания. Идея ES заключается в том, что прогноз на один шаг вперед для времени T+1 представляет собой средневзвешенное значение всех наблюдений в ряду y1​,y2. ​,…,yT​. Скорость, с которой веса уменьшаются, контролируется параметром α.

Если α мало, больший вес будет придаваться наблюдениям из более отдаленного прошлого. Если α велико, более поздним наблюдениям будет придан больший вес.

- Средневзвешенная форма

Прогноз на момент времени T+1 равен средневзвешенному значению между самым последним наблюдением yT​ и предыдущим прогнозом y^​TT−1​:

где l0 – первое подогнанное значение в момент времени 1.

- Форма компонента

Представления компонентной формы методов экспоненциального сглаживания включают уравнение прогноза и уравнение сглаживания для каждого из компонентов, включенных в метод:

где lt  — уровень ряда в момент времени t. Уравнение прогноза показывает, что прогнозируемое значение в момент времени t+1 является расчетным уровнем в момент времени t. Уравнение сглаживания для уровня дает расчетный уровень ряда в каждый период t.

- Плоские прогнозы

СЭС имеет «плоскую» функцию прогноза:

То есть все прогнозы принимают одно и то же значение, равное компоненту последнего уровня (Помните, что эти прогнозы будут пригодны только в том случае, если временной ряд не имеет трендовой или сезонной составляющей).

- Оптимизация

Параметр α и начальное значение l0​ для любого метода экспоненциального сглаживания можно оценить путем минимизации SSE:

2. Авторегрессионная модель

В модели авторегрессии мы прогнозируем интересующую переменную, используя линейную комбинацию прошлых значений переменной. Термин regression указывает на то, что это регрессия переменной относительно самой себя:

где ϵt​ — белый шум. Это похоже на множественную регрессию, но с запаздывающими значениями yt​ в качестве предикторов. Мы называем это моделью AR(p), авторегрессионной моделью порядка p.

На двух рисунках выше показан ряд моделей AR(1) и AR(2). Изменение параметров ϕ1​,…,ϕp​ приводит к изменению шаблонов временных рядов. Дисперсия члена ошибки ϵt​ изменит только масштаб ряда, но не закономерность.

Для модели AR(1):

  • когда ϕ1​=0, yt​ эквивалентно белому шуму;
  • когда ϕ1​=1 и c=0, yt​ эквивалентно случайному блужданию;
  • когда ϕ1​=1 и c=0, yt​ эквивалентно случайному блужданию со сносом;
  • когда ϕ1​‹0, yt​ имеет тенденцию колебаться вокруг среднего значения.

Обычно мы ограничиваем авторегрессионные модели стационарными данными, и в этом случае требуются некоторые ограничения на значения параметров:

  • Для модели AR(1): −1‹ϕ1​‹1
  • Для модели AR(2): −1‹ϕ2​‹1, ϕ1​+ϕ 2​‹1, ϕ2​−ϕ1​‹1

Примечание. Мы можем выбрать порядок p для модели AR(p) на основе значительных всплесков на графике PACF. .

3. Модель скользящего среднего

Вместо того, чтобы использовать прошлые значения переменной прогноза в регрессии, модель скользящего среднего использует прошлые ошибки прогноза в модели, подобной регрессии:

где ϵt​ — белый шум, нормально распределенный со средним значением, равным нулю, и дисперсией, равной единице. Мы называем это моделью MA(q), моделью скользящего среднего порядка q.

На рисунке выше показаны некоторые данные из моделей MA(1) и MA(2). Изменение параметров θ1​,…,θq​ приводит к изменению шаблонов временных рядов, и дисперсия члена ошибки изменит только масштаб ряда, а не узоры.

Любую стационарную модель AR(p) можно записать как модель MA(∞). Например, используя повторную замену, мы можем продемонстрировать это для модели AR(1):

Значение ϕ1k​ будет уменьшаться по мере увеличения k. Таким образом, в конечном итоге мы получаем процесс MA(∞).

Обратный результат будет иметь место, если мы наложим некоторые ограничения на параметры СС. Тогда модель MA называется invertible. То есть мы можем переписать любой обратимый процесс MA(q) как процесс AR(∞).

Например, MA(1) обрабатывает yt​=εt​+θ1*​ εt−1​ можно переписать как:

где процесс обратим при ∣θ∣‹1.

Ограничения обратимости для других моделей аналогичны ограничениям стационарности:

  • Для модели MA(1): −1‹θ1​‹1
  • Для модели MA(2): −1‹θ2​‹1, θ1​+θ 2​›−1, θ1​− θ2​‹1

Примечание. Мы можем выбрать порядок q для модели MA(q) на основе значительных всплесков на графике ACF. .

4. Модель авторегрессионной скользящей средней (ARMA)

Комбинируя две описанные выше модели, мы получаем то, что называется моделью авторегрессии скользящих средних. Модель ARMA(p,q) может быть выражена следующим образом:

Если мы рассмотрим Backward Shift Operator L, то мы можем переписать приведенное выше как:

Примечание. Чтобы определить, какой порядок p,q модели ARMA подходит для серии, нам нужно использовать AIC или BIC. для подмножества значений для p,q, а затем применить тест Ljung-Box, чтобы определить, было ли достигнуто хорошее соответствие для определенных пар p ,к.

5. Авторегрессионная интегрированная модель скользящего среднего (несезонная ARIMA)

Модель ARIMA представляет собой комбинацию ARMA и разности:

где yt′​ — ряд разностей. Мы называем это моделью ARIMA(p,d,q), где

  • p — порядок авторегрессионной части
  • q — порядок части скользящей средней
  • d — степень вовлеченного различия

6. Сезонная авторегрессионная интегрированная скользящая средняя (SARIMA)

Сезонность ARIMA учитывает сезонность. Это написано следующим образом:

где первая часть — несезонная часть, а вторая — сезонная часть. m — количество наблюдений в год.

Например, модель ARIMA(1,1,1)(1,1,1)_4​ без константы можно записать так:

где дополнительные сезонные условия просто умножаются на несезонные условия.

Векторная авторегрессионная модель (VAR)

VAR используются для multivariate временных рядов. Структура состоит в том, что каждая переменная является линейной функцией прошлых задержек самой себя и прошлых задержек других переменных.

Например, предположим, что мы измеряем три разные переменные временного ряда, обозначенные как xt,1​,xt,2​,xt,3​. Модель VAR порядка 1 выглядит следующим образом:

Каждая переменная является линейной функцией значений задержки 1 для всех переменных в наборе.

Общая форма VAR может быть записана как:

где Ai​ – это матрица коэффициентов (K x K) для i = 1,2,…p, а ut​ – это K-мерный процесс белого шума с временем инвариантная положительно определенная ковариационная матрица. Матрица C представляет собой матрицу коэффициентов потенциально детерминированных регрессоров размерностью (K x M), а Dt​ представляет собой вектор-столбец (M x 1), содержащий соответствующие детерминированные регрессоры, такие как константа, тренд , фиктивные и/или сезонные фиктивные переменные.

Некоторые допущения для моделей временных рядов

Рекомендации

https://otexts.com/fpp2/