iMTE

6. ARIMA model 본문

Time-series Forecasting/ Prediction

6. ARIMA model

Wonju Seo 2021. 6. 22. 17:03

AR, MA, ARMA는 정상성을 만족하는 시계열에서 시계열 데이터를 표현하는데 사용되었던 모델이다. 하지만, 실제 시계열 데이터를 보자면, 많은 데이터들이 비정상적인 특징을 갖고 있음을 확인 할 수 있다. 추세가 있거나 계절성 등이 포함되어 있는데, 이런 정보들은 간단히 시계열 데이터를 plot 해보면 알 수 있다. 이런 시계열 데이터에서 표본 ACF를 구하면 시차에 대해서 매우 서서히 감소하는 형태를 확인 할 수 있는데, 이는 잘못된 모형 identification으로 이어질 수 있다.

1) 시계열 데이터에서 추세가 있는 경우 간단하게 differencing을 통해서 추세를 제거할 수 있다. 1차 차분은 다음과 같이 표현된다.

$\Delta Z_t = Z_t-Z_{t-1}=(1-B)Z_t$

d차 차분은 다음과 같이 표현된다.

$\Delta^d Z_t = (1-B)^d Z_t, d=1,2,...$

만약, 시계열 데이터가 1차 차분후 정상성을 만족한다면, 원 시계열을 integrated process of order 1이라고 정의한다. 만약 d차 차분 후 시계열이 처음으로 정상적이 된다면, 원 시계열을 I(d)로 표현한다.

여기서, ARMA에 I가 붙어, ARIMA 모형이 탄생한다. d차 차분 후 시계열이 정상적 ARMA(p,q) 모형을 따를 때, 원 시계열은 ARIMA(p,d,q) 모형을 따른다.

$\phi_p (B) (1-B)^d Z_t = \theta_q (B) a_t$

추세 외에도 월, 분기별 데이터를 다룰 때 주기적인 패턴이 나타나는 것을 확인할 수 있다. 추세가 없는 시계열에서 다음 식을 만족하는 경우, period s의 계절성을 갖는다고 본다.

$E[Z_t]=E[Z_{t+s}]$

월별 데이터라면 s=12가 되는 것이다. 이런 경우 계절성 차분을 해야하고 다음과 같이 정의된다.

$\Delta_s Z_t = (1-B^s)Z_t = Z_t-Z_{t-s}$

이를 주기 s를 갖는 특정 계절별 시계열 ARIMA로 일반화를 시켜보면, ARIMA(P,D,Q)는 다음과 같이 표현된다.

$\Phi_P (B^s)(1-B^s)^D Z_t = \Theta_Q (B^s)a_t$

그리고, 오차항들이 ARIMA(p,d,q)를 따른다면, 

$\phi_p (B) (1-B)^d a_t = \theta_q (B) a_t$

이 둘을 합치면 다음과 같이 나타낼 수 있다.

$\phi_p (B) \Phi_P (B^s)(1-B)^d(1-B^s)^D Z_t = \theta_q (B) \Theta_Q (B^s)a_t$

위 식을 계절성 $ARIMA(p,d,q) \times (P,D,Q)_s$ 모형이라고 부른다.

ARIMA의 예측은 기존 ARMA 모형과 동일한 방식이 적용 된다. 시점 n에서 k step 이후의 예측치와 예측 분산은 다음과 같다.

$f_{n,k}=E[Z_{n+k}|Z_n,Z_{n-1},...],k=1,2,...$

$v_{n,k}=Var[Z_{n+k}|Z_n,Z_{n-1},...],k=1,2,...$

Comments