본문 바로가기

파이썬/빅분기

시계열 데이터 개념과 시계열 분석 모형

1. 시계열 데이터

시계열 데이터는 시간의 영향을 받는 데이터로 일정한 시간 간격을 두고 관측되므로 시차가 동일하며 이론적으로는 결측값이 없다. 시계열 데이터의 예로는 GDP, 물가지수, 상품 판매량, 종합주가지수, 강수량 등이 있다.

 

(1)정상성과 비정상성

정상성이란 시점과 무관하게 일정한 특성을 의미한다. Zt와 Zt+k의 자기 상관이 시차에만 의존하고 시점에 의존하지 않을 때 정상성을 갖는다고 한다. 다만 대부분의 시계열 데이터는 정상성을 만족하지 않는 비정상 데이터이다. 데이터가 정상성을 갖지 않으면 분석이 어렵기 때문에 정상화를 한 후에 분석을 시행한다.

 

*정상성

-모든 시점의 평균이 동일

-모든 시점의 분산이 동일

-공분산은 시차에만 의존, 시차가 동일하면 모든 시점의 공분산은 동일

 

 

*비정상 시계열을 정상화 하는 방법

-이상치가 있는 경우: 이상치 제거 혹은 대체

-평균이 일정하지 않은 경우: 차분(difference)을 취해 정상화

-분산이 일정하지 않은 경우: 변환(transformation)을 취해 정상화 (로그변환, 제곱근 변환 등)

 

만약 두 가지가 동시에 존재한다면 일반적으로 변환을 먼저 실행해준다. 차분을 먼저 하면 음수가 발생할 수도 있어 문제가 된다.

 

 

*자기상관함수(ACF)

시점 차이에 따른 자기 상관을 나타낸다. 자체 시게열 데이터 간 선형 상관관계 함수로 t시점의 관측치가 Zt라고 할 때, Zt와 Zt+k의 선형 상관관계를 의미한다.

 

*부분자기상관함수(PACF)

두 시점 사이에 영향을 주는 다른 요인을 제외한 자기 상관함수이다. 두 시점 내의 구간 값은 고려하지 않고 순수하게 두 시점의 상관관계를 고려한다. Zt와 Zt+k 사이의 Zt+1 ~ Zt+k-1을 제거하고 구한 Zt와 Zt+k의 선형 상관관계를 의미한다. 

 

 

정상 시계열의 ACF는 상대적으로 빠르게 0에 수렴하고 비정상 시계열은 천천히 감소, 큰 양의 값을 가진다.

 

 

(2)백색잡음

정상시계열의 대표적인 예가 바로 백색잡음이다. 백색잡음은 시점에 상관없이 평균이 0, 분산이 σ2인 시계열자료이다.

 

(3)시계열 성분

It 불규칙 성분: 불규칙하고 예측이 불가한 랜덤 변동

Tt 추세 성분: 지속적으로 증가 또는 감소하는 추세를 갖는 변동

St 계절 성분: 계절 변화와 같은 주기적인 성분에 의한 변동

Ct 순환 성분: 주기적인 변활르 가지나 주기가 긴 변동

 


시계열 모형

 

1. 분해법

분해법은 시계열 성분들이 결정적이고 서로 독립이라는 가정을 기반으로 성분을 분해하는 방법이다. 전통적인 분해법은 가법(additive)과 승법(multiplicative) 두 가지로 나뉜다. 전통적인 분해법은 추세, 순환 성분을 추정할 때 정보 손실이 발생한다는 단점이 있으며, 급등락하는 데이터 기간에 값이 크게 변한다.

 

또 계절 성분 값이 주기별로 일정하다고 가정하기 때문에 단기간 데이터 분석에는 적합하지만 장기간 데이터 분석에는 부적합하다.

 

(1)가법 모형

원본 데이터가 일정하게 안정적인 그래프를 그리는 경우

Zt = Tt + St + Ct + It

 

불규칙 성분을 추정하려면 로데이터에서 추세와 계절적 성분을 하나씩 빼주면 된다.

 

(2)승법 모형

원본 데이터가 증가하거나 감소하는 형태를 띄는 경우 = 시간에 따라 진폭이 달라질 때

Zt = Tt x St x Ct x It

 

승법도 가법과 마찬가지로 불규칙 성분을 추정하려면 로데이터에서 추세와 계절적 성분을 하나씩 빼주면 된다.

 

 

2. 이동평균법

일정 기간의 관측치에 동일한 가중치를 부여해 이동평균을 계산한다. 과거부터 현재까지의 시계열 자료를 대상으로 일정 기간 별로 계산한 이동평균의 추세를 파악해 다음 기간을 예측한다. 계절성분과 불규칙 성분을 제거해서 추세 성분과 순환 성분만 가진 시계열로 변환한다.

 

간단하고 쉽게 예측이 가능하며 자료의 수가 많고 패턴이 안정적이면 예측 정확도가 높아진다. 시계열 자료에 뚜렷한 추세가 있거나 불규칙 변동이 심하지 않은 경우에는 짧은 기간(m을 작게)의 평균을 사용하고, 불규칙 변동이 심하면 긴 기간(m을 크게)의 평균을 사용한다. 이 m의 값을 적절하게 정하는 것이 관건이다.

 

 

3. 지수평활법

최근 관측치에 더 높은 가중치를 부여해서 미래를 예측하는 방법이다. 과거 시점으로 가수록 가중치를 지수적으로 줄여나간다. 불규칙 성분의 영향을 제거하는 효과가 있고 주로 중기 이상 긴 기간의 예측에 자주 사용한다. 선형 추세를 갖는 경우에는 이중지수평활법을, 계절 추세를 갖는 경우에는 계절지수평활법을 사용한다.

 

 

4. 자기회귀모형(자기상관모형, AR)

관측치에 대해 이전 값이 이후 값에 영향을 미치는 상황을 이야기 한다. 예를 들면 이전 값이 크면 이후 값은 작다거나 하는 경향이 있는 경우를 의미한다. 자기상관성을 시계열 모형으로 구성한 것이 AR모형이며 가장 간단한 형태는 직전 데이터가 다음 데이터에 영향을 준다고 가정한 AR(1)이다.

 

여기서 e(t)항은 white noise이며 평균이 0이고 분산이 σ2인 정규분포에서 도출된 랜덤한 값이다. 

 

 

5. 이동평균 모형(MA)

이동평균은 평균이 시간에 따라 변화하는 경향을 의미한다. 이동평균을 시계열 모형으로 구성한 것이 MA모형이며 t시점의 관측치 Zt를 t시점까지의 과거의 오차항으로 설명한다.

 

 

6. 자기회귀 이동평균모형(ARMA)

이름에서 알 수 있든 자기회귀모형과 이동평균 모형을 결합한 것으로 가장 선호되는 모델이기도 하다. 통상 ARMA(2,2)이면 양질의 데이터를 얻을 수 있다고 한다. Zt를 과거의 관측치와 과거의 오차ㅏㅇ으로 설명한다.

 

 

7. 자기회귀 누적 이동평균모형(ARIMA)

ARMA모형이 과거 데이터를 사용하는거라면 ARIMA는 과거 데이터의 추세까지 반영하는 모델이다. 비정상 시계열에 대해 d차로 차분 변환하는 과정을 포함한 ARMA 모형이라고 할 수 있다. ARIMA(1,1,1)은 ARMA(1,1)과 동일하다.

 

ARIMA는 자기 자신의 추세만 고려하고 white noise의 추세는 고려하지 않는다. (올바른 모델의 white noise에는 추세가 없음) ARMA와 유사한 점이 많으며, 추세의 일관성이나 유의미성이 크지 않은 데이터의 경우 ARIMA 모형이 ARMA모형보다 타당성이 떨어지기 때문에 ARIMA는 많이 사용되지는 않는다.

 

 

8. 계절형 자기회귀 이동평균 모형(SARIMA)

시계열이 계절 성분을 포함하는 경우에 사용하는 시계열 모형이다. 계절 성분에 대한 모형과 비계절 성분에 대한 모형을 순차적으로 적용한다.