1. 시계열 분석이란?
시계열 분석(time series analysis)는 시간의 흐름에 따라 일정한 간격으로 사건을 관찰하여 기록한 데이터를 바탕으로 미래의 관측값을 예측하는 분석 기법.
- 과거의 일련의 관측값을 분석하여 모델링하고, 이 예측모델을 바탕으로 미래의 관측값을 예측
- 시계열 데이터는 일반적으로 추세 성분(trend), 순환(cycle), 계절(seasonal) 성분, 불규칙(irregular) or 우연(random) 성분 등으로 구성되며, 이 성분들에 의해 변동된다고 가정.
- 시계열 데이터는 일반적으로 관측값의 전반적 상승 또는 하락 경향을 나타내는 추세 성분과 설명 안되는 오차(error)를 나타내는 불규칙 성분으로 구성.
1) 추세(Trend) 변동
시간이 경과함에 따라 관측값이 지속적으로 증가하거나 감소하는 추세를 갖는 경우의 변동. 주로 경제와 관련된 데이터에서 발생.
2) 순환(Cycle) 변동
주기적인 변화를 가지나, 계절에 의한 것이 아니고 주기가 긴 경우의 변동.
3) 계절(Seasonal) 변동
주별, 월별, 계절별과 같이 주기적인 요인에 의한 변동. 순환 주기가 짧음.
4) 우연(Random) 변동
시간에 따른 규칙적인 움직임과 무관하게 랜덤한 원인에 의해 나타나는 변동.
- 백색잡음(white noise) : 평균이 0이고 분산이 일정한 시계열 데이터.
2. 시계열 분석 절차
STEP 1. 시계열 데이터 생성
STEP 2. 탐색적 분석을 통해 데이터의 특성 이해
- 시각화 작업을 통해 시계열 데이터의 변동 패턴 관찰
- 성분 분해 작업을 통해 추세, 계절, 불규칙 성분으로 세분화
STEP 3. 미래 관측값에 대한 예측
- 지수 모델링 (exponential modeling) 기법
- ARIMA(Autoregressive intergrated moving average) 기법
3. 시계열 데이터 분해
시계열 데이터 분해란 시계열 데이터의 관측값을 변동 요인에 따라 구성 성분으로 분해하는 과정.
목적 : 시계열 데이터는 몇 가지 변동들의 혼합(결합)으로 이루어지는 것이므로, 시게열자료를 형성하고 있는 변동 요소들을 찾아내고 시계열자료를 그 요소들의 결합으로 표현한 후 장래시점에 대해 예측하기 위함.
3.1 계절 데이터 분해
시계열 데이터에 주기가 존재하고 계절적(seasonal) 요인의 영향을 받아 변동한다면 계절 성분이 추가로 포함됨.
- 추세 성분 : 시간의 흐름에 따른 수준
- 계절 성분 : 단위 기간 내에서의 순환 주기의 영향.
- 불규칙 성분 : 추세 성분과 계절 성분에 의해 설명 되지 않는 영향.
1) 가법 모델 (addictive model)
- yt : t시점에서의 관측값
- Tt : t시점에서의 추세효과에 의한 기여분
- St : t시점에서의 계절효과에 의한 기여분
- It : t시점에서의 불규칙 효과에 의한 기여분
- Ct : 일반적으로 순환성은 장기간에서만 고려되기 때문에 0
분해절차
1. 시계열의 순환 및 추세 성분의 추정값. 순환성과 추세성분을 제거하기 위해 시계열의 m기간 중심이동평균을 한다.
⇒ Mt = Tt+Ct (m기간 중심 이동 평균 값)
e,g, 월별 자료의 경우, 중심화된 12개월의 이동 평균 값을 구하게 되고 계절변동과 추세변동이 제거된 계산이 된다.
2. 계절 성분 및 불규칙 성분의 추정값
⇒ yt - Mt = St + It
3. 2단계에서 구한 St + It를 동일한 계절별로 평균을 하여, 계절 성분(St)을 추정
4. 1단계에서 구한 Mt의 그래프에서 추세 성분(Tt)을 추정
5. 순환 성분 계산
⇒ Ct = Mt - Tt
6. 불규칙 성분 계산
⇒ It = yt - Tt - St - Ct
7. 예측
2) 승법 모델 (multiplicative model)
목적 : 여러 가지 변동 요소들이 단순히 더해지는 것이 아니라 서로 관련을 갖기 때문에 곱으로 모형을 설정
가법 모델 vs 승법 모델
3.2 비계절 데이터 분해
: 불규칙적 변동 요인을 제거 또는 완화하여 의미 있는 추세 패턴 파악.
1) 평활법(smoothing method) : 단순 이동 평균
시계열자료가 어떤 패턴에 따라 변화한다는 전제하에서 예측시점으로 부터 과거 시점의 자료들을 평균함으로싸(주로 가중평균), 시계열 변화 패턴의 부드러운 모습을 찾아보자는 것.
- 대체로 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있는 경우에 적용시킬 수 있는 방법
- 주기가 길어질수록 많은 자료로써 평균을 얻는 것이기 때문에 직선에 가까운 부드러운 선이 얻어짐
- 단순 이동 평균은 현재 시점에서부터 몇 시점 전까지의 자료로 구한 평균이므로 단순이동평균은 평활법보다는 예측목적으로 주로 사용되며, 평활의 목적으로 이동평균을 구하고자 할 경우에는 특히 계절조정을 하고자 할 경우에는 중심 이동 평균이 권장됨
2) 중심 이동 평균
- 단순이동평균방법에서는 주기가 3인 이동평균을 계산할 때, 시점 1-2-3의 이동평균값이 시점 4의 예측값이 되지만 계절적인 변동이 있을 경우 시점 1-2-3의 이동평균은 계절변동을 상쇄한 것이므로 이동평균값의 위치를 시점 1-2-3의 중심인 시점 2에 위치시는 것이 바람직한데 이를 중심 이동 평균 방법이라 함.
- 즉, 주기 N의 이동평균값의 위치를 N기간의 가운데로 이동하는 것이다.
- N이 짝수인 경우, 중심위치를 정할 수 없기 때문에 N/2번째 이동평균값과 N/2+1번째 이동평균값의 평균을 구하여 N/2+1번째 위치에 놓는다. (홀수로 만들어준 후에 진행)
- N이 홀수인 경우 이동평균값의 위치를 N/2번째 위치에 놓는다.
4. 지수예측모델 (exponential forecasting model)
단순하면서도 비교적 우수한 단기예측 성능을 보임.
1) 단순지수평활법 : 수준 추정
시계열 데이터가 전반적으로 일정 크기를 갖고 있고 추세나 계절적 요인이 없을 경우 사용. 추세나 계절 성분은 없으며, 오로지 수준과 불규칙적인 오차에 의해 관측값이 결정됨.
- 선형이동평균에서 현재 시점의 시계열자료에 큰 가중치를 주고 과거로 갈수록 작은 가중치를 주는 것이 일반적이고 합리적인 가중치 패턴임
- 관측값이 평균에 미치는 영향이 시간의 흐름에 따라 지수적으로 감소하는 방식으로 가중치 선택
- t+1 시점에서의 예측값은 과거 모든 관측값의 가중평균에 의해 평활 상수 a(0≤a≤1)가 1에 가까울수록 최근의 관측값에 더 큰 가중치 부여
2) 홀트지수평활법 : 수준, 기울기 추정
수준과 추세(기울기)로 설명되는 시계열 데이터를 예측. 수준과 불규칙적인 오차, 추세 성분에 의해 관측값이 결정.
- yt : t 시점의 관측 값
- Level : 시계열의 전반적 수준(크기)
- Slope : 시계열의 기울기
- It : t시점에서 불규칙한 효과에 의한 변동분
3) 홀트-윈터스지수평활법 : 수준, 기울기, 계절 요인 추정
수준, 추세(기울기), 계절로 설명되는 시계열 데이터를 예측. 수준, 불규칙적인 오차, 추세, 계절 성분에 의해 관측값이 결정. t+1 시점에서의 예측값은 과거 모든 관측값의 가중 평균에 의해 계산. St(t 시점에서의 계절 효과에 의한 변동분)가 추가된 형태.
'Statistics Basic' 카테고리의 다른 글
[시계열 분석] ARIMA 예측 모델 , 정상성과 자기상관 (0) | 2022.05.07 |
---|---|
확률 변수와 분포 함수 (0) | 2022.04.24 |
Action speaks louder than words. 하루 하루의 기록을 습관화 합니다 📖
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!