Chapter4(데이터 분석) – 제2장_통계분석(제3절)

시계열 분석

정상성

시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다. 시계열 분석에 기초가 되는 개념인 정상성에 대해 살펴보자.
비정상성 시계열 : 시계열 분석하는데 다루기 어려운 시계열자료이다.
정상성 시계열 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료 변환한 것

정상성을 만족하기 위한 특징
1) 평균이 일정하다. 즉 모든 시점에 대해 일정한 평균을 가진다.
2) 분산도 시점에 의존하지 않는다.
3) 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않는다.

위의 정상성은 ‘약한 의미의 정상성’이라고 부르기도 하나 일반적으로 정상성 이라고 한다.
대부분은 비정상 자료이다. 하나라도 만족하지 않을 경우 비정상 시계열이라고 한다.

판단 방법:
어떤 자료가 폭발적 증가 추세(평균이 일정하지 않음, 시간에 따라서 분산이 변하는 경우.

비정상 시계열로 판정되면 정상 시계열로 바꿔줘야 함.

평균이 일정하지 않은 비정상 시계열은 차분을 통해 정상 시계열로 바꿀 수 있다.
분산이 일정하지 않은 비정상 시계열은 변환을 통해 정상 시계열로 바꿀 수 있다.

차분 : 현 시점의 자료에서 전 시점의 자료를 빼는 것.
– 바로 전시점의 자료를 일반차분, 여러 시점 전의 자료로 빼는 것을 계절차분이라고 한다.
계절차분은 계절성을 갖는 비정상 시계열을 정상 시계열로 바꿀 때 사용

시계열 모형

  1. 자기회귀 모형(AR 모형)
    p시점 전의 자료가 현재 자료에 영향을 주는 자기회귀모형(autoregressive model)을 AR(p) 모형이라 한다.
  2. 이동평균모형(MA 모형)
  3. 자기회귀누적이동평균모형(ARIMA(p,d,q) 모형)
  4. 분해 시계열
    분해 시계열이란 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며, 회귀분석적인 방법을 주로 사용하고 있다.
  • 분해 시계열의 구성 요소
  1. 추세요인
    자료의 그림을 그렸을 때 그 형태가 오르거나 또는 내리는 추세를 따르는 경우
  2. 계절요인
    요일마다 반복되거나 일년 중 각 월에 의한 변화, 사분기 자료에서 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변화하는 경우
  3. 순환요인
    알려지지 않은 주기를 가지고 자료가 변화할 때
  4. 불규칙요인
    위의 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인을 불규칙요인이라 한다.
  • 시계열 자료 읽기


install.packages("TTR")
install.packages("forecast")

library(TTR)
library(forecast)

시계열 분석을 위한 패키지로 TTR과 forecast를 이용한다.


kings=scan('http://robjhyndman.com/tsdldata/misc/kings.dat', skip=3)
kingstimeseries=ts(kings)

영국 왕들의 사망 시 나이 데이터를 가져오기 위해 scan함수를 활용한다.
시계열 자료 형식으로 변환하기 위해 ts함수를 활용한다.
-왕의 사망 나이에 따른 특별한 주기는 없으므로 frequency는 디폴트 값(1)으로 지정하였다.


births <- scan("http://robjhyndman.com/tsdldata/data/nybirths.dat")
birthstimeseries<-ts(births, frequency=12, start=c(1946,1))

뉴욕에서 1946년 1월부터 1959년 12월까지 월별 출생자 수 데이터를 가져오기 위해 scan함수를 활용한다.
시계열 자료 형식으로 변환하기 위해 ts함수를 활용한다.
-주기는 12개월이며, 1946년 1월부터 시작하는 데이터이기 때문에 ts함수 사용 시 옵션으로 넣었다.


souvenir <- scan("http://robjhyndman.com/tsdldata/data/fancy.dat")
souvenirtimeseries<- ts(gift, frequency=12, start=c(1987,1))

1987년 1월부터 1993년 12월까지 비치리조트 기념품 매장의 매출액 데이터를 가져오기 위해 scan함수를 활용한다.
시계열 자료 형식으로 변환하기 위해 ts함수를 활용한다.
-주기는 12개월이며, 1987년 1월부터 시작하는 데이터이기 때문에 ts함수 사용 시 옵션으로 넣었다.

  • 그래프 그리기

plot.ts(kingstimeseries)
plot.ts(birthstimeseries)
plot.ts(souvenirtimeseries)

 

댓글 남기기