[통계학_제2부] 상관관계와 회귀분석(7, 8장)

제 2 부: 상관관계와 회귀분석

7장_회귀분석의 오차

살펴볼 용어: RMSE, 잔차도, 등분산성, 이분산성

 

[제곱근-평균-제곱 오차, RMSE(Root-Mean-Square Error)]

RMSE에 대한 이미지 검색결과

회귀분석은 x로부터 y를 예측하는 데 쓰인다.

하지만 실제값과 예측치 사이에는 차이가 나기 마련.

그러한 차이의 기준이 되는 값이 RMSE이다.

 

관련 이미지

이는 Error의 RMS값을 구한 값으로 정확히 표현하자면 오차가 아닌 추정오차의 RMS값이다.

일반적으로 추정오차는 잔차라고 부른다.

 

위는 RMSE의 식으로 특이점은 n-2의 자유도를 갖는데에 있다.

지난 장에서 RMS나 표본의 표준편차를 구할 때는 n-1의 자유도를 갖던 것이 왜 n-2가 되었을까.

RMS를 구하는 대상이 바뀌었기 때문.

 

평균으로부터 떨어진 거리에 대한 이미지 검색결과

수직 잔차도에 대한 이미지 검색결과

평균으로부터의 표준적인 거리를 나타내는 표준편차의 경우 y = m 직선으로부터의 RMS이고,

추정오차의 절대적인 크기를 나타내는 경우 y = mx + c 직선로부터의 RMS이므로 자유도에서 차이를 보인다.

 

[잔차도, residual plot]

잔차에 대한 이미지 검색결과

잔차의 크기를 비교하기 쉽게 보기위한 것이 잔차도.

잔차도 상에선 기존에 우상향 또는 우하향과 같은 체계적인 패턴을 보이지 않는다.

이미 좌측의 회귀직선에 흡수되어버렸기 때문.

 

잔차도에 대한 이미지 검색결과

만약 잔차도가 패턴을 보이는 경우엔 회귀직선에 무언가 문제가 있다고 봐야함.

위와 같은 잔차분석을 통해 산포도의 선형성, 등분산성, 독립성, 정규성 등을 파악할 수 있다.

 

[등분산성, homoscedasticity/ 이분산성, heteroscedasticity]

관련 이미지

산포도가 특정 구간에 상관없이 퍼진 정도가 일정할 때 자료가 등분산성을 띤다고 얘기하며,

반대로 그 정도가 일정하지 않으면 이분산성을 보인다고 말한다.

 

homoscedasticity에 대한 이미지 검색결과

등분산성은 위에서 살펴보았던 잔차도를 통해 관찰하면 쉽게 파악이 가능하다.

 

[복습문제]

Q. 백 명의 소년들을 대상으로 각각 6세와 18세에 키를 쟀다. 이 자료를 요약하면 다음과 같다. 산포도는 타원형이다.

6세 평균키 = 115cm

표준편차 = 4cm

18세 평균키 = 175cm

표준편차 = 6.5cm

상관계수 = 0.8

i) 6세 키로부터 18세 키를 추정하는 회귀직선의 RMSE를 계산하라.

ii) 반대로 18세 키로부터 6세 키를 추정하는 회귀직선의 RMSE를 계산하라.

 

A. RMSE는 추정 변수의 표준편차와 상관계수로도 구할 수가 있는데, 그 식은 다음과 같다.

i) 3.9cm

ii) 2.4cm

 

Q. 지난 30년간 연평균 통화증가율은 20%, 통화증가율의 표준편차는 4%, 연평균 인플레이션율은 25%, 인플레이션율의 표준편차는 6%, 그리고 둘 간의 상관계수는 0.6이다. 산포도는 타원형이다.

i) 통화당국이 내년도 통화증가율을 15%로 설정하는 경우, 내년도 인플레이션율은 얼마가 될 지 추정하라.

ii) 과거 자료 가운데 통화증가율이 15% 근처였던 해의 인플레이션율 자료만 따로 뽑아서 표준편차를 계산하면 어떤 값이 되겠는가?

 

A.

i) 20.5%, 지난 장에 대한 질문으로 내년도 통화증가율이 평균으로 부터 1.25 SDx만큼 감소했으므로 인플레이션율은 관계계수를 곱한 4.5%(=0.6 * 1.25 SDy) 만큼 감소할 것으로 추정된다.

ii) 4.8%, 등분산성에 관련된 질문으로 산포도가 타원형을 따른다고 주어줌으로써 자료의 등분산성을 알려줌. 이에따라 특정 구간의 표준편차는 RMSE를 따른다. 따라서 4.8%(=√(1-r^2)(SDy))

등분산성에 대한 이미지 검색결과

 

8장_회귀직선

살펴볼 용어: 회귀방정식, 최소자승법, 다중회귀분석, 통계적 통제, 결정계수

 

[회귀방정식, regression equation/ 최소자승법, method of least squares]

회귀직선에 대한 이미지 검색결과

회귀직선에 대응하는 방정식을 회귀방정식이라고 부른다.

기울기와 절편으로 이루어지며, 절편은 x가 0일 때 y의 추정치이고, 기울기는 x가 1 SDx만큼 증가할 때 r*SDy만큼 증가한 것으로 아래와 같다.

 

이때 산포도 상의 점들을 가장 잘 반영하는 회귀직선은 어떻게 찾아낼까.

보다 많은 점들에 보다 가까이 직선이 위치하는 것이 핵심이다.

즉, 다르게 표현하면 직선으로부터의 차이들의 절대적인 값 RMSE가 최소가 되는 위치이다.

 

[다중회귀분석, multiple regression/ 통계적 통제, statistically control]

다중회귀분석에 대한 이미지 검색결과

위 그림처럼 어떤 결과 F에 영향을 미치는 요인으로는 하나 이상인 경우가 존재한다.

이 경우 단순회귀분석이 아닌 다중회귀분석을 통해 보다 정확한 분석이 가능하다.

하지만 실제론 결과에 영향을 미치는 모든 변수 A, B, C, D, E가 주어지지도 않을 뿐더러 숨겨진 변수들이 혼동요인으로 작용하는 경우가 허다하다.

그렇기 때문에 경험적으로 시행착오를 겪거나 통찰력을 통해 예상되는 변수를 측정에 포함시켜 분석한다.

이렇게 특정한 변수를 측정에 포함시켜 분석하는 것을 통계적으로 통제한다고 표현한다.

 

추가적으로 독립 변수들 사이에서 발생할 수 있는 다중공선성은 이후에 다루도록 함.

 

[결정계수, coefficient of determination]

관련 이미지

결정계수는 회귀직선의 설명력을 나타내는데 원리가 무엇일까.

 

일반적인 산포도와 회귀직선에 종속변수의 평균이 점선으로 있다.

평균점으로부터 x가 위 지점만큼 증가했을 때, y가 붉은 거리만큼 증가하는 것은 충분히 회귀직선에 의해 설명된 변동분(R).

하지만 측정된 값은 보다 위인 보라색 점으로 검은 거리만큼의 차이는 설명되지 않는 변동분이다(E).

위 두개의 차이를 합한 총 변동분을 T라고 했을 때, T = R + E가 성립한다.

이때, T에서 차지하는 R의 비중이 E의 비중보다 상대적으로 크면 x가 y를 잘 설명한다고 말한다.

 

관련 이미지

위와 같은 방식으로 전체적인 설명력을 구하기 위해 각 항을 제곱하여 더한 식인 SST = SSR + SSE 역시 만족한다.

따라서 회귀직선의 설명력 R은 전체 대비 설명되는 크기의 비율에 따라 아래와 같이 구할 수 있다.

하지만 설명변수가 추가될수록 SST 값은 고정된 반면 SSE 값은 계속 줄어 결정계수가 계속 증가하게 된다.

이로 인해 하나의 모형을 선정할 때 결정계수의 값을 단순 비교할 수 없다.

따라서 독립변수가 2개 이상일 때는 아래와 같이 결정계수를 조정한 ‘조정된 결정계수’를 사용.

조정된 결정계수의 값은 설명변수가 추가된다고 해서 일방적으로 늘기만 하지 않는다.

SSE가 줄어들 때 n-k-1 역시 함께 줄어들기 때문.

따라서 조정된 값을 기준으로 모형을 선정하면 비교적 합리적인 모델을 선택할 수 있다.

 

[복습문제]

Q. y의 x에 대한 회귀방정식과 x의 y에 대한 회귀방정식이 각각 다음과 같이 주어져 있다.

y = 1 + 0.5x

x = -0.5 + 0.5y

또, y의 x에 대한 회귀직선의 RMSE가 √0.75하고 하자. 다음을 대략적으로 구하라.

i) x의 평균과 표준편차

ii) y의 평균과 표준편차

iii) x와 y의 상관계수

 

A. 종합적으로 구해보면 각 회귀직선은 모두 평균점을 지나므로 교차점이 곧 평균점이 된다.

따라서 x의 평균 = 0, y의 평균 = 1이 된다.

SDx, SDy, 상관계수 r은 3개의 연립방정식을 세워 구할 수 있다.

두 개는 주어진 각 직선의 기울기로부터 (기울기) = r * SDy / SDx 와 (기울기) = r * SDx / SDy 가 얻어지고,

나머지 하나는 RMSE를 통해 얻어지는 값으로 이번 장에서 공부한 √(1-r^2) * SDy = RMSE 를 통해 구해진다.

단순 연립방정식에 의해 SDx = 1, SDy = 1, r = 0.5를 얻을 수 있다.

 

Q. 어떤 컨설팅 회사가 컴퓨터 산업에 있어 생산량과 제조 비용간의 관계를 알아내려고 한다. 10개의 컴퓨터 회사로 이루어진 표본 자료가 다음과 같다.

최소자승법을 이용하여 Y의 X에 대한 회귀직선을 구하여라.

 

A. 기울기 = 0.3978 절편 = 134.79, 최소자승법의 증명을 묻는 문제로 식에 대입을 통해 구할 수 있다.

댓글 남기기