[통계학_제2부] 상관관계와 회귀분석(5, 6장)

제 2 부: 상관관계와 회귀분석

5장_상관관계

살펴볼 용어: 결합분포, 양의 관계, 음의 관계, 독립변수, 종속변수, 평균점, 상관계수, 완전상관, 공분산

 

[결합분포, joint distribution]

joint distribution에 대한 이미지 검색결과

두 변수간의 관계를 알고자 할 때는 각각 분석하는 것이 아닌 결합분포를 통해 살펴야함.

흔히 위와 같이 산포도를 통해 나타냄.

 

[양의 관계, positive association/ 음의 관계, negative association]

positive association negative association에 대한 이미지 검색결과

좌측 그림과 같이 x값이 증가할 때 y값이 증가하는 경향을 보이면 양의 관계가 존재한다고 표현.

중앙 그림과 같이 x값이 증가할 때 y값이 감소하는 경향을 보이면 음의 관계가 존재한다고 표현.

우측 그림처럼 산포도가 무의미하게 퍼져있는 경우엔 관계가 존재한다고 보기 어려움.

 

[독립변수, independent variable/ 종속변수, dependent variable]

관련 이미지

두 변수가 있을 때 하나의 변수를 이용해 다른 변수를 설명하거나 짐작하고 싶어짐.

이때 이용하는 변수를 독립변수, 설명 내지 짐작되는 변수를 종속변수라고 부름.

 

[평균점, point of averages/ 상관계수, correlation coefficient/ 완전상관, perfect correlation]

point of averages sd에 대한 이미지 검색결과

산포도상에 그려진 두 변수간의 관계를 나타내는 숫자는 다음과 같음.

  1. x값의 평균과 표준편차
  2. y값의 평균과 표준편차
  3. 상관계수

평균점은 x와 y 두 평균에서 생기는 점을 말함.

그리고 각각의 표준편차는 해당 변수의 퍼진 정도를 말함.

 

주의해야할 점은 평균점과 각 표준편차만으로는 타원의 형태를 판단할 수 없다는 것.

– White Board –

 

따라서 두 변수간 선형관계의 방향과 강도가 얼마나 되는지 측정할 척도가 필요.

correlation coefficient에 대한 이미지 검색결과

위 그림처럼 상관계수는 변수들의 단위와 상관없이 -1부터 1까지 그 수를 표현.

그 중에서도 상관계수값이 -1 또는 1을 갖는 관계를 완전상관이라 부름.

 

즉, 상관계수의 절대값이 클수록 강한 상관관계에 있는 것.

유의해야할 점은 상관계수의 값이 2배 커졌다고 해서 관계 또한 2배 강해진 것으로 보긴 어려움.

 

[공분산, covariance]

equation of correlation에 대한 이미지 검색결과

상관계수를 구하는 식은 위와 같음.

이때 공분산이 등장하게 되는데, 그 이유는 공분산의 식에서 알 수 있음.

equation covariance에 대한 이미지 검색결과

공분산에서는 x와 y의 편차들을 서로 곱해주는데, 그 이유는 두 변수간의 관계가 편차들의 곱에 반영이 되기 때문.

하나의 x값이 평균보다 클 때 y도 평균보다 크면 두 편차의 곱은 양수.

반면 한 x값이 평균보다 클 때 y는 평균보다 작으면 편차의 곱으은 음수가 되는 점을 이용한 것.

곱한 값들을 모두 더해 양의 관계가 우세한지 음의 관계가 우세한지 측정.

 

따라서 공분산의 부호가 결국 상관계수의 부호가 됨.

하지만 굳이 공분산 대신 상관계수를 쓰는 이유는 단위가 소거되며, 그 값이 -1과 1 사이로 한정돼 관계의 절대적인 세기를 알 수 있기 때문.

 

[특이사항]

  1. 만약 두 변수의 표준편차가 모두 0이라면, 상관계수를 구할 수 없음.

– 산포도 상의 점들이 모두 한 점에 몰려 상관계수를 정의할 수 없음.

2. 하나의 표준편차만 0이라면, 상관계수는 0.

– 한 변수의 값이 변화하는 상황에서 다른 변수는 요지부동이므로 서로 관계가 없음.

3. 타원형이 아닌 산포도의 경우엔 상관계수의 유용성이 떨어짐.

– 비선형관계가 존재할 때의 상관계수는 효과를 보기 어려움. 하지만 종종 비선형관계는 변수변환을 통해 선형관계로 바뀌어지곤 함.

4. 상관관계가 곧 인과관계는 아님.

– 손과 발의 크기가 양의 상관관계를 보인다고 해서 둘 중 한 쪽이 원인이 될 수 없는 것과 같음. 이는 제 3의 요인으로 나이가 혼동요인으로 작용한 케이스. 이처럼 상관관계를 보인다고 해서 인과관계의 유무가 쉽게 식별되는 경우도 있지만, 대표적으로 폭력물 시청과 아이의 폭력성과 같은 관계처럼 정의하기 어려운 것들이 존재함.

 

[복습문제]

Q. 참, 거짓을 판별하고 설명하라. ‘상관계수가 0.90일 때 산포도상에서 90%의 점들이 하나의 직선상에 위치한다.’

A. 거짓, 상관계수의 숫자는 관계의 정도를 말하는 것일 뿐 0.xx라고 해서 xx%의 점이 직선 위에 놓임을 말하는 것이 아님.

 

Q. 10문제로 이루어진 어느 시험에서 부분점수는 없다. 강의 조교가 모든 학생에 대해 맞은 개수와 틀린 개수를 측정하였다. 두 개수간 상관계수는 얼마일지 답하고 설명하라.

A. -1, 맞은 개수를 x라 할 때 틀린 개수는 10-x (0<= x <=10)으로 y절편이 10이고 기울기가 -1인 그래프. 따라서 음의 완전 상관을 가짐.

 

Q. 50개 지역의 수학점수 평균과 언어점수 평균을 계산하였다. 두 평균점수로 이루어진 50개의 순서쌍에서 두 점수간의 상관계수는 0.97이었다. 개별 학생들의 수학 점수와 언어 점수간의 상관계수를 구하면 0.97보다 어떠할지 답하고 간단히 설명하라.

A. 작다, 자료의 비율이나 평균을 통해 얻은 상관계수는 실제 관계를 과대평가하는 경향이 강함. 이는 본래의 퍼진 정도가 평균을 구하는 과정에서 줄어들기 때문.

 

6장_회귀분석

살펴볼 용어: 회귀분석, 표준편차선, 회귀직선, 회귀효과, 평범으로의 회귀, 회귀오류,

 

[회귀분석, regression analysis/ 표준편차선, SD line/ 회귀직선, regression line/ 외삽, extrapolation]

sd line에 대한 이미지 검색결과

회귀분석이란 하나의 변수와 다른 여러 변수간의 관계를 밝히기위한 통계적 기법.

각 표시된 x지점과 y지점은 1 SDx, 1 SDy 간격으로 놓여진 것.

두 개의 선 중 점선이 표준편차선으로 평균점으로부터 x가 1 SDx만큼 증가할 때 y는 1 SDy만큼 증가한 선을 이은 것.

다른 하나의 선인 실선은 회귀직선으로 두 변수 사이의 관계계수를 기울기로 갖는 선.

다시 말해 아래의 그림처럼 평균점으로부터 x가 1 SDx만큼 증가할 때 y는 r SDy만큼 증가한 선인 것.

sd line에 대한 이미지 검색결과

만약 위 그림처럼 기존의 자료를 뛰어넘는 x값에 대하여 그에 해당하는 y값을 예측하는 문제를 외삽이라고 함.

일반적으로 외삽은 잘못될 가능성이 더 큼.

 

[회귀효과, regression effect/ 평범으로의 회귀, regression to mediocrity/ 회귀오류, regression fallacy]

regression effect sd line에 대한 이미지 검색결과

그렇다면 왜 ‘회귀’효과 일까.

그 이유는 한 변수에 대해선 낮았던 집단이 다른 변수에선 높은 경향을 보이고, 반대의 경우도 마찬가지로 한 변수에 대해 높았던 집단은 다른 변수에선 낮은 경향을 보이기 때문.

이는 점들이 하나의 직선상에 놓여있지 않고 퍼져있기 때문에 발생.

즉, 관계계수가 1보다 작기 때문에 SD line과의 차이가 생기고 그 차이가 점들이 회귀하는 듯한 현상을 보임.

이러한 효과는 아버지 키와 아들 키의 관계를 연구하던 Francis Galton에 의해 발견됨.

Galton은 이러한 현상을 평범으로의 회귀라고 부름.

이는 단순히 점들이 직선상에 위치하지 않고 퍼져있기 때문에 발생하는 것인데, 사람들은 종종 회귀효과가 뭔가 다른 이유 때문에 발생한다고 오해하는 것을 회귀오류라고 부름.

 

[복습문제]

Q. 중간, 기말고사의 성적이 모두 평균 60. 표준편차는 15이고 중간고사와 기말고사 점수 사이의 상관계수는 0.5이다. 산포도가 타원형일때 각각의 중간고사 성적에 대한 기말고사 성적을 예측하라.

i) 75

ii) 30

iii) 60

iv) 정보 없음

A.

i) 67.5

ii) 45

iii) 60

iv) 60

 

Q. 회귀분석 기법을 적용한 결과 수학 성적의 백분위가 90%인 학생의 언어 성적은 백분위가 68%로 예측되었다. 그렇다면 언어 성적의 백분위가 68%인 학생의 수학 성적은 그 백분위가 90%로 예측되겠는가? 참, 거짓을 판별하고, 그 이유를 설명하라.

A. 거짓, 평범으로의 회귀가 적절한 답이 될 것. 한 변수에 대해 50%를 넘는 백분위를 가졌다면 다른 하나는 조금 더 50%에 가까운 낮은 백분위를 가지게 되고, 반대로 50% 미만의 백분위를 가졌다면 다른 하나가 또 50%에 가까운 높은 백분위를 가지게 되기 때문.

 

Q. 한 의사는 혈압을 두 번 측정한다. 그는 첫 번째 측정에서 혈압이 아주 높게 나온 환자들은 다음 측정에서 혈압이 낮아짐을 발견하였다. 그래서 환자들은 두 번째 측정에서 더 편안해진다고 결론지었다. 다른 의사가 정 반대의 결론을 주장하고 나섰다. 처음 측정에서 혈압이 아주 낮게 나온 환자들의 경우엔 다음 측정에서 오히려 혈압이 높게 나왔기 때문이다. 두 의사 중 누가 옳은가? 아니면 둘 다 틀렸는가? 간단히 설명하라.

A. 둘 다 틀렸다. 회귀오류의 적절한 예가 됨. 평범으로의 회귀를 인지하지 못하고 무언가 중요한 원인이 있다고 오해하고 있음.

답글 남기기