카이제곱분석

카이제곱분석(Chi-squared analysis)

  • 카이제곱검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법
  • 두 변수의 관계가 독립적일 때 기대할 수 있는 값과 실제로 표본을 조사해 보았을 때 나온 값을 비교하는 것
  • 즉, 카이제곱분석의 목적은 표본자료를 가지고 모집단이 이러한 독립성을 가지고 있는지에 대해 확률적으로 추정하는 분석
  • 자료가 빈도로 주어졌으면서 명목변수나 서열변수로 이루어졌을 때 자료분석에 이용
  • 카이제곱값은 아래의 식으로 계산됨

9

  • 기대빈도= 각 변수가 해당하는 속성의 확률 x 전체 빈도 수
    • 기대빈도를 구체적으로 설명하자면, 두 변수의 실제 분포는 모르지만 전체 직급의 분포와 전체 성별의 분포를 알고 있는데 직급과 성별이 상관이 없을 때 기대할 수 있는 분포가 기대빈도
    • 아래 예시를 통해 확인하면, 하위직이 35명, 중+고위직이 15명이고 남자가 30명, 여자가 20명일 경우

11

  • 하위직이면서 남자인 사람의 기대빈도는 (35/50) x (30/50) x 50 = 21 인 것을 알 수 있다.
  • 이러한 방식으로 모두 채우면 아래와 같음

12

  • 중+고위직과 하위직에서의 남자와 여자의 비율은 60% : 40%로 동일하고 이럴 경우 두 변수는 통계적으로 독립적(직급에 따른 차이가 없기 때문)
  • 카이제곱은 이러한 독립성을 가지고 있는지에 대해 롹률적으로 추정하는 분석

 

1. SPSS를 활용한 카이제곱분석

  • 직장인 50명의 성별과 직급을 나타낸 데이터
  • 직급의 1은 하위직, 2는 중+고위직, 성별에서 1은 남자, 2는 여자를 나타냄
  • 출처 : 즐거운 spss, 풀리는통계학 / 저자 : 김준우 / 출판사 : 박영사
  • Data :  chi-squared-analysis.xlsx (55 downloads)

1

  • 50명의 성별과 직급 데이터

2

  • [분석]-[기술통계량]-[교차분석]을 클릭

3

  • 직급에 따른 성별을 확인하기 위해 [행]에 ‘직급’을 넣고 [열]에 ‘성별’을 넣음
  • 통계량을 클릭

4

  • [카이제곱]을 클릭

5

  • [셀]을 클릭

 

6

  • [관측빈도]와 [기대빈도]를 클릭하고 [행]을 클릭

7

 

  • 직급과 성별 교차표에서는 실제빈도와 기대빈도의 차이를 나타내고 있다. 하위직 남자의 경우 기대했던 21명보다 작은 18명이 나왔고, 중+고위직 여자의 경우 기대했던 65명보다 작은 3명이 나온 것을 볼 수 있음
  • 위에서 설명한 카이제곱 식을 대입하면 아래 표와 같고

10

  • 위에 나온 값을 모두 더하면 0.429 + 0.642 + 1 + 1.5 = 3.571 로 카이제곱 값이 3.571임을 알 수 있음

8

  •  유의확률은  0.059로 0.05보다 크므로 유의한 차이가 없다는 것을 의미 = 성별과 직급 간에는 분포차이가 없다(서로 독립적이라는 귀무가설 채택)
  • 자유도 = (행의 수준개수-1)(열의 수준개수-1)

2. R을 이용한 카이제곱분석


myd <- read.table("chi2.txt",header = F)
colnames(myd) <- c("position","sex")
attach(myd)
chisq.test(position,sex)

  • 코드실행

13

  • 코드실행 결과
  • 카이제곱 값은 2.4802, 자유도1, 유의확률은 0.1153이 나온 것을 볼 수 있다.
  • 유의확률이  0.05보다 크므로 유의한 차이가 없다는 것을 의미한다.
  • 즉, 성별과 직금 간에 분포차이가 없다(서로 독립적이라는 귀무가설 채택)

답글 남기기