정규분포

정규분포의 의미

확률밀도함수 중의 하나로, 가우스 분포(Gaussian distribution)라고도 불림.

  • 정규분포를 처음으로 데이터에 적용한 사람이 가우스(Carl Friedrich Gauss)

image전형적인 정규분포곡선

  • 면적의 합은 1
  • 분포가 평균을 중심으로 대칭적(symmetric)
  • 평균=중위수=최빈값
  • 종모양으로 하나의 봉우리만을 가짐

 

정규분포는 평균과 표준편차 두 값에 따라 다양한 위치와 형태를 가질 수 있음.image3

좌측은 평균은 같으나 표준편차가 다른 경우

우측은 평균은 다르나 표준편차가 같은 경우

 

image4

정규분포는 좌우 표준편차 1단위 당 약 68%, 2단위 당 95%, 3단위 당 99.7%의 확률

 표준정규분포의 의미

정규분포는 다양한 위치와 형태로 비교를 힘들게 함.

이러한 문제를 해결하기 위해 고안된 것이 표준정규분포이다.
image5

평균 m,  표준편차 σ를 따르던 분포를 표준화 과정을 거쳐 평균 0, 표준편차 1을 따르는 표준정규분포의 형태를 만들어 줄 수 있음.

 

SPSS를 활용한 표준정규분포

데이터 다운로드 :

  • 출처 : 즐거운 SPSS, 풀리는 통계학 / 저자 : 김준우 / 출판사 : 박영사
  • 데이터는 200명 학생의 키에 대한 정보

1.첫 번째 실습 데이터를 불러온 SPSS 화면

p1

2.분석 – 기술통계량 – 기술통계 선택

p2

3. “키”를 변수로 선택한 후, 표준화 값을 변수로 저장 체크 및 확인

p3

4. 기술통계량에 대한 결과p4

5. Z키라는 변수가 생성됨. Z키는 키에 대한 표준화 점수를 의미.p5

6. 그래프 – 레거시 대화 상자 – 히스토그램 선택
p6

7. 변수로 “키”를 선택한 후, 정규곡선 출력 선택
p7

8. 히스토그램을 통해 키의 분포와 곡선을 통해 정규분포가 나타남.p8

9. 두 번째 실습 데이터를 불러온 SPSS 화면.p9

10. 그래프 – 레거시 대화 상자 – 히스토그램 선택.p10

11. 변수로 “키”를 선택, 정규곡선 출력을 체크p11

12. 키의 분포를 나타내는 히스토그램과 정규분포 곡선이 나타남. 얼핏 보아도 두 번째 데이터의 분포는 정규분포를 많이 벗어난 형태p12

13. 분석 – 기술통계량 – 빈도분석 선택p13

14. 통계량 옵션 선택p14

15. 분포의 왜도,첨도 선택

  • 첨도(Kurtosis)  : 분포가 뾰족한지, 평평한지를 나타내는 수치
  • 왜도(Skewness) : 분포의 형태가 좌우 대칭인지 대칭을 벗어나는지를 나타내는 수치

p15

16. | 왜도 | (왜도의 절대값) >  왜도의 표준편차*2 일 때, 대칭에서 벗어남을 의미한다.  첨도의 경우 값이 양수일 때 정규분포보다 뾰족함을, 음수일 때 더 완만하고 평평함을 의미한다. 정규분포에 가까울 때는 첨도가 0에 가깝다.
p16

17. 분석 – 기술통계량 – 데이터 탐색 선택p17

18. 도표 옵선 선택p18

19. 검정과 함께 정규성도표 선택p19

20. 첨도와 왜도는 정규성에 대한 기술통계의 일종. 정규성에 대한 확률적 추정 방법은 Kolmogorov-Smirnov 검정과 Shapiro-Wilk검정이 있다. 유의확률이 0.05보다 작으면 모집단이 정규분포가 아니라 확률적으로 결론내릴 수 있다(절대적 결론이 아니다).

  • K-S 검정은 실제 데이터의 누적상대빈도와 정규분포의 누적상대빈도의 차이를 측정
  • S-W검정은 표준정규순서 통계량의 기대치

p20

답글 남기기