정규분포

정규분포의 설명

X ~ N (μ, σ2)

<평균이 μ이고 분산이 σ2인 정규분포의 표현>

확률밀도함수 중의 하나로, 독일의 수학자 가우스가 물리적 실험에 대한 확률분포가 같다는 것을 증명하여 정규분포라고 하며 가우스 분포(Gaussian distribution)라고도 불림.

image전형적인 정규분포곡선

  • 면적의 합은 1
  • 분포가 평균을 중심으로 대칭적(symmetric)
  • 평균=중위수=최빈값
  • 종모양으로 하나의 봉우리만을 가짐
    • 정규곡선은 x축에 닿지 않음

 

정규분포는 평균과 표준편차 두 값에 따라 다양한 위치와 형태를 가질 수 있음.image3

  • 좌측은 평균은 같으나 표준편차가 다른 경우(표준편차가 크면 정규분포는 넓게 흩어진 모양이고, 표준편차가 작으면 좁게 밀집된 모양으로 나타남)
  • 우측은 평균은 다르나 표준편차가 같은 경우

정규곡선의 확률적 특성<출처:www. AI study.co.kr>

평균이 M, 표준편차가 σ인 정규분포에서 확률적 범위는 다음과 같음.

-P(M-σ≤X≤M+σ)= 0.683

-P(M-2σ≤X≤M+2σ)= 0.954

-P(M-3σ≤X≤M+3σ)= 0.997

 표준정규분포의 설명

정규분포를 따르는 확률변수 X가 a에서 b사이의 값을 갖게 될 확률은 정규분포함수를 정적분하여구할 수 있음.

하지만 확률변수가 갖게 될 값의 범위에 확률을 구하기 위하여 매번 적분하는 것은 번거로움. 이러한 문제를 해결하기 위해 고안된 것이 표준정규분포임. 표준정규분포를 구하기 위해서는 개별적인 확률 변수 값으로부터 평균을 뺀 차이를 다시 표준편차로 나누어 확률변수를 표준화 변수로 변환시켜야함.  따라서 정규분포의 확률인 P(M-Kσ≤X≤M+Kσ) 는 P(-K≤Z≤+K) 로 표현되며 Z는 평균으로부터 K배 만큼 표준편차가 떨어져 있음을 보여줌. image5

이항확률의 정규근사

이항분포에 대한 설명에서 이항분포의 n이 크고 성공확률 p가 아주 작지 않을 경우에는 정규분포에 근사하게 된다고 한다.  여기서 두가지 조건이 있다

1>표본 크기가 충분히 커야 한다.

2>성공확률이 매우 크거나 극히 작지 않아야 한다.

예시) 우리나라 중학생 중 비만인 학생은 20%라고 한다. 이때 우리나라 중학생 100명을 표본추출하여 비만도 검사를 하였다. 이때 비만인 학생이 15명에서 18명 사이로 나타날 확률을 구하자

이때 비만은 비만인 학생, 비만이 아닌 학생으로  결과를 얻는 이항분포를 한다. 따라서 비만인 학생이 15명에서 18사이일 확률을 구하면 다음과 같다.

이처럼 n이 클 경우에 확률변수 X가 이항분포일지라도 계산함에는 매우 번거롭다. 다만 100명씩 표본을 뽑는 행위를 무수히 많이 한다면 다음과 같이 정규분포에 근사 한다.

단, 정수 값을 확률변수로 취하는 이항분포를 연속적인 값을 갖는 정규분포로 접근시켜 분석하기 위해서는  정확성을 추구할 필요가 있다. 이를 위해서는 이항확률변수를 정규확률변수로 접근시킬 때 대응되는 값에 반올림을 고려하는데 이를 연속성 수정이라 한다.

이처럼 정규근사로 문제를 풀 때 0.5를 가감해서 연속성수정을 하면 , 하지 않았을 때보다 근사치의 값이 더 정확해진다.

예시를 연속성 수정을 하여 표준정규분포를 구한다면

P(14.5≤X≤18.5)->P(-1.38≤Z≤-0.38)=0.4162-0.1480= 0.2682

따라서 중학생 100명을 뽑았을 때 15명에서 18사이로 비만일 확률은 26.82%에 근사한다.

SPSS를 활용한 표준정규분포

데이터 다운로드 :

  • 출처 : 즐거운 SPSS, 풀리는 통계학 / 저자 : 김준우 / 출판사 : 박영사
  • 데이터는 200명 학생의 키에 대한 정보

1.첫 번째 실습 데이터를 불러온 SPSS 화면

p1

2.분석 – 기술통계량 – 기술통계 선택

p2

3. “키”를 변수로 선택한 후, 표준화 값을 변수로 저장 체크 및 확인

p3

4. 기술통계량에 대한 결과p4

5. Z키라는 변수가 생성됨. Z키는 키에 대한 표준화 점수를 의미.p5

6. 그래프 – 레거시 대화 상자 – 히스토그램 선택
p6

7. 변수로 “키”를 선택한 후, 정규곡선 출력 선택
p7

8. 히스토그램을 통해 키의 분포와 곡선을 통해 정규분포가 나타남.p8

9. 두 번째 실습 데이터를 불러온 SPSS 화면.p9

10. 그래프 – 레거시 대화 상자 – 히스토그램 선택.p10

11. 변수로 “키”를 선택, 정규곡선 출력을 체크p11

12. 키의 분포를 나타내는 히스토그램과 정규분포 곡선이 나타남. 얼핏 보아도 두 번째 데이터의 분포는 정규분포를 많이 벗어난 형태p12

13. 분석 – 기술통계량 – 빈도분석 선택p13

14. 통계량 옵션 선택p14

15. 분포의 왜도,첨도 선택

  • 첨도(Kurtosis)  : 분포가 뾰족한지, 평평한지를 나타내는 수치
  • 왜도(Skewness) : 분포의 형태가 좌우 대칭인지 대칭을 벗어나는지를 나타내는 수치

p15

16. | 왜도 | (왜도의 절대값) >  왜도의 표준편차*2 일 때, 대칭에서 벗어남을 의미한다.  첨도의 경우 값이 양수일 때 정규분포보다 뾰족함을, 음수일 때 더 완만하고 평평함을 의미한다. 정규분포에 가까울 때는 첨도가 0에 가깝다.
p16

17. 분석 – 기술통계량 – 데이터 탐색 선택p17

18. 도표 옵선 선택p18

19. 검정과 함께 정규성도표 선택p19

20. 첨도와 왜도는 정규성에 대한 기술통계의 일종. 정규성에 대한 확률적 추정 방법은 Kolmogorov-Smirnov 검정과 Shapiro-Wilk검정이 있다. 유의확률이 0.05보다 작으면 모집단이 정규분포가 아니라 확률적으로 결론내릴 수 있다(절대적 결론이 아니다).

  • K-S 검정은 실제 데이터의 누적상대빈도와 정규분포의 누적상대빈도의 차이를 측정
  • S-W검정은 표준정규순서 통계량의 기대치

p20

댓글 남기기