[통계학_제3부] 우연, 확률과 변동성(13장)

제 3 부: 우연, 확률과 변동성

13장_정규분포곡선과 확률히스토그램

해당 장에서는 정규분포곡선과 확률히스토그램간의 관계를 설명하며,

이와 관련된 부트스트래핑 내용 또한 설명하고 있다.

 

1. 동전 던지기와 정규분포

동전을 백 번 던졌을 때, 앞면이 50번 나올 확률은 얼마나 될까?

 

위와 같은 방법으로 그 확률을 구할 수 있다.

하지만 매 번 특정한 확률을 계산하는 것은 불편하다.

 

동전을 많이 던지는 경우 전체 시행 횟수 가운데 앞면이 나오는 횟수 또는 그 비율은 분포가 정규분포에 의해서 잘 근사된다.

관련 이미지

이를 이용하면 약 7.96%가 나오게 된다.

위에서 구한 값인 8%와 상당히 유사하다.

이를 이번 장에서 살펴보도록 한다.

 

2. 개념이 다른 두 히스토그램: 경험적 히스토그램과 확률히스토그램

  • 경험적 히스토그램: 관찰한 자료를 구간별로 분류하고 도수를 계산한 뒤 이를 밀도 단위로 바꾸어 그래프로 표현한 것
  • 확률히스토그램: 상자의 내용물 및 추출횟수로부터 합이 각각의 값으로 실현될 확률을 계산하여 그래프로 표현한 것

관측한 자료를 바탕으로 그리는 경험적 히스토그램과 달리 합의 확률히스토그램의 경우엔 그 확률을 시행 없이 도출해낼 수 있다.

 

3. 경험적 히스토그램과 확률히스토그램의 관계

시행 없이 도출이 가능한 이유는 경험적 확률이 평균의 법칙에 따라 본질적으로 이론적 확률로 수렴하기 때문이다.

시행 횟수가 작아 확률오차가 상대적으로 클 때 좌측과 같은 형태가 나타난다.

시행 횟수가 무한히 커짐에 따라 평균의 법칙에 근거하여 확률오차가 상대적으로 작아지게 되면 경험적 히스토그램은 확률히스토그램으로 수렴한다.

 

4. 합의 확률히스토그램과 정규분포곡선: 중심극한정리

이제 동전을 던지는 횟수가 증가함에 따라 앞면이 나오는 횟수의 확률히스토그램이 점차 어떤 모습으로 변해가는지 알아보자.

관련 이미지

위 그림은 각 1회 시행에서 동전을 던지는 횟수를 100회에서 1000회까지 늘린 확률히스토그램이다.

던지는 횟수가 늘어남에 따라 히스토그램이 정규분포곡선과 아주 닮아간다.

18세기 초 드 무아브르는 이처럼 시행 횟수가 증가함에 따라 확률히스토그램이 정규분포곡선으로 수렴함을 증명했고, 이러한 정리를 중심극한정리(central limit theorem)라고 부른다.

 

5. 정규분포곡선으로의 근사

중심극한정리에 따르면 동전 던지기 시행의 횟수가 증가함에 따라 앞면이 나올 횟수의 확률히스토그램이 정규분포곡선과 모양이 비슷해진다.

따라서 시행 횟수가 클 때 정규분포곡선을 이용하면 앞서 1절에서 살펴본 것처럼 동전의 앞면이 나올 횟수에 관한 확률을 쉽게 구할 수 있게 된다.

이때 정확히 50이 아닌 49.5~50.5 구간을 사용하는 것은 연속성 수정과 관련이 있다.

히스토그램에서 확률은 넓이에 해당한다.

또 확률히스토그램을 정규분포로 근사시키는 과정에서 이산적인 그래프가 연속적인 그래프로 근사되게 된다.

이에 따라 확률을 구할 때 이산적인 값인 50을 연속성 수정을 통해 49.5~50.5에 대응시켰다.

 

6. 정규분포곡선의 사용 범위

동전 던지기의 경우 앞면과 뒷면을 내용물로 본다면 내용물의 분포가 대칭적이다.

비대칭적인 경우에도 시행 횟수를 늘리면 정규분포로의 근사가 가능할까?

 

필요한 최소한의 횟수가 많아질 뿐 여전히 근사 가능하다.

즉, 내용물의 분포가 정규분포곡선과 비슷할수록 최소 요구 횟수가 작아지게 된다.

 

7. 부트스트래핑

위 내용에 따라 합의 확률히스토그램은 시행의 횟수가 적당히 크면 정규분포로의 근사가 가능하다.

하지만 작은 표본으로부터 구한 합의 확률히스토그램을 무작정 정규분포로 근사시키는 것은 위험하다.

이때 부트스트래핑 방법을 사용해 근사시키는 것이 정규분포를 이용하는 정규 근사보다 근사의 정확도가 높은 것으로 알려져 있다.

 

관련 이미지

방법은 간단하다.

가지고 있는 작은 표본을 모집단으로 둔다고 생각하고, 그 집단으로부터 같은 크기의 표본을 랜덤하게 1000번정도 추출한다.

각 표본의 평균을 이용해 히스토그램으로 나타내면 표본평균의 확률히스토그램에 대한 하나의 근사가 된다.

 

8. 적용 예시

  • 부트스트래핑 알고리즘을 이용한 한국어 격조사의 의미역 결정(2006, 김병수)
    – 확률 모델로 의미역을 결정한 후, 임계값에 도달하지 못한 논항들의 의미역을 결정하기 위해서 부트스트래핑 알고리즘을 활용
    – 초기 정보를 부트스트래핑 알고리즘을 통해 점진적으로 정보를 확장, 새 의미역이 결정될 때마다 확률 정보를 갱신하는 행위를 반복함
    – ex) ‘~로’가 문장에서 장소 및 목적지로 쓰였는지, 도구 사용의 의미로 쓰였는지를 판단
  • 책에서 설명하는 파이낸셜 부트스트래핑
    – 금융계약에 담긴 위험을 계량화하기 위해 부트스트래핑을 사용
    – ex) 3개월 뒤의 환율에 따라 손익이 결정되는 계약이 있을 때, 기존의 환율 정보를 가지고 이후 환율에 대한 가상의 정보를 만들어내 해당 근사 분포를 근거로 손익의 확률을 계산

댓글 남기기