[통계학_제3부] 우연, 확률과 변동성(11, 12장)

[배반, 독립]

지난 번 범한 오류: 독립을 한글 그대로 받아들임.

A가 일어났다고해서 B의 확률이 변하는 것을 관찰하는 것이 아님.

단순히 독립이라는 의미를 놓고 보면 주사위 자체는 항상 독립적인 사건이 일어날 것만 같다.

하지만 독립은 그런 의미가 아닌 A의 조건에서 B가 일어날 확률이 변하지 않는 것을 확인하는 것.

 

즉,

가 만족하면 두 사건 A와 B는 독립이다.

사전적인 의미의 독립이 아닌 특정한 조건부확률과 기존의 확률이 같을 때 독립이라고 봐야함.

 

[베이즈 정리 예시_몬티 홀 문제]

새로운 조건하에서 원하는 사건의 확률을 업데이트할 때 베이즈 정리를 사용한다.

관련 이미지

1963년부터 시작된 몬티 홀이 진행하는 Let’s make a deal TV 쇼에서 벌어진 일이다.

세개의 문 중 하나에 자동차가 있다.

나머지엔 염소가 있다.

선택을 하고나면 답을 알고있는 진행자 몬티 홀은 지목되지 않은 문 중 염소가 들어있는 문을 연다.

이 때 선택을 바꿀 기회가 주어지는데, 선택을 유지하는 것과 바꾸는 것 중 무엇이 유리할까?

일류 수학자들 조차 헷갈려 함.

 

이를 마릴린 사반트가 베이즈 정리를 통해 증명함.

1번 문을 선택하였고, 진행자가 2번 문을 열어 염소를 보여주었다고 하자.

이 때, 1번 문에 차가 있을 확률과 3번 문에 차가 있을 확률을 구하자.

 

 

위와 같은 증명을 쉽게 그림으로 풀어보자면,

선택한 문에 차가 있을 확률 1/3

선택하지 않은 문에 차가 있을 확률 2/3

 

이때 우측에서 하나의 문을 진행자가 지우므로 나머지 하나에 2/3 확률이 몰리게 된다.

 

이 외에도 베이즈 정리가 사용되는 예:

– 암 양성 판정 시 실제 암일 확률_진단의 정확도를 기반으로 양성 판정을 받았을 때 실제 암 판단

– 텍스트 기반 스팸 메일 분류_기존의 분류된 비율을 바탕으로 새로운 메일을 분류하며 학습해나감

– 전종수 연구원 주식 상승 패턴 연구

 

 

제 3 부: 우연, 확률과 변동성

11, 12장 적용되는 예: 정규분포에 근거하여 아래 사항들에 사용

– 항공 수하물 중량 파악 및 예측

– 엘리베이터 적정 중량 책정

– 인형 뽑기 및 도박, 로또, 카지노 등 수익률 예측

11장_평균의 법칙

 [평균의 법칙, law of average]

관련 이미지

동전을 열 번 던지는 도중 1~5회 시행에서 모두 앞면이 나왔다.

이때 6~10회 시행에서 모두 뒷면이 나오는 것이 평균의 법칙일까?

 

아니다, 평균의 법칙은 확률 오차의 상대적인 크기와 관련이 있다.

 

동전을 던질 때 앞면이 나오는 횟수에는 확률오차가 존재한다.

그렇기 때문에 대부분 기대횟수와 실제횟수와의 차이가 발생한다.

 

이는 각 시행횟수에 따라 확률오차의 절대적인 크기를 나타낸 그래프이다.

시행이 만번이 아닌 더 큰 횟수를 하면할수록 확률오차의 절대적인 크기는 커지는 경향을 보인다.

 

절대적인 크기를 각 시행횟수로 나누어 그래프로 표현하면 위처럼 크기가 작아지는 것이 확인된다.

평균의 법칙은 위와 같은 그래프를 설명하는 법칙이다.

시행이 계속될수록 결국 그 값이 평균에 수렴하게 된다.

 

[복습 문제]

Q. 아들과 딸을 낳을 확률이 같고 자식을 둘 낳을 때, 다음 중 성이 같은 경우가 자주 나타나는 쪽은?

i) 15쌍의 부부, 자식의 성이 같은 경우 10쌍 이상

ii) 30쌍의 부부, 자식의 성이 같은 경우 20쌍 이상

 

A. 1번, 자식의 성이 같을 경우는 50%다. 두 조건 모두 요구하는 오차의 상대적인 크기가 2/3 이상 으로 같지만 평균의 법칙에 따라 시행횟수가 적은 쪽이 상대적인 오차의 크기가 큰 것이 일반적이다.

 

12장_기대값과 표준오차

[기대값, expected value/ 표준오차, standard error/ 제곱근 법칙, square root law]

확률에서 기대값과 표준오차는 불확실한 혼란 속에서 기준을 세워 질서를 잡는다.

위와 같이 여러개의 숫자가 들어있는 박스에서 무작위 복원추출을 반복시행한 합들은 확률과정에 의해 하나의 값을 중심으로, 그 값과 어느 정도 차이를 보이며 분포하게 된다.

그 중심이 되는 값을 기대값, 기대값과 차이가 나는 정도를 표준오차라고 부른다.

 

박스에서 25번 무작위 복원추출을 반복할 때 기대값을 세워보자.

기대값은 박스의 평균 3에 추출횟수를 곱하면 얻어지므로 간단히 75가 얻어진다.

 

표준오차는 위 공식인 제곱근 법칙으로부터 구해진다.

즉 표준오차는 추출횟수의 제곱근에 비례한다.

따라서 상자의 표준편차 2에 √추출횟수인 5를 곱한 10이 표준오차가 된다.

 

위 시행을 100번 반복하여 얻은 결과이다.

과거 수학자들은 관측된 합이 어떤 범위 안에 있을 확률을 구하기 위해 정규분포곡선을 발견했다.

위 결과가 정규분포의 성질인 68-95 규칙을 띠는지 확인해보자.

 

55에서 95 사이의 구간은 기대값 주위로 2SE 이내에 들어오는 구간이다.

위 표를 기준으로 세어보면 100개의 값 중 98개가 해당 구간에 위치한다.

65-85 구간도 약간의 차이가 있긴 하지만 비슷한 값인 75개가 1SE 이내에 들어온다.

 

정규분포에 대한 이미지 검색결과

12장을 도박과 관련지었을때, 순이득에 대한 기대값이 0이면 해당 게임을 공정한 게임이라고 한다.

잃을 확률도 반, 얻을 확률도 반이다.

하지만 카지노는 업주 관점에서 지극히 안전한 돈벌이로 기대값이 0과는 멀리 떨어져 있다.

 

[복습 문제]

Q. 호텔을 찾는 손님의 평균 몸무게는 60kg, 표준편차는 10kg이다.

1550kg을 들어 올리는 엘리베이터에 25명이 탔을 때 용량이 초과할 확률은?

 

A. 기대값은 60kg에 25명을 곱한 1500kg.

표준오차는 표준편차에 √추출횟수를 곱한 값이므로 50kg이다.

정규분포 1시그마에 대한 이미지 검색결과

따라서 위 문제는 정규분포에서 1SE보다 큰 비율을 묻고 있으므로 16%가 답.

 

Q. 1부터 6까지 카드가 한 장씩 들어 있는 상자로부터 100회 무작위 복원추출을 하였다.

i) 추출된 숫자들의 평균이 3.78이라면, 그 합은 얼마인가? 378

ii) 추출된 숫자들의 평균이 3과 4 사이일 확률은 얼마인가?

 

A. 350을 기대값으로 갖는 문제에서 합이 300~400일 확률을 묻고 있다.

이는 전과 마찬가지로 정규분포를 가정으로 푸는 문제이다.

표준오차는 1~6의 표준편차에 √추출횟수 10을 곱한 값인 약 17을 가진다.

이에따라 좌우로 50 차이로보아 약 -3SE +3SE 내부 비율을 묻는 문제이다.

따라서 답은 99.7%가 된다.

댓글 남기기