[통계학_제3부] 우연, 확률과 변동성(9, 10장)

제 3 부: 우연, 확률과 변동성

9장_확률이란 무엇인가

살펴볼 용어: 도수이론, 주관적 견해, 여사건, 복원추출, 비복원추출, 벤 다이어그램, 상호배반, 덧셈법칙, 조건부확률, 사전확률, 사후확률, 분할, 베이즈정리, 독립

[도수이론, frequency theory/ 주관적 견해, subjective view/ 여사건, complementary event]

확률을 보는 관점은 크게 두 가지.

도수이론주관적 견해.

 

관련 이미지

우선 도수이론은 하나의 시행을 동일한 조건하에서 독립적으로 무한히 반복할 수 있을 때 잘 적용됨.

흔한 예로 동전던지기나 도박과 같은 확률게임이 이런 경우에 해당됨.

 

이 때 상대도수는 한 사건이 일어나는 특정한 확률로 사건을 무한히 반복함에 따라 하나의 상수로 수렴하게 된다.

도수이론에 따르면 이 상수가 해당 사건의 확률이 된다.

 

주식에 대한 이미지 검색결과

하지만 많은 경우 동일한 조건에서 반복 시행이 원천적으로 불가능하다.

그렇기 때문에 상대도수가 정의될 수 조차 없다.

 

내일 특정 주식이 오를 확률은? 시험에서 1등할 확률은? 그가 그녀를 사랑할 가능성은? 등등 일반적으로 알고싶은 확률은 대부분 상수로 정의내릴 수 없다.

그렇기에 사람들은 주관적인 견해를 가지고 확률을 세우고, 이에 대한 근거로 그 견해를 지지함.

 

complementary event에 대한 이미지 검색결과

박스 내부에 특정한 조건하에 진행된 각각의 시행들이 담겨 있을 때,

하나의 사건을 A라고 한다면 나머지는 A가 아니면서 박스 안에 있다.

이 나머지를 A의 여사건이라고 한다.

 

박스 내부에서 A사건이 일어날 확률을 P(A)라고 한다면, A의 여사건과의 관계는 위와 같이 표현이 가능하다.

 

[복원추출, sampling with replacement/ 비복원추출, sampling without replacement]

트럼프 카드에 대한 이미지 검색결과

샘플링에는 두 가지 방법이 있다.

카드를 여러장 꺼낼 때 이전에 꺼낸 카드를 다시 집어넣고 뽑는 복원추출

상관없이 연속해서 카드를 뽑는 비복원추출.

 

둘 중에 무얼 택하는 가는 목적에 따라 나뉜다.

한장의 카드를 뽑는데 Spade Ace가 나올 확률을 알고 싶다면 복원추출로써 그 답을 구해야하고,

3 장을 뽑는데 그 중에 Spade Ace가 나올 확률을 알고 싶다면 비복원추출을 해야한다.

 

[벤 다이어그램, venn diagram/ 상호배반, mutually exclusive/ 덧셈법칙]

벤 다이어그램에 대한 이미지 검색결과

하나의 직사각형과 그 안에 든 원을 이용해 한 개 또는 그 이상의 사건을 나타내는 그림.

사건간의 관계를 파악하기 좋으며 만약 두 사건의 원이 겹치지 않는다면,

두 사건은 상호배반 관계에 있다고 말한다.

 

  • 독립과 배반은 다르다.
  • 배반: 두 사건이 동시에 일어나지 않음(한 동전의 앞면과 뒷면이 동시에 나올 수 없음).
  • 독립: 두 사건이 서로 영향을 끼치지 않음(전에 앞면이 나왔다고 해서 후에 뒷면이 나오지 않음).

 

상호배반의 관계에 있는 두 사건 A, B 중 적어도 하나의 사건이 일어날 확률은 각각의 사건이 일어날 확률을 더하면 된다.

이를 좁은 의미의 덧셈법칙이라고 한다.

 

그렇지 않은 경우엔 두 원이 겹치는 부분이 생겨 중복 계산(double counting)하게 된다.

따라서 해당 중복만큼 감산해서 두 사건 중 하나가 일어날 확률을 구해야 한다.

이를 일반화된 덧셈법칙이라고 한다.

 

[조건부확률, conditional probability/ 분할, partition]

조건부확률은 주어진 정보나 조건에서의 확률을 구하기 위해 이용된다.

P(A)가 전체에서 A가 일어날 확률이라면,

P(A | B)는 B의 조건 하에서 A가 일어날 확률을 말한다.

즉, 위의 그림처럼 P(A and B)를 P(B)로 나눈 값과 같다.

 

이는 베이즈 정리와 연결되는 내용으로 분할을 먼저 살펴본다.

 

관련 이미지

전체를 중복되는 부분 없이 나누는 사건들을 전체의 분할이라고 정의한다.

예를 들면 주사위에서 1~6이 나올 여섯 개의 사건이 있다면, 이 사건들은 중복없이 주사위를 던지는 사건 전체를 분할한다.

즉, 분할은 합쳐서 전체를 커버하고 서로 중복이 없다는 두 가지 성질을 지니고 있는데,

이는 어느 하나라도 빠뜨리지 않고 이중 분류하지 않기 위함이다.

 

[베이즈 정리, Bayes’ theorem/ 사전확률, prior probability/ 사후확률, posterior probability]

이론과 예시를 들어 베이즈 정리를 이해해보자.

 

한 학생이 4지선다형 객관식 문제를 맞추었다.

교사 입장에서 이 학생이 문제를 알고 맞춘 것인지 궁금하다.

 

A가 문제를 알고 푼 사건일 때, 교사는 그 확률을 50%으로 잡았다(A와 여사건은 전체를 분할).

이를 사전적인 평가의 의미로 사전확률이라고 한다.

 

새로운 조건 B는 학생이 문제를 맞출 확률이다.

문제를 알고있을 때 맞출 확률을 100%, 모르고 맞출 확률은 25%(4지선다)라고 할 때,

구하고자하는 사후확률 P(A | B)는 아래그림 내부의 식과 같다.

 

그림으로 보면 이해가 쉽다.

사후확률인 학생이 문제를 알고 맞추었을 확률 P(A | B) = (B의 면적에서 A가 차지하는 비율)이 된다.

 

사전확률 = 0.5

사후확률 = 0.5 / (0.5 + 0.125) = 0.8

그림을 식으로 표현하면 위와 같고 이는 곧 베이즈 정리의 식이 된다.

즉, 베이즈 정리조건부 확률이자 사후확률을 구하기 위한 방법이 된다.

 

[문제]

Q. 밤 11시에 남자가 여자친구에게 전화를 건다.

그녀가,

  • 집에 없을 확률, 50%
  • 집에서 잘 확률, 25%
  • 집에서 깨 있을 확률, 25%

또한 전화를 받을 확률은

  • 집에 없다면, 0%
  • 집에서 자고 있다면, 1/3
  • 집에서 깨어 있다면, 2/3

금일 여자는 전화를 받지 않았다.

그녀가 집에 없을 가능성을 얼마로 보아야 하는가?

 

A. 벤 다이어그램을 통해 쉽게 베이즈 정리를 세워보자.

전화를 받지 않은 조건하에 밖에 있을 확률을 구하는 것으로 위와 같이 식을 세울 수 있다.

 

① = P(A1)*P(Bc | A1) = 0.25 * 1/3 = 1/12

② = P(A2)*P(Bc | A2) = 0.25 * 2/3 = 1/6

③ = P(A3)*P(Bc | A3) = 0.5 * 1.0 = 0.5

①+②+③ = 0.75

 

답: 2/3

 

Q1. 사건 A와 B가 독립이면, 두 사건은 반드시 상호배반이다.

Q2. 사건 A와 B가 상호배반이면, 두 사건은 독립일 수 없다.

 

A. 모두 거짓, 주사위를 예로 들어보자.

 

사건 A가 숫자 1, 2, 3이 나올 사건

사건 B가 짝수가 나올 사건이라고 할 때,

두 사건은 이전에 어떤 숫자가 나오든 각 사건이 일어날 확률은 1/2 이다.

하지만 숫자 2가 나올 경우 사건 A, B가 동시에 일어나므로 상호 배반이 아니다.

 

또 사건 A가 짝수, B가 홀수나 나오는 사건일 때, 두 사건은 상호 배반이다.

마찬가지로 이전의 결과가 어느 사건에 속하든 사건 A, B가 일어날 확률은 변하지 않는다.

 

10장_이항공식

살펴볼 용어: 베르누이 시행, 베르누이 확률변수, 이항확률변수, 이항계수, 팩토리알, 이항공식

[베르누이 시행, Bernoulli trial/ 베르누이 확률변수, Bernoulli random variable]zero or one에 대한 이미지 검색결과

결과가 둘로 나뉘는 시행을 베르누이 시행이라고 한다.

이 시행에서 성공에 1을, 실패에 0을 대응시키는 확률변수를 베르누이 확률변수라고 한다.

 

성공확률이 p로 동일한 베르누이 시행을 독립적으로 n번 시행했을 때의 방정식이다.

X는 성공의 총 횟수를 말하며 X1, X2, …, Xn은 베르누이 확률변수로 각각 0, 1의 값을 가진다.

 

[이항분포, binomial distribution/ 이항확률변수, binomial random variable]

bernoulli distribution equation에 대한 이미지 검색결과

그러한 X를 이항확률변수라고 하며 X는 위 그림과 같은 이항분포를 가지게 되며,

기호로는 X ~ B(n, p)로 n은 시행횟수, p는 각 시행이 성공할 확률을 나타낸다.

따라서 위 그림은 확률이 0.2인 시행을 25번 시행했을 때의 이항분포이다.

 

[이항계수, binomial coefficient/ 팩토리알, factorial/ 이항공식, binomial formula]

P(X=k) 즉, X가 k번 성공할 확률은

k번 성공할 조합의 수(combination)에 각 사건들이 일어날 확률을 곱해주면 구할 수 있다.

 

예를 들어 이해해보자. 동전을 두 번 던진다.

앞면을 1이라고 할 때, 앞면이 한번 나올 확률 P(X=1)을 구해보자.

 

총 나올 수 있는 조합은 두 가지(01, 10)이다.

각 조합이 일어날 확률은 01 이나 10이나 0.5 * 0.5로 같다.

 

따라서 조합의 수인 2에 0.25를 곱한 0.5가 P(X=1)이 된다.

 

이렇게 combination에 해당하는 수를 이항계수라하며 팩토리얼을 통해 큰 조합도 구할 수 있다.

이로 인해 각각 combination과 probability를 식으로 작성하면, 이항공식의 기본 모양이 된다.

복잡하지 않게 이를 방금 든 예시인 동전의 앞면에 대한 P(X=1)로 표현하면 다음과 같다.

[문제]

Q. 주사위를 열 번 던질 때 6의 눈이 한번도 나오지 않을 확률은?

A. 6이 나오는 것을 성공을 보고 확률 p를 1/6으로 잡자.

이는 P(X=0)에 해당하는 것으로 이항공식에 n=10, k=0을 대입하면 된다.

 

답글 남기기