[08]확률분포

확률이란? – 확률을 보는 두 가지 견해

고전적 확률(Classical probability)

P(A) = ‘특정사건 A가 일어날 수 있는 경우의 수’ 나누기 ‘모든 경우의 수’

A사건이 유한개인 경우에만 적용가능하다는 한계가 있음.

경험적 확률(Empirical probability) 또는 상대도수(Relative frequency)확률

아주 많은 시행을 거쳐서 특정한 퍼센트가 산출되면, 이 특정한 퍼센트는 확률에 근접한다

즉, 오랜 시간을 두고 여러 번 통계적 시행을 반복한다면 한 사건 A의 확률은 어떤 값에 가까워 질 것이다는 견해이다.

A사건이 극한으로 일어나도 확률을 정의할 수 있지만, 이 극한을 증명할 방법이 없다는 단점을 가짐

※ 고전적 확률과 경헙적 확률 개념 모두 객곽적인 확률이 존재한다는 데에 동의한다는 점에서 공통       점을 가짐

※ 또한 경험적 확률은 시행횟수가 증가함에 따라 고전적 확률개념에 가까워짐. 예를 들어, 동전을 1000번 던졌을 때 앞면이 58번 나왔다는 결과를 얻었으면 58/1000 = 5.8%로 경험적 확률은 5.8%가 된다. 하지만 동전 던지기를 한다면 계속한다면 결국 결과가 고전적 확률인 50%에 가까워 질 것이다.

 

이산확률분포와 연속확률분포 – 확률값들의 분포

확률분포의 종류 (출처 : 구글 이미지 검색)

확률변수는 데이터의 특성에 따라 이산확률 변수와 연속확률 변수로 나눌 수 있음

이산확률분포

이산 변수 : 동전이나 주사위의 숫자와 같이 ‘셀 수 있는’ 정수

이산변수의 확률분포를 나타낸 것이 이산확률분포.

예를들어, 동전을 두개를 던져서 나오는 앞면의 수를 보면 전체 경우의 수는 아래와 같이 4개임

앞면 앞면, 앞면 뒷면, 뒷면 앞면, 뒷면 뒷면

앞면이 한번도 나오지 않는 경우의 수는 ‘뒷면 뒷면’으로써 1번,  앞면이 한 번 나오는 경우의 수는 ‘앞면 뒷면’, ‘뒷면 앞면’으로써 2번이다. 앞면이 두 번 나오는 경우는 ‘앞면 앞면’으로써 1번이다.

이 때 앞면이 나오는 숫자에 따른 각각의 확률을 살펴보면 앞 면이 한번도 나오지 않을 확률은 P(0) = 1/4(25%), 한 번 나올 확률은 p(1) = 2/4(50%), 두 번 나올 확률은 P(2) = 1/4(25%)이다.

이를 도표로 나타내면 아래와 같다.

1

 

이산확률분포에는 베르누이분포, 이항분포, 다항분포, 초기하분포, 기하분포, 음이항분포, 포아송분포 등이 있다.

이산확률분포 : 베르누이분포

베르누이 시행이란 결과가 성공(Success : S) 또는 실패(Failure : F) 두 가지 중 하나로만 나오는 것을 의미한다.

예시) 동전던지기에서 앞면(S), 뒷면(F)이 나올 확률

R 코드:

R에서는 베르누이 분포를 위한 별도의 함수는 없고 이항 분포 명령 binom에서 size를 1로 설정하는 수 밖에 없다.

 

# 베르누이 시행 그래프 

Bern <- dbinom(c(0, 1), size=1, prob=0.6)
barplot(Bern, names.arg=c("X=0", "X=1), ylab="P(X)", main="pmf of Bernoulli distribution") 

이산확률분포 : 이항분포

베르누이 시행을 n번 반복할 때 나타나는 특정 성공횟수의 확률에 대한 분포

예시) 동전던지기에서 동전을 n번 던졌을 때 앞면(S)이 몇 번 나오는지에 대한 확률

R 코드 :

구분

이항분포 R 함수

밀도 함수

d

dbinom(x, size, prob)

누적 분포 함수

p

pbinom(p, size, prob, lower.tail = TRUE / FALSE)

난수 발생

r

rbinom(n, size, prob)

예시) prob=0.5, size=20인 이항분포의 밀도함수 그래프

 

# 이항분포 밀도함수 그래프 (Binomial distribution plot, X~N(20,0.5)) 

Bino <- dbinom(0:20, size=20, prob=0.5)
plot(0:20, Bino, type='h', lwd=5, col="grey", ylab="probability", xlab="확률변수 X", main=c("X ~ B(20, 0.5)")) 

이산확률분포 : 초기하분포

비복원으로 추출할 때 성공이 일어나는 횟수에 대한 확률을 나타낸 분포

예시) 로또 복권 추첨, 생산 공장의 불량품 확률 등

R코드:

구분

초기하분포 R 함수

밀도 함수

d dhyper(x, m, n, k)

누적 분포 함수

p

phyper(p, m, n, k, lower.tail = TRUE / FALSE)

난수 발생

r

rhyper(nn, m, n, k)

※ m과 n개의 개체로 구성되어 있을 때, k개의 표본을 추출

예시) m=5, n=20 개체의 모집단에서 5개의 표본을 추출할 때, 초기하분포 그래프

 

# 초기하분포 밀도함수 그래프 (Hypergeometric distribution plot) 

Hyper <- dhyper(c(0:20), m=5, n=20, k=5) 
plot(Hyper, type='h', main="Hypergeometric distribution, with m=5, n=20, k=5") 

이산확률분포 : 포아송분포

일정한 단위 시간, 단위 구간(거리) 또는 단위 공간(면적)에서 특정 사건이 발생할 횟수에 대한 분포

예시) 은행창구에 도착하는 시간당 고객의 수, 교환대에 걸려오는 분당 전화의 수 등

R 코드 :

구분

포아송분포 R 함수

밀도 함수

d

dpois(x, lambda)

누적 분포 함수

p

ppois(p, lambda, lower.tail = TRUE / FALSE)

난수 발생

r

rpois(n, lambda)

※ lambda(λ)란 단위 시간 당 사건이 발생한 건수로서, 포아송 확률변수의 평균이자 분산값이다.

예시) λ = 3 인 포아송 분포 그래프

 

# 포아송분포 밀도함수 그래프 (poisson distribution plot, lambda = 3) 

Pois <- dpois(0:10, lambda = 3) 
plot(Pois, type='h', main="poisson distribution, lambda = 3") 

연속확률분포

연속  변수 : 키나 몸무게, 이론적으로 각 값이 연속적으로 위치할 수 있는 변수. 소수점 이하까지로                          측정되어지는 변수.

연속변수의 확률분포를 나타낸 것이 연속확률분포.

케이스 수가 아주 많고 구간이 아주 작아질 때 궁극적으로 만들어지는 곡선이라고 이해하면 됨

예를 들어 아래의 그림처럼 히스토그램의 구간인 △x가 0에 접근하면, 연속변수의 성격을 가지게 되는 것임

2

연속확률분포는 셀 수가 없는 연속 변수를 이용하기 때문에 특정 숫자에 대한 확률은 0임.  일정 구간에 대해서만 확률을 언급할 수 있음

연속확률분포에는 균등분포, 정규분포, 지수분포, 감마분포, 베타분포, t분포, 카이제곱분포, F분포 등이 있음

연속확률 분포의 종류 : 정규분포

가우스 분포라고도 불리며 사회현상이나 자연현상의 실제 응용에 폭넓게 사용되고 있는데  수많은 연속변수가 정규본포에 근사한 분포를 따름 (중심극한정리)

 

정규분포는 통계적 추정이나 가설검정 같은 추리통계학에서 기본이 되는 분포임.



# 정규분포 그래프 (Normal distribution plot, X~N(0,1))
x <- seq(-3, 3, length=200)
plot(x, dnorm(x, mean=0, sd=1), type='l', main="Normal distribution, X~N(0,1)")

 

여러가지 특징이 있는데 대표적으로 종모양을 이루며 분포의 평균을 중심으로 대칭을 이룸(평균=중앙값=최빈값) 또한 x축에 곡선이 닿지 않아 x의 범위는 -∞ < x < +∞이고 평균에따라 위치가 변하고 표준편차에 따라 모양이 변함 또한분포 아래의 면적값은 1이며 표준편차에 따라서 아래와 같이 면적값을 가짐.

(출처 : 구글 이미지 검색)

 

표준정규분포 : 평균이 0, 표준편차가 1인 정규분포로 구하는식은 다음과 같음

 

 

표준정규분포표(출처 : 구글 이미지 검색)

 

연속확률분포의 종류 : 지수분포

포아송분포의 역의 관계에 있는 분포로 연속하여 발생하는 두 사상 사이의 시간 간격 또는 공간의 간격에 대한 연속분포임. 어떤 사건이 발생하기 전까지 걸리는 시간을 나타내기 위해 많이 사용되며 그 예로 기계의 고장사이의 식, 은행에 도착하는 두 고객 사이의 시간, 걸려오는 전화사이의 시간 등 대기행렬문제, 신뢰성 문제에 많이 응용됨. 지수분포의 확률밀도함수는 다음과 같음.

 

지수분포의 특징으로는 오른쪽으로 긴 꼬리를 가지며 0부터 무한대의 값을 가짐. 또한 확률변수 x가 증가할수록 그 값은 감소하며 지수분포를 따르는 확률변수의 평균과 표준편차는 같음.



# 지수분포 그래프 (Exponential distribution plot) : fun=dexp
 ggplot(data.frame(x=c(0,10)), aes(x=x)) +
   stat_function(fun=dexp, args=list(rate=1), colour="brown", size=1.5) +
   ggtitle("Exponential Distribution")
        ggtitle("Exponential Distribution")

 

지수분포의 확률밀도함수 그래프 (출처 : 위키백과)

 

연속확률분포의 종류 : 감마분포

어떤사건이 발생하는 시간을 나타내는 함수가 지수분포라면 감마분포는 어떤사건이 α번 일어나는데 걸리는 시간에 대한 연속확률분포임. 팩토리얼 함수를 복소수까지 확장해서 만든 감마함수를 사용했기 때문에 감마분포라고 이름지어짐. 확률밀도함수는 아래와 같음.

 

 


# 감마 분포 : fun = dgamma
ggplot(data.frame(x=c(0, 400)), aes(x=x)) +
stat_function(fun=dgamma, args=list(shape=6, rate=0.05), colour="green") +
ggtitle("Gamma Distribution of (shape=6, rate=0.05)")

 

감마분포의 확률밀도함수그래프(출처 : 구글이미지 검색)

연속확률분포의 종류 :  카이제곱분포

명목변수나 서열변수의 관계를 알아볼 때 가장 많이 쓰이는 분포로 어떤 확률변수가 특정 분포를 따른다는 적합도 검정과, 두 변수간의 통계적 독립성을 검정하는 데 많이 활용됨.

α가 v/2,  λ가 1/2 일때의 특수한 감마분포임. 분산이 퍼져있는것을 분포로 보여주는 것으로 표본을 가지고 모분산을 추론하거나 분포의 차이 등을 알아내고자 할 때 카이제곱 분포를 이용함. 확률밀도함수는 아래와 같음.

 

특징으로는 v의 크기가 증가할수록 정규분포에 가까워지며 정규분포의 제곱의 확률분포는 자유도가 1인 카이제곱분포임 .


# 카이제곱 그래프(chi-squared distribution plot by degrees of freedom) 
# stat_function(fun=dchisq, args=list(df))

ggplot(data.frame(x=c(0,10)), aes(x=x)) +
   stat_function(fun=dchisq, args=list(df=1), colour="black", size=1.2) +
   geom_text(x=0.6, y=1, label="df=1") +
    
   stat_function(fun=dchisq, args=list(df=2), colour="blue", size=1.2) +
   geom_text(x=0, y=0.55, label="df=2") +
      
   stat_function(fun=dchisq, args=list(df=3), colour="red", size=1.2) +
   geom_text(x=0.5, y=0.05, label="df=3") +
      
   ggtitle("Chisq-Distribution")

 

 

 

 

 

 

 

 

 

(출처 : 구글 이미지)

 

연속확률분포의 종류 : T 분포

스튜던트 T분포라고 불리며 표본평균을 이용해 정규분포의 평균을 해석할 때 사용하며 가설검정과 회귀분석에도 많이 사용함. 표본이 적은 경우에 사용되며 이는 정규분포는 표본의 수가 적으면 신뢰도가 낮아지는 문제점이 있기 때문임.(T분포가 정규분포보다 예측범위가 넓음) T분포의 확률밀도함수는 다음과 같음.

 

 

 

확률변수 T의 확률밀도함수를  f(t)라 할 때 f(t)는 자유도가 ν인 T분포의 확률밀도함수라고 함.

 

 

 

Z가 표준정규분포N(0,1), V가 자유도 ν인 카이제곱분포를 따르며 두 확률변수가 서로 독립이라고 할 때 자유도  ν인 T분포를 따른다고 함.  정규분포N(μ,σ^2)을 따르는 모집단에서 확률표본 X1,…Xn을 추출한 경우는 자유도 ν-1인 T분포를 따름



ggplot(data.frame(x=c(-3,3)), aes(x=x)) +
stat_function(fun=dnorm, colour="blue", size=1) +
stat_function(fun=dt, args=list(df=3), colour="red", size=2) +
stat_function(fun=dt, args=list(df=1), colour="yellow", size=3) +
annotate("segment", x=1.5, xend=2, y=0.4, yend=0.4, colour="blue", size=1) +
annotate("segment", x=1.5, xend=2, y=0.37, yend=0.37, colour="red", size=2) + 
annotate("segment", x=1.5, xend=2, y=0.34, yend=0.34, colour="yellow", size=3) + 
annotate("text", x=2.4, y=0.4, label="N(0,1)") +
annotate("text", x=2.4, y=0.37, label="t(3)") + 
annotate("text", x=2.4, y=0.34, label="t(1)") + 
ggtitle("Normal Distribution, t-distribution")

 

T분포의 확률밀도함수 그래프(출처 : 구글 이미지 검색)

t분포표(출처 : 구글 이미지 검색)

연속확률분포의 종류 : F분포

모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속 확률 분포로 두가지 이상의 표본집단의 분산을 비교하거나 모집단의 분산을 추정할 때 쓰임. 즉 2개 이상의 표본평균들이 동일한 모평균을 가진 집단에서 추출되었는지 아니면 서로 다른모집단에서 추출된 것인지 판단하기 위해 사용함. 확률밀도함수는 아래와 같음.

 

 

서로 독립인 두 확률변수 U와 V가 각각 자유도가 ν1, ν2인 카이제곱분포를 따를 때, 새로운 확률변수

 

는 자유도가(ν1, ν2)인 F분포를 따름.

 

 



ggplot(data.frame(x=c(0,5)), aes(x=x)) +
stat_function(fun=df, args=list(df1=5, df2=10), colour="blue", size=1) +
stat_function(fun=df, args=list(df1=10, df2=30), colour="red", size=2) +
stat_function(fun=df, args=list(df1=50, df2=100), colour="yellow", size=3) +
annotate("segment", x=3, xend=3.5, y=1.4, yend=1.4, colour="blue", size=1) +
annotate("segment", x=3, xend=3.5, y=1.2, yend=1.2, colour="red", size=2) + 
annotate("segment", x=3, xend=3.5, y=1.0, yend=1.0, colour="yellow", size=3) + 
annotate("text", x=4.3, y=1.4, label="F(df1=5, df2=10)") +
annotate("text", x=4.3, y=1.2, label="F(df1=10, df2=30)") + 
annotate("text", x=4.3, y=1.0, label="F(df1=50, df2=100)") +
ggtitle("F Distribution")


 

F분포의 확률밀도함수 그래프

 

확률과 실제의 차이

아래 그림은 막대그래프를 통해 30대 한국남성의 키를 나타내었고, 이 분포에 적합한 파란색 정규분포곡선을 그린 것이다.
4

키나 몸무게와 같은 연속 변수는 흔히 정규분포라는 확률밀도함수를 따른다고 하는데 실제결과는 정규분포와 다르게 나타난 것을 알 수 있다.

확률의 계산

확률의 덧셈법칙

P(A or B) : 두 사건 중 적어도 하나의 사건이 발생할 확률

P(A and B) : 두 사건이 함께 발생할 확률

덧셈법칙 :  상호배반일 때 –> P(A or B) = P(A) + P(B)

상호배반이 아닐 때 –> P(A or B) = P(A) + P(B) – P(A and B)

확률의 곱셈법칙

P(A and B) : 결합확률 , 두사건이 함께 일어날 확률

P(A|B) : 조건부 확률, 사건 B가 주어진 조건 하에서 사건 A가 일어날 확률

P(A), P(B) : 주변 확률, 비조건부 확률

답글 남기기