R을 이용한 가설검정

R을 이용한 가설검정

우리는 일상생활,연구과정에서 모집단의 특징에 대해 나름대로 추측이나 주장을 합니다.(예: 대한민국 25세 남성의 평균키는 170이다.)

이러한 주장의 참, 거짓을 밝히기 위해 표본을 통하여 타당성 여부를 확인하는데 이와 같은 과정을 체계적으로 정리한 검정 방법을 가설 검정이라고 합니다.

가설검정의 종류와 수립하는 순서, 방향성과 검정에 관해서는 앞서 게시되어있는 페이지 링크를 참조하겠습니다

.http://www.birc.co.kr/2018/02/05/%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95-1/

<가설검정 1. Birc>

t검정

t검정은 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로 t검정의 판단준거가 되는 t분포는 일반적으로 정상분포가 아니라 정상분포의 어림치입니다. 그러므로 일반적으로 표본크기가 커지면 자유도도 커지고 t분포는 정상분포에 훨씬 가까워 집니다. t검정을 통해 두모집단간의 평균차이에 대하여 검정을 할 수 있습니다.

t검정에서 사용되는 t분포의 확률값을 구하는 공식은 다음과 같습니다.

 

 

 

t 분포값을 t분포표안의 값에서 자유도(행)과 비교하여 근사치의 유의확률(열)을  구할 수 있습니다.(통계툴을 이용할 경우 p-값을 쉽게 구할 수 있습니다.)

 

  1. 일표본 t검정

일반적으로 모집단이 하나이고, 이 모집단의 평균이 어느 특정한 값(A)이라고 알려진 상태에서, 연구자가 기존에 알려진 값(A)과 ‘다르다‘ 혹은 ‘작다‘ 나 ‘크다‘ 와 같은 이의를 연구가설로 제기할 경우, 일표본 t검정을 사용합니다.

일표본 t 검정에 사용되는 R라이브러리는 t.test 이며 다음과 같이 사용합니다.

참치통조림 내용물의 평균무게가 300g이라는데 진짜일까?

 

data <- c(313,319,295,265,347,306,266,312,310,274,277,256,328,347,325,302,340,328,319,283
)
shapiro.test(data)

t.test(data, mu = 300, alternative = 'two.sided')

1.data에 표본데이터를 입력합니다.

2. shapiro.test(data): 정규성 검정을 하는것으로 표본데이터가 정규분포에 근사하는지 확인합니다.

검정결과 p-value가 0.05보다 높은 0.3819라는 것은 표본데이터가 정규분포를 따르고 있다는것을 의미하며 t검정을 실행할 수 있습니다.

3. t.test(data, mu = 300, alternative = ‘two.sided’) : 표본데이터는 data, 검정하려는 평균은 300, 방향성이 없는 양방향(two.sided)입니다.

검정결과는 다음과 같습니다.

t값은 0.90361, 자유도는(데이터개수-1=20-1=19)입니다.

유의수준 0.05로 판단할 경우, p-value는 0.05보다 큰 값인 0.3775이므로 귀무가설을 채택합니다.

95%신뢰수준의 구간은[292.6288,318.5712]인데 data의 평균이 305.6이라는 것을 알수 있습니다.

따라서 통조림의 평균 무게는 300g이라는 것을 알 수 있습니다.