R을 이용한 가설검정

R을 이용한 가설검정

우리는 일상생활,연구과정에서 모집단의 특징에 대해 나름대로 추측이나 주장을 합니다.(예: 대한민국 25세 남성의 평균키는 170이다.)

이러한 주장의 참, 거짓을 밝히기 위해 표본을 통하여 타당성 여부를 확인하는데 이와 같은 과정을 체계적으로 정리한 검정 방법을 가설 검정이라고 합니다.

가설검정의 종류와 수립하는 순서, 방향성과 검정에 관해서는 앞서 게시되어있는 페이지 링크를 참조하겠습니다

.http://www.birc.co.kr/2018/02/05/%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95-1/

<가설검정 1. Birc>

t검정

t검정은 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로 t검정의 판단준거가 되는 t분포는 일반적으로 정상분포가 아니라 정상분포의 어림치입니다. 그러므로 일반적으로 표본크기가 커지면 자유도도 커지고 t분포는 정상분포에 훨씬 가까워 집니다. t검정을 통해 두모집단간의 평균차이에 대하여 검정을 할 수 있습니다.

t검정에서 사용되는 t분포의 확률값을 구하는 공식은 다음과 같습니다.

 

 

 

t 분포값을 t분포표안의 값에서 자유도(행)과 비교하여 근사치의 유의확률(열)을  구할 수 있습니다.(통계툴을 이용할 경우 p-값을 쉽게 구할 수 있습니다.)

 

  1. 일표본 t검정

일반적으로 모집단이 하나이고, 이 모집단의 평균이 어느 특정한 값(A)이라고 알려진 상태에서, 연구자가 기존에 알려진 값(A)과 ‘다르다‘ 혹은 ‘작다‘ 나 ‘크다‘ 와 같은 이의를 연구가설로 제기할 경우, 일표본 t검정을 사용합니다.

일표본 t 검정에 사용되는 R라이브러리는 t.test 이며 다음과 같이 사용합니다.

참치통조림 내용물의 평균무게가 300g이라는데 진짜일까?

 

data <- c(313,319,295,265,347,306,266,312,310,274,277,256,328,347,325,302,340,328,319,283
)
shapiro.test(data)

t.test(data, mu = 300, alternative = 'two.sided')

1.data에 표본데이터를 입력합니다.

2. shapiro.test(data): 정규성 검정을 하는것으로 표본데이터가 정규분포에 근사하는지 확인합니다.

검정결과 p-value가 0.05보다 높은 0.3819라는 것은 표본데이터가 정규분포를 따르고 있다는것을 의미하며 t검정을 실행할 수 있습니다.

3. t.test(data, mu = 300, alternative = ‘two.sided’) : 표본데이터는 data, 검정하려는 평균은 300, 방향성이 없는 양방향(two.sided)입니다.

검정결과는 다음과 같습니다.

t값은 0.90361, 자유도는(데이터개수-1=20-1=19)입니다.

유의수준 0.05로 판단할 경우, p-value는 0.05보다 큰 값인 0.3775이므로 귀무가설을 채택합니다.

95%신뢰수준의 구간은[292.6288,318.5712]인데 data의 평균이 305.6이라는 것을 알수 있습니다.

따라서 통조림의 평균 무게는 300g이라는 것을 알 수 있습니다.

[통계학_제3부] 우연, 확률과 변동성(13장)

제 3 부: 우연, 확률과 변동성 13장_정규분포곡선과 확률히스토그램 해당 장에서는 정규분포곡선과 확률히스토그램간의 관계를 설명하며, 이와 관련된 부트스트래핑 내용 또한 설명하고 있다.   1. 동전 던지기와 정규분포 동전을 백 번 던졌을 때, 앞면이 50번 나올 확률은 얼마나 될까?   위와 같은 방법으로 그 확률을 구할 수 있다. 하지만 매 번 특정한 확률을 계산하는 것은 불편하다.   […]

Continue reading →

CNN 기본개념

CNN(Convolutional Neural Network)란? CNN(Convolutional neural network)는 전통적인 뉴럴 네트워크 앞에 여러 계층의 Convolutional Layer를 붙인 모양입니다.  Convolutional Layer를 통해서 입력 받은 이미지에 대한 특징(Feature)를 추출하게 되고, 추출된 특징을 바탕으로 기존의 Fully-connected Layer(일반적인 뉴럴네트워크)를 이용하여 이미지에 대한 분류(Classification)를 수행합니다. CNN structure는 아래 그림과 같습니다. Convolutional Layer란? Convolutional Layer는 입력된 이미지 데이터로부터 특징을 추출하는 역할을 수행합니다. Convolutional Layer에는 […]

Continue reading →

이원분산분석

이원배치 분산분석(Tow-Way ANOVA) 2개의 독립변수가 종속변수에 어떠한 영향을 미치고 있는가를 분석하는 것 각각의 독립변수가 종속변수에 미치는 영향을 ‘주효과’라고 함.  한 독립 변수의 변화가 종속변수에 미치는 영향이 다른 독립 변수의 수준에 따라 달라지는가의 여부 즉, 2개의 독립변수가 동시에 작용하여 종속변수에 미치는 영향을 ‘상호작용효과’라고 함. 이원분산분석의 조건 독립성 : 독립변수의 그룹 군은 서로 독립적이어야함. 정규성 : 독립변수에 […]

Continue reading →

neural network_activation function

활성화 함수(Activation function) 활성화 함수란? unit(node)에서 하나의 값이 다음 unit으로 넘어갈 때, 일정값 이상이 되면 activation 되고, 아니면 activation 되지 않는 작용을 하는 함수 분류(Classification) 문제에서 activation function이 없다면, Y=W*x + b의 결과는 발생(1),미발생(0)의 분류가 아닌 실수값이 산출되게 됨. 활성화 함수는 산출되는 값을 일정한 기준에 의해 발생(1), 미발생(0)으로 분류할 수 있게 값을 활성화하는 역할 ex) […]

Continue reading →

실제 이미지 데이터를 활용한 CNN 모델 구현하기

실제 이미지로 CNN 모델을 구현하여 나만의 이미지 분류기를 만들 수 있을까? 여러 Youtube 영상과 CNN 관련 코드 예제들을 살펴보면 실제 이미지가 아닌 Tensorflow에서 제공하는 MNIST 데이터를 활용한 것을 알 수 있습니다. Tensorflow에서 제공한 MNIST 데이터는 실제 이미지가 아닌 숫자 데이터이며, 이 때문에 실제 이미지를 활용하여 CNN 모델을 구현하는 것이 쉽지 않습니다. <Figure 1> Tensorflow에서 제공하는 […]

Continue reading →

[통계학_제3부] 우연, 확률과 변동성(11, 12장)

[배반, 독립] 지난 번 범한 오류: 독립을 한글 그대로 받아들임. A가 일어났다고해서 B의 확률이 변하는 것을 관찰하는 것이 아님. 단순히 독립이라는 의미를 놓고 보면 주사위 자체는 항상 독립적인 사건이 일어날 것만 같다. 하지만 독립은 그런 의미가 아닌 A의 조건에서 B가 일어날 확률이 변하지 않는 것을 확인하는 것.   즉, 가 만족하면 두 사건 A와 B는 독립이다. […]

Continue reading →

Object Detection with Tensorflow API

Object Detection 이란? Object Detection이란 사진이나 동영상에 존재하는 사물에 대해 인식하는 것을 의미합니다. 다음은 위키 피디아(Wikipedia)에서 정의한 Object detection의 정의입니다 Object detection is a computer technology related to computer vision and image processing that deals with detecting instances of semantic objects of a certain class (such as humans, buildings, or cars) in digital images and videos. Well-researched domains of object […]

Continue reading →

[통계학_제3부] 우연, 확률과 변동성(9, 10장)

제 3 부: 우연, 확률과 변동성 9장_확률이란 무엇인가 살펴볼 용어: 도수이론, 주관적 견해, 여사건, 복원추출, 비복원추출, 벤 다이어그램, 상호배반, 덧셈법칙, 조건부확률, 사전확률, 사후확률, 분할, 베이즈정리, 독립 [도수이론, frequency theory/ 주관적 견해, subjective view/ 여사건, complementary event] 확률을 보는 관점은 크게 두 가지. 도수이론과 주관적 견해.   우선 도수이론은 하나의 시행을 동일한 조건하에서 독립적으로 무한히 반복할 […]

Continue reading →

Overfitting과 Dropout

Layer가 많아질 때 발생하는 대표적인 문제점은 overfitting입니다. 왼쪽 그림처럼 어느정도의 오차도 허용해야 하는데, 오른쪽 그림처럼 선을 지나치게 구부려서 잘 분류가 되는 것처럼 보일 때 이를 overfitting 이라고 합니다. 위의 x축은 weight(layer), y축은 error를 의미하는 그래프를 살펴보면 아래의 파란선은 training set에 대해 발생하는 오차(error)를 나타내고 주황선은 test set에 대해 발생하는 오차를 나타냅니다. 이 그래프에서 얻을 수 […]

Continue reading →