[06]R 제어문 다루기2 (반복문)

반복문1 (for문) 주어진 조건에 따라 반복해서 문장을 수행해야 할 경우 반복문을 사용한다. for문의 기본적인 구조는 for ( 변수 in 범위){ 수행할 명령1 수행할 명령2 } 위와 같다. 범위만큼 순서대로 변수에 대입되어 수행할 명령1, 수행할 명령2 등을 수행한다. 구체적인 예로 설명하기 위해 여러명의 이름이 담긴 리스트가 있고 리스트의 이름을 넣어 “xx님 안녕하세요.” 라는 문장을 반복해서 출력하는 […]

Continue reading →

[05]R 제어문 다루기1 (조건문)

조건문(IF문) 조건문이란 주어진 조건을 판단한 후 해당 조건에 맞는 명령문을 실행시키는 것을 말한다. if문의 기본적인 구조는 if( 조건문 ){ 수행할 명령1 } else{ 수행할 명령2 } 위와 같다. if문장의 조건문이 참이면 if 블록을 수행하고, 거짓이면 else 블록을 수행한다. 구체적인 예로 설명하기 위해 변수 a가 5보다 큰지 작은지 알아보는 코드로 만들어보려고 한다. 첫 번째 줄에서 변수 a를 […]

Continue reading →

[04]R 기본 문법

R 기본 문법 작업 디렉토리 확인 및 설정하기 getwd 함수는 현재 작업 위치를 나타내주는 함수이고 setwd 함수는 작업 디렉토리를 변경하는 함수이다.   할당하기 R 에는 변수에 값을 할당하기 위한 대입연산자 4가지가 있다. 위의 코드를 입력하면 콘솔창에 다음과 같이 나타나게 된다, 코드를 실행하면 Workspace 창에 다음과 같이 변수가 추가된 것을 확인할 수 있다.   비교하기 두 […]

Continue reading →

[02]RStudio 시작하기

RStudio 시작하기 R 은 데이터 분석을 위한 Tool이다. 간단한 데이터 처리는 MS 엑셀을 이용하는 것이 간편하고 빠르지만 엑셀은 대용량 데이터를 처리하기가 어렵다는 단점이 있다. R 프로그래밍의 경우 엑셀과 비교해 대용량 데이터의 처리가 가능하다. 대용량 데이터를 불러오는 것은 물론 처리를 통해 분석까지 가능하다. R은 명령어 체계와 프로그래밍 문법이 자유로운 편이라 배우기 쉽다는 장점이 있으며 또한 오픈소스 […]

Continue reading →

[08]Python의 내장함수

내장함수 파이썬에서는 자주 사용되는 함수를 내장함수라는 이름으로 기본적으로 제공한다. 파이썬 내장 함수는 외부 모듈과 달리 import가 필요하지 않기 때문에 아무런 설정 없이 바로 사용할 수 있다. 그럼 자주 사용되는 유용한 내장함수들에 대해서 간단히 알아보도록 하겠다. 함수 목록은 다음과 같다. (이 외에도 다양한 내장함수를 지원한다.) abs abs(x) 함수는 실수 x를 입력받았을 때 해당 값의 절대값을 반환하는 함수이다. […]

Continue reading →

PyCharm 설치 및 시작하기

https://www.jetbrains.com/ 에 접속 → Tools → PyCharm 클릭   2. 페이지 중앙 또는 우측 상단의 DOWNLOAD 클릭    3. PyCharm Community의 DOWNLOAD 클릭   4. 다운받은 인스톨 파일을 실행하여 Next 버튼 클릭   5. 파이참이 설치될 경로를 설정하고 Next 버튼 클릭   6. 설치 옵션에서 모든 항목에 체크하고 Next 버튼 클릭   7. 그럼 설치가 순조롭게 […]

Continue reading →

R을 이용한 가설검정

R을 이용한 가설검정

우리는 일상생활,연구과정에서 모집단의 특징에 대해 나름대로 추측이나 주장을 합니다.(예: 대한민국 25세 남성의 평균키는 170이다.)

이러한 주장의 참, 거짓을 밝히기 위해 표본을 통하여 타당성 여부를 확인하는데 이와 같은 과정을 체계적으로 정리한 검정 방법을 가설 검정이라고 합니다.

가설검정의 종류와 수립하는 순서, 방향성과 검정에 관해서는 앞서 게시되어있는 페이지 링크를 참조하겠습니다

.http://www.birc.co.kr/2018/02/05/%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95-1/

<가설검정 1. Birc>

t검정

t검정은 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로 t검정의 판단준거가 되는 t분포는 일반적으로 정상분포가 아니라 정상분포의 어림치입니다. 그러므로 일반적으로 표본크기가 커지면 자유도도 커지고 t분포는 정상분포에 훨씬 가까워 집니다. t검정을 통해 두모집단간의 평균차이에 대하여 검정을 할 수 있습니다.

t검정에서 사용되는 t분포의 확률값을 구하는 공식은 다음과 같습니다.

 

 

 

t 분포값을 t분포표안의 값에서 자유도(행)과 비교하여 근사치의 유의확률(열)을  구할 수 있습니다.(통계툴을 이용할 경우 p-값을 쉽게 구할 수 있습니다.)

 

  1. 일표본 t검정

일반적으로 모집단이 하나이고, 이 모집단의 평균이 어느 특정한 값(A)이라고 알려진 상태에서, 연구자가 기존에 알려진 값(A)과 ‘다르다‘ 혹은 ‘작다‘ 나 ‘크다‘ 와 같은 이의를 연구가설로 제기할 경우, 일표본 t검정을 사용합니다.

일표본 t 검정에 사용되는 R라이브러리는 t.test 이며 다음과 같이 사용합니다.

참치통조림 내용물의 평균무게가 300g이라는데 진짜일까?

 

data <- c(313,319,295,265,347,306,266,312,310,274,277,256,328,347,325,302,340,328,319,283
)
shapiro.test(data)

t.test(data, mu = 300, alternative = 'two.sided')

1.data에 표본데이터를 입력합니다.

2. shapiro.test(data): 정규성 검정을 하는것으로 표본데이터가 정규분포에 근사하는지 확인합니다.

검정결과 p-value가 0.05보다 높은 0.3819라는 것은 표본데이터가 정규분포를 따르고 있다는것을 의미하며 t검정을 실행할 수 있습니다.

3. t.test(data, mu = 300, alternative = ‘two.sided’) : 표본데이터는 data, 검정하려는 평균은 300, 방향성이 없는 양방향(two.sided)입니다.

검정결과는 다음과 같습니다.

t값은 0.90361, 자유도는(데이터개수-1=20-1=19)입니다.

유의수준 0.05로 판단할 경우, p-value는 0.05보다 큰 값인 0.3775이므로 귀무가설을 채택합니다.

95%신뢰수준의 구간은[292.6288,318.5712]인데 data의 평균이 305.6이라는 것을 알수 있습니다.

따라서 통조림의 평균 무게는 300g이라는 것을 알 수 있습니다.

[통계학_제3부] 우연, 확률과 변동성(13장)

제 3 부: 우연, 확률과 변동성 13장_정규분포곡선과 확률히스토그램 해당 장에서는 정규분포곡선과 확률히스토그램간의 관계를 설명하며, 이와 관련된 부트스트래핑 내용 또한 설명하고 있다.   1. 동전 던지기와 정규분포 동전을 백 번 던졌을 때, 앞면이 50번 나올 확률은 얼마나 될까?   위와 같은 방법으로 그 확률을 구할 수 있다. 하지만 매 번 특정한 확률을 계산하는 것은 불편하다.   […]

Continue reading →

CNN 기본개념

CNN(Convolutional Neural Network)란? CNN(Convolutional neural network)는 전통적인 뉴럴 네트워크 앞에 여러 계층의 Convolutional Layer를 붙인 모양입니다.  Convolutional Layer를 통해서 입력 받은 이미지에 대한 특징(Feature)를 추출하게 되고, 추출된 특징을 바탕으로 기존의 Fully-connected Layer(일반적인 뉴럴네트워크)를 이용하여 이미지에 대한 분류(Classification)를 수행합니다. CNN structure는 아래 그림과 같습니다. Convolutional Layer란? Convolutional Layer는 입력된 이미지 데이터로부터 특징을 추출하는 역할을 수행합니다. Convolutional Layer에는 […]

Continue reading →

이원분산분석

이원배치 분산분석(Tow-Way ANOVA) 2개의 독립변수가 종속변수에 어떠한 영향을 미치고 있는가를 분석하는 것 각각의 독립변수가 종속변수에 미치는 영향을 ‘주효과’라고 함.  한 독립 변수의 변화가 종속변수에 미치는 영향이 다른 독립 변수의 수준에 따라 달라지는가의 여부 즉, 2개의 독립변수가 동시에 작용하여 종속변수에 미치는 영향을 ‘상호작용효과’라고 함. 이원분산분석의 조건 독립성 : 독립변수의 그룹 군은 서로 독립적이어야함. 정규성 : 독립변수에 […]

Continue reading →