[통계학_제3부] 우연, 확률과 변동성(13장)

제 3 부: 우연, 확률과 변동성 13장_정규분포곡선과 확률히스토그램 해당 장에서는 정규분포곡선과 확률히스토그램간의 관계를 설명하며, 이와 관련된 부트스트래핑 내용 또한 설명하고 있다.   1. 동전 던지기와 정규분포 동전을 백 번 던졌을 때, 앞면이 50번 나올 확률은 얼마나 될까?   위와 같은 방법으로 그 확률을 구할 수 있다. 하지만 매 번 특정한 확률을 계산하는 것은 불편하다.   […]

Continue reading →

이원분산분석

이원배치 분산분석(Tow-Way ANOVA) 2개의 독립변수가 종속변수에 어떠한 영향을 미치고 있는가를 분석하는 것 각각의 독립변수가 종속변수에 미치는 영향을 ‘주효과’라고 함.  한 독립 변수의 변화가 종속변수에 미치는 영향이 다른 독립 변수의 수준에 따라 달라지는가의 여부 즉, 2개의 독립변수가 동시에 작용하여 종속변수에 미치는 영향을 ‘상호작용효과’라고 함. 이원분산분석의 조건 독립성 : 독립변수의 그룹 군은 서로 독립적이어야함. 정규성 : 독립변수에 […]

Continue reading →

[통계학_제3부] 우연, 확률과 변동성(11, 12장)

[배반, 독립] 지난 번 범한 오류: 독립을 한글 그대로 받아들임. A가 일어났다고해서 B의 확률이 변하는 것을 관찰하는 것이 아님. 단순히 독립이라는 의미를 놓고 보면 주사위 자체는 항상 독립적인 사건이 일어날 것만 같다. 하지만 독립은 그런 의미가 아닌 A의 조건에서 B가 일어날 확률이 변하지 않는 것을 확인하는 것.   즉, 가 만족하면 두 사건 A와 B는 독립이다. […]

Continue reading →

[통계학_제3부] 우연, 확률과 변동성(9, 10장)

제 3 부: 우연, 확률과 변동성 9장_확률이란 무엇인가 살펴볼 용어: 도수이론, 주관적 견해, 여사건, 복원추출, 비복원추출, 벤 다이어그램, 상호배반, 덧셈법칙, 조건부확률, 사전확률, 사후확률, 분할, 베이즈정리, 독립 [도수이론, frequency theory/ 주관적 견해, subjective view/ 여사건, complementary event] 확률을 보는 관점은 크게 두 가지. 도수이론과 주관적 견해.   우선 도수이론은 하나의 시행을 동일한 조건하에서 독립적으로 무한히 반복할 […]

Continue reading →

가설검정 2

독립표본 T검정 독립표본? 현실적으로 모집단에 대한 전수조사가 어렵기 때문에 표본을 사용하는데, 이 때 표본을 두 개의 각 모집단으로부터 독립적으로 추출해야함 추출한 표본의 차이를 가지고 모집단의 차이를 검정하는것이 ‘독립표본 T검정’임 (서로 다른 두 개의 그룹 간의 평균 비교) 귀무가설(H0) : 두 모평균의 차이가 없음 (M1-M2=0). 대립가설(H1)  : 두 모평균의 차이가 있음 (M1-M2≠0). 독립표본 T검정의 조건 -정규성, […]

Continue reading →

가설검정 1

모집단 평균에 대한 가설검정(T-test) 가설검정이란? 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정 귀무가설(H0) 현재 진실로서 받아들여지고 있는 사실이나 일반적으로 알려져 있는 내용을 의미함 가설검정을 하는 이유는 귀무가설이 의심을 받고 있어서 검증이 필요하기 때문 대립가설(H1) 귀무가설을 부정함으로써 새로이 입증하려는 내용을 의미함 가설검정의 종류 모집단의 평균에 […]

Continue reading →

[통계학_제2부] 상관관계와 회귀분석(7, 8장)

제 2 부: 상관관계와 회귀분석 7장_회귀분석의 오차 살펴볼 용어: RMSE, 잔차도, 등분산성, 이분산성   [제곱근-평균-제곱 오차, RMSE(Root-Mean-Square Error)] 회귀분석은 x로부터 y를 예측하는 데 쓰인다. 하지만 실제값과 예측치 사이에는 차이가 나기 마련. 그러한 차이의 기준이 되는 값이 RMSE이다.   이는 Error의 RMS값을 구한 값으로 정확히 표현하자면 오차가 아닌 추정오차의 RMS값이다. 일반적으로 추정오차는 잔차라고 부른다.   위는 […]

Continue reading →

[통계학_제2부] 상관관계와 회귀분석(5, 6장)

제 2 부: 상관관계와 회귀분석 5장_상관관계 살펴볼 용어: 결합분포, 양의 관계, 음의 관계, 독립변수, 종속변수, 평균점, 상관계수, 완전상관, 공분산   [결합분포, joint distribution] 두 변수간의 관계를 알고자 할 때는 각각 분석하는 것이 아닌 결합분포를 통해 살펴야함. 흔히 위와 같이 산포도를 통해 나타냄.   [양의 관계, positive association/ 음의 관계, negative association] 좌측 그림과 같이 x값이 […]

Continue reading →

회귀분석의 확장 – 공선성, 상호작용, 가변수

공선성(collinearity)의 정의 독립변수들 간에 높은 상관관계가 존재하는 것을 의미함. 독립변수 사이의 높은 상관관계(공선성)는 분석결과에 영향을 미쳐 잘못된 판단을 유도 할 수 있음. 실제로 종속변수에 큰 영향을 미치는 독립변수가 무의미하게 나타날 수도 있고, 회귀계수의 부호가 뒤바뀌는 상황도 발생할 수 있음. 다중공선성이란 여러 개의 독립변수들 사이에 공선성이 존재하는 것을 의미함. 공선성(collinearity)의 대응방안 첫 번째 대응방안으로 가장 기본적인 […]

Continue reading →

카이제곱분석

카이제곱분석(Chi-squared analysis) 카이제곱검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법 두 변수의 관계가 독립적일 때 기대할 수 있는 값과 실제로 표본을 조사해 보았을 때 나온 값을 비교하는 것 즉, 카이제곱분석의 목적은 표본자료를 가지고 모집단이 이러한 독립성을 가지고 있는지에 대해 확률적으로 추정하는 분석 자료가 빈도로 주어졌으면서 명목변수나 서열변수로 […]

Continue reading →