[08]확률분포

확률이란? – 확률을 보는 두 가지 견해 고전적 확률(Classical probability) P(A) = ‘특정사건 A가 일어날 수 있는 경우의 수’ 나누기 ‘모든 경우의 수’ A사건이 유한개인 경우에만 적용가능하다는 한계가 있음. 경험적 확률(Empirical probability) 또는 상대도수(Relative frequency)확률 아주 많은 시행을 거쳐서 특정한 퍼센트가 산출되면, 이 특정한 퍼센트는 확률에 근접한다 즉, 오랜 시간을 두고 여러 번 통계적 시행을 […]

Continue reading →

앙상블(Ensemble) – 배깅(Bagging)

1. 배깅(Bagging)이란? – Bootstrap Aggregating의 줄임말 – 훈련용 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순확률 반복 추출 하여 각각에 대한 분류기를 생성하고, 생성된 분류기들의 결과를 종합하여 의사결정을 내리는 방법 – 배깅의 흐름도는 아래 그림과 같음 – 훈련용 데이터에서 Bootstrap Sampling을 통해 N개의 부분 데이터셋(Sub dataset)을 생성 – 각각에 대해 학습 알고리즘(Learning Algorithm)을 적용하여 분류기(Classifier)를 […]

Continue reading →

[06]컨조인트 분석

컨조인트 분석의 의미 컨조인트 분석이란 제품(서비스) 대안들에 대한 소비자의 선호 정도로부터 소비자가 각 속성에 부여하는 상대적 중요도와 각 속성수준의 효용을 추정하는 분석 방법. 신제품 개발 시 고려되어야 하는 속성들과 각 속성들의 속성수준을 결정할 수 있음. 주로 마케팅 쪽에서 사용하는 분석기법. 신제품에서 고려되어야하는 특성들이 무엇인지 어떤 세분시장에 진입하는 것이 가장 효과적일지 컨조인트 분석의 자료 1.메트릭(metric) 컨조인트 […]

Continue reading →

앙상블(Ensemble): 기본 개념

1. 앙상블(Ensemble)이란? – 앙상블이란 본래 프랑스어로 ‘통일, 조화’등을 나타내는 용어 – 여러가지 동일한 종류의 혹은 서로 상이한 모형들의 의사결정들을 결합하여 최종적인 의사결정에 활용하는 방법론 2. 앙상블의 목적 – 단일 모형으로 분석했을 때 보다 정확한 예측 수행 가능 – 예를들어 두 집단을 분류하는 분류기가 5개 있고, 각각의 오분류율이 5%라고 가정할 때, 만약 해당 모형들이 모두 동일한 […]

Continue reading →

[07] 상응분석

상응분석(Correspondence Analysis) 명목척도로 측정된 2개 이상의 범주형 변수값들 간의 연관성을 분석하여 그 결과를 시각적 해석이 용이하도록 기하학적 맵으로 제시하는 다변량 통계기법 즉, 상응분석은 다차원척도법과 같이 일종의 수치정보를 그림으로 요약해서 표현하는 방법 다차원 척도는 자극점들 간의 유사성자료를 사용함으로써 대부분 등간척도나 비율척도로 측정한 자료를 사정보를 시각화하여 표현하는 방법 중의 하나 하지만 등간이나 서열척도로 측정된 변수는 일정한 규칙을 […]

Continue reading →

Neural Network_2

1. Perceptrons 인공 뉴런(artificial neuron)의 한 종류 Warren McCulloch 와 Walter Pitts의 초기 작업에 영감을 받아 과학자 Frank Rosenblatt에 의해 개발 초기의 Neural Network 분석에 사용되었음( 최근엔 sigmoid neuron을 주로 사용) 2. Perceptron의 작동 원리 Perceptron은 이진 변수인 x1, x2, x3를 input 변수로 받아서 하나의 이진 output( 0 또는 1)을 만듬 각 input 변수들의 상대적인 중요도(weight)인 […]

Continue reading →

Neural Network

1. Neural Network의 등장배경 과거 많은 통계적 기법들은 독립변수들의 선형적 결합을 통해 예측을 표현하였으나 독립변수들이 비선형적 결합을 갖거나 데이터에 이상치(outlier)가 존재할 경우 선형분석이 곤란한 경우가 발생함 즉, 선형성과 정규 확률분포와 같은 가정에 바탕을 둔 기존 통계학적 방법론은 다양한 분야에 적용하는 것이 제한되어있는 한계점을 지님 이에 어떠한 확률분포나 변수들간의 선형적 관계를 가정하지 않는 Neural Network가 탄생함 […]

Continue reading →

요인분석

요인분석 변수들 간의 상호 연관성을 분석해서 이들 간에 공통적으로 작용하고 있는 내재된 요인을 추출하여 전체자료를 대변할 수 있는 변수의 수를 줄이는 기법(자료 및 변수의 감축 기법) 다시 말해 요인분석은 연관상(상관관계)이 높은 변수(요인)들이 가지고 있는 공통성을 중심으로 하나의 동질적인 요인으로 묶어주는 분석방법 따라서 어느 한 특정변수는 유사한 다른 변수와 높은 상관관계를 가져야 함       […]

Continue reading →

Clustering(K-means)

1. 클러스터링이란? – 주어진 데이터 집합을 서로 비슷한 부분집합으로 나누는 과정 – 데이터가 가지는 자기 유사성(Self-similarity)에 의해서 서로 다른 클러스터로 나뉨 – 분류(Classification)과 다른점은 Clustering은 미리 정의된 클래스나 분류규칙을 학습할 예제 데이터가 없다는 점 – 나누어진 클러스터에 대해 의미를 부여하는 것은 전적으로 데이터 마이너(Data miner)에 달려있음 2. 클러스터링의 등장 배경 – 데이터를 비교하거나 통합할 때 […]

Continue reading →

[05]군집분석

군집분석   군집분석이란 유사성에 근거하여 다양한 이질적 특성을 지닌 개체들을 동질적인 집단으로 묶어주는 방법으로 군집의 형성과정과 그 특성, 식별된 군집간의 관계에 대한 연구분석 과정의 총체     군집분석은 위 그림과 같이 분류기준에 따라 크게 3가지로 구분된다. 우선 계층적 군집방법은 개체 간의 거리에 의해 가까이 있는 개체들로부터 시작하여 결합해 감으로써 dendrogram의 계층구조를 형성해 가는 방법 병합적(agglomerative) […]

Continue reading →