앙상블(Ensemble) – 배깅(Bagging)

1. 배깅(Bagging)이란? – Bootstrap Aggregating의 줄임말 – 훈련용 데이터 집합으로부터 크기가 같은 표본을 여러 번 동일한 크기로 단순확률 반복 추출 하여 각각에 대한 분류기를 생성하고, 생성된 분류기들의 결과를 종합하여 의사결정을 내리는 방법. – 이 때, 최종 결과값이 연속형일 경우에는 평균값, 범주형일 경우에는 투표를 통해 최종 결과값을 도출함. – 배깅(Bagging)의  흐름도는 아래 그림과 같음. – 훈련용 […]

Continue reading →

[06]컨조인트 분석

컨조인트 분석의 의미 컨조인트 분석이란 제품(서비스) 대안들에 대한 소비자의 선호 정도로부터 소비자가 각 속성에 부여하는 상대적 중요도와 각 속성수준의 효용을 추정하는 분석 방법. 신제품 개발 시 고려되어야 하는 속성들과 각 속성들의 속성수준을 결정할 수 있음. 주로 마케팅 쪽에서 사용하는 분석기법. 신제품에서 고려되어야하는 특성들이 무엇인지 어떤 세분시장에 진입하는 것이 가장 효과적일지 컨조인트 분석의 자료 1.메트릭(metric) 컨조인트 […]

Continue reading →

앙상블(Ensemble): 기본 개념

1. 앙상블(Ensemble)이란? – 앙상블이란 본래 프랑스어로 ‘통일, 조화’등을 나타내는 용어 – 여러가지 동일한 종류의 혹은 서로 상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 방법론 2. 앙상블의 목적 및 장단점 – 다양한 모형의 예측 결과를 결합함으로써 단일 모형으로 분석했을 때 보다 신뢰성 높은 예측값을 얻는 것 – 예를 들어 두 집단을 분류하는 분류기가 5개 있고, […]

Continue reading →

[07] 상응분석

상응분석(Correspondence Analysis) 명목척도로 측정된 2개 이상의 범주형 변수값들 간의 연관성을 분석하여 그 결과를 시각적 해석이 용이하도록 기하학적 맵으로 제시하는 다변량 통계기법 즉, 상응분석은 다차원척도법과 같이 일종의 수치정보를 그림으로 요약해서 표현하는 방법 다차원 척도는 자극점들 간의 유사성자료를 사용함으로써 대부분 등간척도나 비율척도로 측정한 자료를 사정보를 시각화하여 표현하는 방법 중의 하나 하지만 등간이나 서열척도로 측정된 변수는 일정한 규칙을 […]

Continue reading →

Neural Network_2

1. Perceptrons 인공 뉴런(artificial neuron)의 한 종류 Warren McCulloch 와 Walter Pitts의 초기 작업에 영감을 받아 과학자 Frank Rosenblatt에 의해 개발 초기의 Neural Network 분석에 사용되었음( 최근엔 sigmoid neuron을 주로 사용) 2. Perceptron의 작동 원리 Perceptron은 이진 변수인 x1, x2, x3를 input 변수로 받아서 하나의 이진 output( 0 또는 1)을 만듬 각 input 변수들의 상대적인 중요도(weight)인 […]

Continue reading →

Neural Network

1. Neural Network란? 인간의 신경세포(Neuron)은 신호를 받아들이는 다수의 수상돌기(input node)와, 다른 신경세포로 신호를 전달하는 축색돌기(output node), 그리고 이를 연결하는 시냅스로 이루어져 있음 신경세포들 사이의 신호는 무조건 전달되는 것이 아니라 신호의 강도가 일정한 임계 값(threshold) 이상이 되어야 전달이 되며, 각 시냅스의 연결 강도에 따라 신호의 전달 여부가 결정됨. Neural network는 인간의 뇌가 패턴을 인식하는 방식을 모사한 […]

Continue reading →

요인분석

요인분석 변수들 간의 상호 연관성을 분석해서 이들 간에 공통적으로 작용하고 있는 내재된 요인을 추출하여 전체자료를 대변할 수 있는 변수의 수를 줄이는 기법(자료 및 변수의 감축 기법) 다시 말해 요인분석은 연관상(상관관계)이 높은 변수(요인)들이 가지고 있는 공통성을 중심으로 하나의 동질적인 요인으로 묶어주는 분석방법 따라서 어느 한 특정변수는 유사한 다른 변수와 높은 상관관계를 가져야 함       […]

Continue reading →

Clustering (K-means)

  1. 클러스터링(Clustering)이란? -기계학습은 크게 지도 학습(supervised learning), 비지도 학습(unsupervised learning), 강화 학습(reinforcement learning)으로 구분됨 – 클러스터링은 가장 대표적인 비지도 학습 방법 중 하나이며 주어진 데이터 집합을 서로 비슷한 부분집합으로 나누는 방식 – 데이터와 각 데이터의 클래스 정보(label)가 존재하면 분류(Classification)로 해결하면 되지만, 해당 데이터들의 클래스(label)나 분류규칙이 무엇인지 알 수 없을 때 이용하는 방법이 클러스터링, 자세한 […]

Continue reading →

[05]군집분석

군집분석   군집분석이란 유사성에 근거하여 다양한 이질적 특성을 지닌 개체들을 동질적인 집단으로 묶어주는 방법으로 군집의 형성과정과 그 특성, 식별된 군집간의 관계에 대한 연구분석 과정의 총체     군집분석은 위 그림과 같이 분류기준에 따라 크게 3가지로 구분된다. 우선 계층적 군집방법은 개체 간의 거리에 의해 가까이 있는 개체들로부터 시작하여 결합해 감으로써 dendrogram의 계층구조를 형성해 가는 방법 병합적(agglomerative) […]

Continue reading →

K-NN(K – Nearest Neighbor)

1. K-NN이란? – 분류되어있지 않은 데이터 (test data)들을 분류된 데이터(train data)들을 기준으로 가장 비슷한 속성을 가진 그룹으로 분류해주는 방법론 – 즉, test data와 train data의 거리를 비교한 후 k개의 가장 가까운 이웃을 선발하고, k개의 training data들 중 가장 많은 부분을 차지한 그룹으로 test data의 그룹을 할당하는 것 – K-NN의 hyper parameter인 k값은 탐색할 이웃 수를 […]

Continue reading →