Windows에 Tensorflow 설치하기

1. 텐서플로우(Tensorflow)란? – 기계학습과 딥러닝을 위해 구글에서 만든 오픈소스 라이브러리 – GPU(그래픽 카드, Graphic Processing Unit)를 통한 연산을 지원하기 때문에 연산이 복잡한 딥러닝 알고리즘 구현 가능 – 실제 계산은 C++로 구현되었지만, 주된 API는 파이썬으로 이용 가능하기 때문에 쉽게 사용할 수 있고, 계산 속도 또한 빠르다는 장점이 있음 2. 설치 1) Python 3.5 설치 – tensorflow는 Python […]

Continue reading →

[03]장바구니 분석을 통한 소비자 쇼핑 트렌트 예측

장바구니 분석을 왜 하는가? 소비자들이 구매하는 가장 인기 있는 상품과 소비자들이 좋아하는 제품들과 싫어하는 제품들, 사람들이 함께 구매하려는 경향이 있는 상품들의 조합 등의 데이터들을 합쳐 다양한 머신 러닝 알고리즘을 적용해 상품의 경향성을 분석하고, 추천 엔진을 만들어 소비자들이 사고 싶은 제품을 예측하도록하거나 추천 서비스를 제공함   . 장바구니 분석 구매 패턴에 기초해 사람들이 어떤 제품을 구매할지 […]

Continue reading →

pip를 활용하여 파이썬 패키지 설치하기

1. 왜 pip를 설치해야 하는가? – 파이썬을 활용하기 위해선 여러가지 패키지를 불러오는 경우가 많음 – 코딩에 필요한 패키지를 불러오기 위해서는 패키지를 설치하는 작업이 선행되어야 함 – 패키지 설치 과정에서 반드시 필요한 것이 pip이며, cmd 창에서 간단한 명령어로 파이썬 패키지를 설치할 수 있음 2. pip 설치하기 ※주의 – pip를 설치하기 전에 ‘윈도우 환경에서 Python2와 Python3 함께 사용하기’를 […]

Continue reading →

회귀분석의 확장 – 공선성, 상호작용, 가변수

공선성(collinearity)의 정의 독립변수들 간에 높은 상관관계가 존재하는 것을 의미함. 독립변수 사이의 높은 상관관계(공선성)는 분석결과에 영향을 미쳐 잘못된 판단을 유도 할 수 있음. 실제로 종속변수에 큰 영향을 미치는 독립변수가 무의미하게 나타날 수도 있고, 회귀계수의 부호가 뒤바뀌는 상황도 발생할 수 있음. 다중공선성이란 여러 개의 독립변수들 사이에 공선성이 존재하는 것을 의미함. 공선성(collinearity)의 대응방안 첫 번째 대응방안으로 가장 기본적인 […]

Continue reading →

윈도우 환경에서 Python2와 Python3 함께 사용하기

1. 왜 Python2와 Python3를 함께 사용하는가? – Python2와 Python3는 서로 호환되지 않음 – Python2에만 맞는 라이브러리와 Python3에만 맞는 라이브러리가 존재함 – 하나의 Python 버전만을 사용할때는 다른 버전의 Python 라이브러리를 사용하지 못하는 단점이 있음 (특히 파이썬 딥러닝 라이브러리인 Caffe의 경우 Python3을 지원하지 않음) – 상황에 따라 Python2와 Python3를 사용한다면 결국 모든 라이브러리를 사용할 수 있게됨 2. […]

Continue reading →

카이제곱분석

카이제곱분석(Chi-squared analysis) 카이제곱검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법 두 변수의 관계가 독립적일 때 기대할 수 있는 값과 실제로 표본을 조사해 보았을 때 나온 값을 비교하는 것 즉, 카이제곱분석의 목적은 표본자료를 가지고 모집단이 이러한 독립성을 가지고 있는지에 대해 확률적으로 추정하는 분석 자료가 빈도로 주어졌으면서 명목변수나 서열변수로 […]

Continue reading →

앙상블(Ensemble) – 랜덤 포레스트(Random Forest)

1. 랜덤 포레스트(Random Forest)란? – 2001년에 Leo Breiman에 의해 처음 소개된 기법으로 의사결정 트리의 단점을 개선하기 위한 알고리즘 중 가장 지배적인 알고리즘 – 다수의 의사결정 나무를 결합하여 하나의 모형을 생성하는 방법 – 다양성을 극대화 하여 예측력이 상당히 우수한 편이고 배깅과 동일하게 붓트스트랩 표본을 이용한 다수의 트리의 예측 결과를 종합하여 의사결정을 진행하기 때문에 안정성도 상당히 높다는 장점이 […]

Continue reading →

앙상블(Ensemble) – 부스팅(Boosting)

1. 부스팅(Boosting) 이란? – Bagging과 유사하게 초기 샘플 데이터를 조작하여 다수의 분류기를 생성하는 기법 중 하나 – Bagging과의 큰 차이는 순차적(Sequential) 방법이라는 것 – Bagging의 경우 각각의 분류기들이 학습시에 서로 상호 영항을 주지 않고 그 결과를 종합하는 반면, Boosting은 이전 분류기의 학습 결과를 토대로 다음 분류기의 학습 데이터의 샘플 가중치를 조정하여 학습을 진행함. – 일반적으로 […]

Continue reading →

Convolutional Neural Network

1. Deep Neural Network Deep Learning이라는 것은 사실 Deep Neural Network를 의미 feed-forward network에서 hidden layer가 2개 이상이면 ‘deep’하다고 말함 (Deep Learning 이미 몇 십년 전에 기본적인 연구가 끝난 분야임) Multilayer perceptrons and backpropagation ( Rumelhart et al., 1986 ) Convolutional network ( LeCun, 1989 ) 그런데 Deep Learning 은 2000년도 중반이 지나고나서야 주목을 받기 […]

Continue reading →

정규분포

정규분포의 의미 확률밀도함수 중의 하나로, 가우스 분포(Gaussian distribution)라고도 불림. 정규분포를 처음으로 데이터에 적용한 사람이 가우스(Carl Friedrich Gauss) 전형적인 정규분포곡선 면적의 합은 1 분포가 평균을 중심으로 대칭적(symmetric) 평균=중위수=최빈값 종모양으로 하나의 봉우리만을 가짐   정규분포는 평균과 표준편차 두 값에 따라 다양한 위치와 형태를 가질 수 있음. 좌측은 평균은 같으나 표준편차가 다른 경우 우측은 평균은 다르나 표준편차가 같은 […]

Continue reading →