[통계학_제2부] 상관관계와 회귀분석(5, 6장)

제 2 부: 상관관계와 회귀분석 5장_상관관계 살펴볼 용어: 결합분포, 양의 관계, 음의 관계, 독립변수, 종속변수, 평균점, 상관계수, 완전상관, 공분산   [결합분포, joint distribution] 두 변수간의 관계를 알고자 할 때는 각각 분석하는 것이 아닌 결합분포를 통해 살펴야함. 흔히 위와 같이 산포도를 통해 나타냄.   [양의 관계, positive association/ 음의 관계, negative association] 좌측 그림과 같이 x값이 […]

Continue reading →

Back propagation 2

  미분은 순간변화율을 말합니다.(순간 변화율을 구하는 방법이 나누기라서 미분이라고 하지 않을까..) 우선 변화율이 무엇인지 이해해보자면, 변화율이란 상대적인 개념이라는 것을 알아야합니다. ‘f의 변화율이 3이다’라는 말은 온전한 표현은 아닙니다. 무엇에 대한 변화율인지가 빠졌기 때문입니다.  예를 들어, 속도(력)는 시간에 대한 위치변화(이동거리)의 변화율이고, 직선의 기울기는 x값에 대한 y값의 변화율입니다. 즉,  변화율을 말하려면 변화율의 기준이 되는 놈이 있어야 한다는 말이고 […]

Continue reading →

XOR 문제와 Neural Network

1. XOR 문제란? XOR 문제란 <figure 1>에 나타난 것 처럼 linear 방식으로 데이터를 구분할 수 없는 문제를 말합니다. OR 문제나 AND 문제는 아래와 같이 직선을 활용하여 데이터를 명확하게 구분할 수 있지만, XOR 문제는 어떤 직선을 활용하더라도 + 와 – 를 구분할 수 없습니다. <figure 1> OR, AND, XOR problem Minsky(1969)에서는 XOR 문제를 해결할 수 있는 […]

Continue reading →

Backpropagation Algorithm

역전파(Backpropagation) 알고리즘이란? 인공신경망(Artificial Neural Network)을 학습시키기 위한 가장 기본적인 알고리즘으로 오차가 본래의 진행방향과 반대방향으로 전파된다하여 붙여진 이름입니다(오류 역전파라고 불리기도 함). 일반적인 머신러닝 알고리즘은 경사 하강법(Gradient Descent)을 이용해서 목적함수를 최소화 하는 방향으로 업데이트합니다. 경사 하강법 알고리즘을 이용하기 위해서는 목적 함수의 미분값(Derivative)를 알아야합니다. 이때 이 미분값을 구하기 위해서 역전파 알고리즘이 사용됩니다.   역전파 알고리즘의 특징 역전파 알고리즘은 […]

Continue reading →

Gradient Descent Algorithm

1. Gradient Descent Algorithm(경사 하강법) 이란? Gradient Descent Algorithm은 어떤 모델에 대한 비용(Cost)를 최소화 시키는 알고리즘으로써, 머신 러닝 및 딥 러닝 모델에서 사용되는 가중치의 최적 해를 구할때 널리 쓰이는 알고리즘입니다. 쉬운 이해를 돕기 위해 예시 데이터를 통해 설명 드리겠습니다. <Table 1> Example dataset 데이터가 위의 <Table 1>과 같이 주어졌다고 가정하고, 모델 Y=Wx+b의 비용(Cost)을 구하면 <Figure 1>과 […]

Continue reading →

Softmax의 비용 함수(Cost function)

1. 비용 함수(Cost function) 이란? 비용 함수(Cost function)는 모델의 정확도를 측정할 때 활용 되며, 비용 함수란 예측 값(측정 값)과 실제 값 차이의 평균을 의미합니다. 비용 함수의 일반적인 식은 아래와 같습니다.     쉬운 이해를 돕기 위해 아래의 예제 데이터를 활용하여 설명하겠습니다. <Table 1> Example dataset #1 <Table 1>의 첫 번째 열은 모델의 예측 값을 나타내며, […]

Continue reading →

Softmax function 기본개념

Activation function of Multinomial Classification : Softmax function 딥러닝은 일반적으로 알고 있는 뉴럴네트워크가 심화된것을 의미합니다. 보통 뉴럴네트워크는 특정 데이터( input )를 사용하여 특정범주(output)로 분류하는 일에 사용됩니다. 분류는 주가가 상승(1)인지 하락(0인지) 혹은 암이 양성(1)인지 악성(0)인지를 판단하는 이항분류와 3가지 이상의 그룹 분류하는 다항분류로 구분할 수 있습니다. 위의 박스에 어떤 데이터(input)을 넣었을때 박스 안에서 어떤 일이 일어나고 특정 […]

Continue reading →

Windows에 Tensorflow 설치하기

1. 텐서플로우(Tensorflow)란? – 기계학습과 딥러닝을 위해 구글에서 만든 오픈소스 라이브러리 – GPU(그래픽 카드, Graphic Processing Unit)를 통한 연산을 지원하기 때문에 연산이 복잡한 딥러닝 알고리즘 구현 가능 – 실제 계산은 C++로 구현되었지만, 주된 API는 파이썬으로 이용 가능하기 때문에 쉽게 사용할 수 있고, 계산 속도 또한 빠르다는 장점이 있음 2. 설치 1) Python 3.5 설치 – tensorflow는 Python […]

Continue reading →

[03]장바구니 분석을 통한 소비자 쇼핑 트렌트 예측

장바구니 분석을 왜 하는가? 소비자들이 구매하는 가장 인기 있는 상품과 소비자들이 좋아하는 제품들과 싫어하는 제품들, 사람들이 함께 구매하려는 경향이 있는 상품들의 조합 등의 데이터들을 합쳐 다양한 머신 러닝 알고리즘을 적용해 상품의 경향성을 분석하고, 추천 엔진을 만들어 소비자들이 사고 싶은 제품을 예측하도록하거나 추천 서비스를 제공함   . 장바구니 분석 구매 패턴에 기초해 사람들이 어떤 제품을 구매할지 […]

Continue reading →

pip를 활용하여 파이썬 패키지 설치하기

1. 왜 pip를 설치해야 하는가? – 파이썬을 활용하기 위해선 여러가지 패키지를 불러오는 경우가 많음 – 코딩에 필요한 패키지를 불러오기 위해서는 패키지를 설치하는 작업이 선행되어야 함 – 패키지 설치 과정에서 반드시 필요한 것이 pip이며, cmd 창에서 간단한 명령어로 파이썬 패키지를 설치할 수 있음 2. pip 설치하기 ※주의 – pip를 설치하기 전에 ‘윈도우 환경에서 Python2와 Python3 함께 사용하기’를 […]

Continue reading →