[DA]Data Analysis_1

1. 빅데이터 분석이란?

가. 비정형 데이터 마이닝

(1) 비정형 데이터 개념

비정형 데이터의 의미

□ 그림이나 영상,문서처럼 형태와 구조가 복잡해 정형화  되지 않은 데이터
◦ ex) 문서,음성,영상 등의 “전통적 데이터” + 이메일,SNS,블로그 등의 데이터

비정형 데이터의 중요성

□ 빅데이터의 대부분이 형식이 정해지지 않은 비정형 데이터, 활용의 중요성에 대한 논의가 활성화
◦ ex)스마트폰의 등장 이후 메신저,SNS,유튜브 등 발생하는 모든 데이터가 대부분 이에 해당함

(2) 비정형 데이터 분석의 종류

텍스트 마이닝

□ 비정형 및 반정형 데이터(문서)에 대하여 자연어 처리 기술과 문서 처리 기술을 적용하여 유용한 정보를 추출, 가공을 목적으로 하는 기술
◦ 크롤링(crawling) – 분석의 대상으로부터 분석에 사용할 수 있는 형태로 텍스트를 가져오는 행위, 대상은 PDF파일,신문기사,포털사이트의 게시물 등 다양하다.
◦ 머신러닝(machine learning) –  분석패키지 사용이 아닌 컴퓨터가 직접 의미있는 데이터를 수집하고 분석하는 기술, 컴퓨터가 모델을 수립하고 이를 기반을 예측까지 가능함. 빅데이터 분석 Tool인 R을 활용하여 할 수 있다.

웹 마이닝

□ 인터넷을 이용하는 과정에서 생성되는 웹 로그 정보나 검색어로부터 유용한 정보를 추출하는 웹을 대상으로 한 데이터 분석 기법
◦ ex)홈페이지에 대한 웹 마이닝 후 홈페이지 관리 및 CRM에 활용할 수 있다.

오피니언 마이닝

□ 어떤 사안이나 이슈,인물 등에 대한 의견,평가,태도 등을 분석하는 것으로 문장을 사실과 의견으로 구분해 의견만을 긍정/부정으로 나누고 그 강도를 측정한다. 분석 대상이 게시판,블로그 등 대규모 웹 문서이므로 텍스트 마이닝에 사용되는 기법들이 활용된다.
◦ 텍스트 마이닝의 한 부류, 형태소 분석,구문 분석 등의 자연어 처리를 통해 Positive와 Negative로 어휘들을 분류해 대상에 담긴 감정을 분류

사회연결망(SNS) 분석

□ 사회 연결망 분석은 노드,링크,중심성,밀도 등의 개념을 통해 행위자들 간의 상호관계를 파악하는 분석 기법

□ 사회 연결망 분석의 기본 형태

댓글 남기기