Chapter1(데이터 이해) – 제2장_데이터의 가치와 미래

제1절 빅데이터의 이해

  1. 정의

– 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
– 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의
– 인재, 조직 변화까지 포함해 빅데이터를 넓은 관점으로 정의하는 정의
기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식

  1. 출현 배경

– 아날로그 방식에서 디지털 방식으로 전환 : 데이터의 생산, 유통, 저장의 편리성을 개선
– 인터넷 발전 : 광고 비즈니스 모델의 발전으로 다양한 회사들이 성장함. 서비스 사용자와 광고주를 연결하기위해 로그 정보를 기반으로 사용자에 대한 프로파일링을 수행하기 시작함.
– 모바일의 발전 : SNS로 자신의 감정 데이터를 쏟아내고 있음. GPS, 가속센서, 거리센서 등도 시시각각 사용자의 상황 정보를 양산하고 있음. 감정 정보와 상황 정보는 각종 서비스 사업자에게 소중한 사업 기회를 제공하면서 빅데이터 생태계를 풍성하게 만들고 있음
– 클라우드 컴퓨팅 : 빅데이터 처리 비용을 획기적으로 낮춤. 클라우드 분산 병렬처리 컴퓨팅은 빅데이터와 같은 대용량 데이터 처리 비용을 맵리듀스와 같은 혁신적 방식을 통해 획기적으로 줄임.

  1. 빅데이터 기능

– 차세대 산업혁명의 석탄이나 철
→ 빅데이터는 석탄과 철이 산업혁명에서 했던 역할을 해낼 것으로 기대됨
→ 지금의 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대 됨

– 21세기의 원유
→ 각종 비즈니스 ,공공기관 대국민 서미스, 경제 성장에 필요한 ‘정보’를 제공함으로써 산업 전반의 생산성을 한 단게 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망됨

– 렌즈 역할
→ 데이터가 산업 전반에 영향을 미칠 것으로 기대됨
→ 구글의 Ngram Viewer : 시간의 흐름에 따라 특정 단어의 출현 빈도를 그래프로 나타냄(시각화 영역을 렌즈 역할이라고 설명)

– 플랫폼 역할
→ 플랫폼이란 비즈니스 측면에서 일반적으로 ‘공동 활용의 목적으로 구축된 유무형의 구조물’을 의미함
→ Facebook의 경우 SNS 서비스로 시작했지만, 2006년 F8 행사를 기점으로 자신들의 소셜그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작하면서 플랫폼 역할을 하기에 이름
→ 각종 사용자의 데이터나 IoT 센서 등에서 수집된 데이터를 가공, 처리, 저장해두고, 이 데이터에 접근할 수 있도록 정보를 추출해 활용하게 되고, 빅데이터는 그 자체로 플랫폼 역할을 하게 됨

  1. 빅데이터가 만들어내는 본질적인 변화

1) 사전 처리에서 사후 처리 시대로

– 사전처리 방식 : 필요한 정보만 수집하고 필요하지 않는 정보를 버림으로써 시스템으로 달성할 수 있는 효율성을 만들어내는 방식. (예 : 표준화된 문서 양식)
– 시스템적으로 방대한 양의 데이터를 처리하고 분석할 수 있게 됨으로써 사전처리 방식이 점차 사라지게 됨
– 구글의 경우 로그 데이터를 분석해 광고에 매칭함. 이와 같이 가능한한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 것을 사후처리 방식이라고 칭하며, 빅데이터 시대에는 사후 처리 방식을 선호하게 됨.

2) 표본 조사에서 전수 조사로

– 빅데이터 시대가 되면서 전수 조사의 많은 제약이 사라지게 됨
– 클라우드 컴퓨팅 기술의 발전에 따라 데이터 처리 비용이 급격히 감소하고 있으며, 복잡하고 거대한 데이터를 다룰 수 있는 통계 도구도 등장하게 됨
– 전수조사의 장점은 샘플링이 주지 못하는 패턴이나 정보를 제공해 준다는 것에 있음
– 샘플링은 기본적으로 분석하고자 하는 바를 정하고 그에 필요한 정보를 수집하는 것이기 때문에 질문이 바뀌면 데이터를 바뀐 질문에 맞도록 다시 수집해야한다는 단점이 존재함. 따라서 데이터의 활용성 측면에서 융통성이 매우 떨어짐
– 전수조사는 모든 데이터를 모아두기 때문에 바뀐 질문에 따라 다양한 방식으로 데이터를 재가공 할 수 있음.

3) 질보다 양으로

– 구글의 자동번역 시스템의 경우 데이터의 양이 질보다 중요함을 잘 보여줌
– IBM의 경우 의회에서 번역한 것처럼 고도로 정교하게 번역된 말뭉치를 중심으로 데이터베이스를 구축했으나, 구글은 번역에 참고할 말뭉치 데이터베이스에 잘 번역된 것 뿐만 아니라 오역이 있는 웹사이트 정보까지 다 수용함.
– 그 결과 IBM이 구축한 데이터베이스 말뭉치는 수백만 건 수준이지만, 구글의 데이터베이스 말뭉치는 수십억 건에 이름.
– 데이터 수가 증가함에 따라 사소한 몇 개의 오류 데이터가 ‘대세에 영향을 주지 못하는’ 경향이 늘어나게 됨

4) 인과관계에서 상관관계로

– 신속한 의사결정을 원하는 비즈니스 상황에서는 인과관계를 모르고 상관관게 분석만으로 충분한 경우가 많음
– 주식거래의 경우 특정 사건의 인과관게를 분석하기 위해 시간을 보내다가 거래 타이밍을 놓쳐 수익 실현의 기회를 놓치는 것은 주식 거래 목적에 부합하지 않는 것처럼 정밀한 인과관게보다 상관관계를 더 선호하게 됨

제2절 빅데이터의 가치와 영향

1. 빅데이터의 가치

– 가치 산정이 어려운 이유:
→ 다목적 용도로 데이터가 개발되고 활용 됨
→ 새로운 가치를 창출 (기존의 없던 분야)
→ 분석 기술 발전(기존 분석 하지 못하던 형태의 데이터 분석 가능 ,텍스트 마이닝)

2. 빅데이터의 영향

– 빅데이터가 가치를 만들어내는 방식
→ 투명성 제고로 연구개발 및 관리 효율성 제고
→ 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
→ 고객 세분화 및 맞춤 서비스 제공
→ 알고리즘을 활용한 의사 결정 보고 혹은 대체
→ 비지니스 모델과 제품 서비스 혁신

– 빅데이터의 가치 창출 방식이 시장에 있는 플레이어(기업, 정부 소비자)에게 미치는 영향
– 기업 : 혁신, 경쟁력, 생산성 향상
→ 빅데이터를 활용하여 소비자의 행동을 분석하고 시장 변동을 예측하여 비즈니스 모델을 혁신하거나 신사업을 발굴할 수 있음
→ 원가절감, 제품 차별화, 기업활동의 투명성 제고 등에 활용하면 경쟁사보다 강한 경쟁력을 확보하는데 도움이 됨
→ 기업들의 운용 효율성이 증가하면, 산업 전체의 생산성이 강화되고, 국가 전체로써는 GDP가 올라가는 효과를 거둘 수 있음

– 정부 : 환경탐색, 상황분석, 미래대응
→ 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집하여 사회 변화를 측정하고 각종 재해 관련 정보를 추출할 수 있음
→ 이렇게 수집된 데이터를 바탕으로 사회관게망 분석이나 시스템 다이내믹스, 복잡계 이론과 같은 분석 방식을 적용하여 미래 의제를 도출할 수 있음

– 개인 : 기업과 정부가 빅데이터 활용으로 얻은 효용이 전이되 생활 전반이 개선됨

 

제3절 비즈니스 모델

1. 빅데이터 활용 사례

– 기업 : 구글 PageRank 검색 시스템, 월마트 상품진열

– 정부 : 실시간 교통정보, 기후, 지질활동, 소방, SNS, 통화 기록등 분석

– 개인 : 정치인, 가수의 Target 분석 활동 전략 수립

  1. 빅데이터 활용 기본 테크닉

– 연관 규칙 학습 : 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
→ 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
→ 상관관계가 높은 상품을 함께 진열하거나 시스템 로그 데이터를 분석해 침입자나 유해 행위자 색출이 가능하며, 우유 구매자가 기저귀를 더 많이 구매하는지 등을 분석해 낼 수 있다.

– 유형분석 : 이 사용자는 어떤 특성을 가진 집단에 속하는가?
→ 통계적 분류는 새로운 사건이 속하게 될 범주를 찾아내는 일이며, 이를 위해 기존 자료를 바탕으로 훈련용 분류틀이 미리 가춰져 있어야 함
→ 해당 기법은 무서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인 수강생들을 특성에 따라 분류할 때 사용할 수 있음

– 유전 알고리즘 : 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야하는가?
→ 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
→ 해당 기법은 ‘응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?’, ‘연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야하는가?’ 등에 대한 답을 찾을 때도 사용됨

– 기계 학습 : 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고싶어할까?
→ 데이터를 통해 학습할 수 있는 소프트웨어를 포함하고 있음
→ 훈련 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’하는 일에 초점을 맞춤
→ 이메일에서 스팸 메일을 걸러내는데도 사용되며, 사용자의 기호를 학습해 추천 서비스를 제공할 때도 사용됨

– 회귀분석 : 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
→ 분석가는 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악함
→ 해당 기법은 ‘사용자 만족도가 충성도에 어떤 영향을 미치는가?’, ‘이웃들과 그 규모가 집값에 어떤 영향을 미치는가?’ 등과 같은 문제 해결을 위해서도 사용됨

– 감정 분석 : 새로운 환불 정책에 대한 고객의 평가는 어떤가?
→ 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
→ 호텔에서 고객의 코멘트를 받아 서비스를 개선하거나 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아 낼 때 활용됨

– 소셜 네트워크 분석 : 특정인과 다른 사람이 몇 촌(degrees of separation) 정도의 관계인가?
→ 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악할 수 있음

제4절 위치 요인 및 통제 방안

  1. 위기요인

– 사생활 침해, 책임원칙훼손, 데이터 오용

  1. 통제방안

– 동의에서 책임으로, 결과 기반 책임 원칙 고수, 알고리즘 접근 허용

제5절 미래의 빅데이터

– 데이터 : 모든 것의 데이터화
– 기술 : 진화하는 알고리즘, 인공지능
– 인력 : 데이터 사이언티스트

– 데이터 사이언티스트 필요 역량
– SOFT SKILL
→ 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판)
→ 설득력 있는 전달 다분야간 협력

– HARD SKILL
→ 빅데이터에 대한 이론적 지식
→ 빅데이터 분석 기술의 숙련

 

연습문제

 

  1. 다음 중 빅 데이터가 기업에게 주는 가치가 아닌 것은 무엇인가?

① 혁신 수단 제공

② 경쟁력 강화

③ 생산성 제고

④ 환경 탐색

 

  1. 다음 중 빅데이터가 만들어 내는 변화가 아닌 것은?

① 데이터의 질 보다 양에 비중을 둠

② 데이터의 사전 처리보다 사후 처리에 비중을 둠

③ 새로운 것에 대한 발견법으로 상관관계보다 인과관계에 비중을 둠

④ 조사 방법으로써 표본조사보다 전수조사에 비중을 둠

 

  1. 빅데이터 출현 배경 중 거대한 데이터의 분석 비용 문제를 해결해 준 것은 무엇인가?

① 디지털 기술

② 클라우드 컴퓨팅 기술

③ 하드 드라이브 가격의 하락

④ SNS 확산

 

  1. 커피를 사는 사람들이 탄산음료도 많이 구매하는 지를 알아보기 위해 사용되는 분석은?

① 회귀 분석

② 기계 학습

③ 유전 알고리즘

④ 연관 규칙 학습

 

  1. 구글이 제공하는 Ngram Viewer 서비스는 빅데이터의 역할 중 무엇에 해당하는가?

① 렌즈 역할

② 차세대 산업 혁명에서 철이나 석탄의 역할

③ 21세기의 원유 역할

④ 플랫폼 역할

댓글 남기기