Computer Science/Basics

data 분석 개요 & (1) 문제 정의, (2) 수집

metamong 2022. 3. 23.

1. 데이터 분석 및 개요

= 저장된 데이터에서 의미 있는 정보를 얻기 위한 과정

 

Q) 데이터 분석의 목표?

= 데이터 분석을 통해 데이터를 활용함으로써 경제적 가치를 창출하는 것!

 

[1] 데이터 활용 사례

* 미국 T-mobile 사

- 미국 내 휴대폰 통신 사업자를 대상으로 통화패턴을 분석하여 이탈고객을 방지한 사례

 

이탈패턴을 발견함으로써 이탈 방지

 

* sensor 데이터 관리 사례

- volvo 신차의 운행 과정에서 발생하는 각종 sensor 데이터 활용

: 해당 데이터를 활용함으로서 제품개발에서 찾기 어려운 결함 & 고객의 요구를 분석

- 과거에는 50만대의 차량이 팔린 후 알 수 있던 결함을 단지 1,000대 판매 시점에 바로 포착

- 결국 대규모 리콜 상태를 방지함으로서 비용을 절감할 수 있었다.

 

 

[2] 데이터 분석의 역할

* 불확실성 해소 - 통찰력을 제공해준다

: 데이터 기반의 패턴 분석, 미래 전망, 가능성 시나리오, 시뮬레이션을 제공해줌

 

* 위험 감지/회피 - 대응력을 제공

: 미리 데이터를 분석하여 이상징후를 감지하고 이에 따른 실시간 의사결정 결과 비용을 절감하는 효과를 가져다 줌

 

* 스마트 경제 도입 - 경쟁력 상승

: 상황인지, 인공지능 기반의 서비스 창출을 통해 차세대 사업 모델 발굴에 큰 힘을 가져다 줌

 

* 융합 기술 도입 - 창조력 향상

: 여러 분야가 결합함으로서 새로운 지식이 발견되고 결국 신 융합시장을 창출하게 되는 결과를 가져오게 됨

 

[3] 데이터 분석 과정

1> 문제 정의 - 필요한 지식이 무엇인가?

2> 데이터 수집 - 검색, 수/자동 수집, raw data 확보

3> 데이터 가공(전처리) - filtering, transformation 등등 여러 기법을 통해 정제된 data를 확보한다

4> 데이터 저장/관리 - database, data warehouse, data mart에 저장하여 관리한다

5> 데이터 분석 - 각종 분석 기법(통계 기법, 최적화 등등)을 통해 분석 결과를 산출하고 이를 바탕으로 예측한다

6> 데이터 가시화 - 정보 visualization

7> 데이터 공유 - 서로 다른 시스템 간의 공유

8> 지식 knowledge 활용

 

[4] 데이터 플랫폼

* 데이터 플랫폼 = 데이터 기술을 잘 사용할 수 있도록 준비된 환경 (데이터 세부 기술의 집합체)

- 수집 플랫폼: crawling

- 저장 플랫폼: HDFS Hadoop Distributed File System

- 처리 플랫폼: Spark, Storm

- 관리 플랫폼: 통계 분석, 데이터 마이닝, 최적화

 

2. 분석과정(1) - 문제 정의

* 데이터 문제 = 데이터를 수집/분석해서 해결 가능한 문제

 

[1] 주체 구별 & 존재 여부 고려

* 문제를 정의하기 위해 주체 main agent를 구별해야 한다

(주체 = 문제 해결 과정에서 적극적으로 참여하는 당사자)

- 예를 들어 주체가 조직인지 개인인지 구분

 

* 데이터의 존재 여부

- 데이터가 전혀 없으면 수집 방법부터 고민해야 한다 (수집 비용 과다 가능성, 왜 수집이 안되었는지 등등)

- 데이터가 존재하면 충분한지? (보완 필요성, 비용 문제 등등)

- 데이터가 충분해도 과연 적합한지? (데이터 가공의 필요성 등등)

 

[2] 데이터의 형태 외 문제 정의 시 고려 사항들

* 데이터의 형태

- 정형 데이터 structured data

: db에 저장된 형태로 장점은 데이터 검색/수정/가공이 쉽다는 것이다.

- 비정형 데이터 unstructured data

: db에 저장되지 않은 멀티미디어, 그래픽, 오디오 데이터 등등

(아래 데이터 종류에 대해 더 자세하게 나와 있음)

 

* 문제 정의 시 고려 사항

- 문제의 목표를 정의한다 what?

- 문제의 범위를 결정한다 where?

- 문제 결과에 대한 성공 기준을 정한다

- 문제 해결의 제약 조건을 정한다

 

- 문제 관련된 데이터에 필요한 속성

- 문제 해결에 필요한 데이터 수집 방법

- 데이터 처리 및 분석을 위한 도구 tool

- 최종 결과물의 형태와 전달 대상

 

[3] 사례

** 목표 - 온라인 판매 기업인 A사는 기존 구매자의 구매 데이터 및 평점을 바탕으로 다른 구매자의 구매 가능성을 예측하고자 한다.

- 범위: A사에서 제공한 데이터를 가지고 예측 모델을 개발하며, 평가 역시 A사에서 제공하는 dataset 기반으로 실시

- 성공기준: 새로운 예측 모델은 A사의 기존 모델보다 10% 이상 향상, 평가는 RMSE로 계산

 

** 추가 질문 + 가설

Q) 질문: 고객의 구매 트렌드에 영향을 끼치는 요인은 무엇인가?

→ 가설 1) 고객의 거주 지역이 구매 트렌드에 영향을 끼칠 것이다.

→ 가설 2) 구매 상품들 간의 연관성이 구매 트렌드에 영향을 끼칠 것이다.

 

[4] 목표 고려

* 총 세 단계로 진행될 수 있음

 

 1단계: 현상의 이해

- EDA(탐험적 데이터 분석)

- 데이터에 대한 초보적 분석: 무슨 현상이 일어났는가?

 

 2단계: 현상의 일반화

- 통계적 추론: 인과관계의 정립

- 데이터의 취합, 어떤 경우에 어떤 현상이 일어나는가?

 

 3단계: 현상의 예측

- 통계 모델 사용 (필요하면 AI 모델 결합)

- 앞으로 무슨 일이 일어날 지?

 

3. 분석과정(2) - 데이터 수집

* 데이터 수집 = 서비스 활용에 필요한 데이터를 시스템 내부 혹은 외부에서 주기성을 가지고 필요한 형태로 수동 or 자동으로 수집하는 활동

- 서비스 - 목표가 되는 서비스 명확하게

- 데이터의 위치 - 외부 데이터는 통제가 어렵고, 수집 난이도 높음

- 주기성 - 1회성이 아닌 경우가 대다수, 지속적 수집이 필요하다

- 수집된 데이터의 저장 - db, 분산 시스템 등에 저장

 

[1] 데이터 수집 절차

{1} 데이터 선정

- 프로젝트의 품질 및 성공, 진행 여부 결정하는 핵심 업무

- 수집 가능성, 보안 문제, 정확성, 난이도, 비용 등을 검토한다

 

{2} 데이터 위치 파악

- 내부라면 데이터 종류, 수집 주기등을 파악

- 외부라면 데이터의 양, 트래픽 정도, 소유 기관과의 협의, 저작권 등을 파악한다

 

* 데이터 종류

  • 정형데이터(structured data) - 데이터베이스에 저장이 가능하며, data schema 지원 - 수집 용이, 잠재가치는 상대적으로 낮다.
  • 반정형데이터(semi-structured data) - 내부에 meta 정보가 포함되어 있다. HTML, XML 등의 internet data - 수집 난이도가 있다. API 형태 가능. 잠재가치는 상대적으로 높다.
  • 비정형데이터 - 객체화된 개별 데이터로 동영상, 이미지, 텍스트 등이 포함 - 수집 난이도가 높다. 파일의 parsing 과정 필요. 데이터 분석이 선행된 후에 수집하므로 잠재가치가 높다

* 수집 주기

  • 일괄수집 - batch 처리
  • 실시간수집

* OPENAPI 방식

→ 데이터 수집 방법의 일종

 

<API: Application Programming Interface - 응용 프로그래밍 인터페이스>

: 프로그래밍 언어에 제공되는 interface 방식 / client가 자료 호출  server가 자료를 알려주는 방식

 

<OPENAPI>

: 여러 사람들이 공동 사용할 필요가 있는 data에 대한 사용을 개방하고 사용자들이 해당 data에 대한 전문지식이 없더라도 쉽게 가공하여 사용할 수 있도록 data를 추상화하여 표준화한 interface

- 실제로는 web page 요청/응답 형태로 많이 제공 (XML, JSON 형식)

 

 

{3} 데이터 수집 방법 적용

- 데이터 종류에 따라 다른 수집 방법이 필요하다

- 수집 기술 및 보안 사항을 점검

 

{4} 데이터 수집 진행

- 정확성 등이 원래 계획을 만족시키는지 검증

- 서비스 활용에 적합한지 검토

 

[2] 데이터 수집 계획서

- 데이터 소스를 명시

- 수집 주기

- 수집 방법

 

- 추가로 수집 계획을 검토하면서 기술적 검토, 업무적 검토를 수행

 

[3] 사례: 블랙홀 데이터 수집

→ ETH event horizon telescope 연구팀은 전세계 전파 망원경으로 블랙홀을 관측하였다.

* 해당 데이터 소스는 전세계 대형 전파 망원경 8개

* 5일간 집중 수집

* 데이터 용량은 5PB로 인터넷 전송이 불가능한 정도. 따라서 비행기, 배편으로 운송 - 남극 전파 망원경의 경우 7개월 후 배편으로 운송하였다.

* 그 결과, 데이터 확보에 성공하였고 이후 분석도 모두 성공하였다.


 

 

* 출처) 공공데이터 2021 청년인턴 기본역량교육

댓글