1. 데이터 분석 및 개요
= 저장된 데이터에서 의미 있는 정보를 얻기 위한 과정
Q) 데이터 분석의 목표?
= 데이터 분석을 통해 데이터를 활용함으로써 경제적 가치를 창출하는 것!
[1] 데이터 활용 사례
* 미국 T-mobile 사
- 미국 내 휴대폰 통신 사업자를 대상으로 통화패턴을 분석하여 이탈고객을 방지한 사례
* sensor 데이터 관리 사례
- volvo 신차의 운행 과정에서 발생하는 각종 sensor 데이터 활용
: 해당 데이터를 활용함으로서 제품개발에서 찾기 어려운 결함 & 고객의 요구를 분석
- 과거에는 50만대의 차량이 팔린 후 알 수 있던 결함을 단지 1,000대 판매 시점에 바로 포착
- 결국 대규모 리콜 상태를 방지함으로서 비용을 절감할 수 있었다.
[2] 데이터 분석의 역할
* 불확실성 해소 - 통찰력을 제공해준다
: 데이터 기반의 패턴 분석, 미래 전망, 가능성 시나리오, 시뮬레이션을 제공해줌
* 위험 감지/회피 - 대응력을 제공
: 미리 데이터를 분석하여 이상징후를 감지하고 이에 따른 실시간 의사결정 결과 비용을 절감하는 효과를 가져다 줌
* 스마트 경제 도입 - 경쟁력 상승
: 상황인지, 인공지능 기반의 서비스 창출을 통해 차세대 사업 모델 발굴에 큰 힘을 가져다 줌
* 융합 기술 도입 - 창조력 향상
: 여러 분야가 결합함으로서 새로운 지식이 발견되고 결국 신 융합시장을 창출하게 되는 결과를 가져오게 됨
[3] 데이터 분석 과정
1> 문제 정의 - 필요한 지식이 무엇인가?
2> 데이터 수집 - 검색, 수/자동 수집, raw data 확보
3> 데이터 가공(전처리) - filtering, transformation 등등 여러 기법을 통해 정제된 data를 확보한다
4> 데이터 저장/관리 - database, data warehouse, data mart에 저장하여 관리한다
5> 데이터 분석 - 각종 분석 기법(통계 기법, 최적화 등등)을 통해 분석 결과를 산출하고 이를 바탕으로 예측한다
6> 데이터 가시화 - 정보 visualization
7> 데이터 공유 - 서로 다른 시스템 간의 공유
8> 지식 knowledge 활용
[4] 데이터 플랫폼
* 데이터 플랫폼 = 데이터 기술을 잘 사용할 수 있도록 준비된 환경 (데이터 세부 기술의 집합체)
- 수집 플랫폼: crawling
- 저장 플랫폼: HDFS Hadoop Distributed File System
- 처리 플랫폼: Spark, Storm
- 관리 플랫폼: 통계 분석, 데이터 마이닝, 최적화
2. 분석과정(1) - 문제 정의
* 데이터 문제 = 데이터를 수집/분석해서 해결 가능한 문제
[1] 주체 구별 & 존재 여부 고려
* 문제를 정의하기 위해 주체 main agent를 구별해야 한다
(주체 = 문제 해결 과정에서 적극적으로 참여하는 당사자)
- 예를 들어 주체가 조직인지 개인인지 구분
* 데이터의 존재 여부
- 데이터가 전혀 없으면 수집 방법부터 고민해야 한다 (수집 비용 과다 가능성, 왜 수집이 안되었는지 등등)
- 데이터가 존재하면 충분한지? (보완 필요성, 비용 문제 등등)
- 데이터가 충분해도 과연 적합한지? (데이터 가공의 필요성 등등)
[2] 데이터의 형태 외 문제 정의 시 고려 사항들
* 데이터의 형태
- 정형 데이터 structured data
: db에 저장된 형태로 장점은 데이터 검색/수정/가공이 쉽다는 것이다.
- 비정형 데이터 unstructured data
: db에 저장되지 않은 멀티미디어, 그래픽, 오디오 데이터 등등
(아래 데이터 종류에 대해 더 자세하게 나와 있음)
* 문제 정의 시 고려 사항
- 문제의 목표를 정의한다 what?
- 문제의 범위를 결정한다 where?
- 문제 결과에 대한 성공 기준을 정한다
- 문제 해결의 제약 조건을 정한다
- 문제 관련된 데이터에 필요한 속성
- 문제 해결에 필요한 데이터 수집 방법
- 데이터 처리 및 분석을 위한 도구 tool
- 최종 결과물의 형태와 전달 대상
[3] 사례
** 목표 - 온라인 판매 기업인 A사는 기존 구매자의 구매 데이터 및 평점을 바탕으로 다른 구매자의 구매 가능성을 예측하고자 한다.
- 범위: A사에서 제공한 데이터를 가지고 예측 모델을 개발하며, 평가 역시 A사에서 제공하는 dataset 기반으로 실시
- 성공기준: 새로운 예측 모델은 A사의 기존 모델보다 10% 이상 향상, 평가는 RMSE로 계산
** 추가 질문 + 가설
Q) 질문: 고객의 구매 트렌드에 영향을 끼치는 요인은 무엇인가?
→ 가설 1) 고객의 거주 지역이 구매 트렌드에 영향을 끼칠 것이다.
→ 가설 2) 구매 상품들 간의 연관성이 구매 트렌드에 영향을 끼칠 것이다.
[4] 목표 고려
* 총 세 단계로 진행될 수 있음
→ 1단계: 현상의 이해
- EDA(탐험적 데이터 분석)
- 데이터에 대한 초보적 분석: 무슨 현상이 일어났는가?
→ 2단계: 현상의 일반화
- 통계적 추론: 인과관계의 정립
- 데이터의 취합, 어떤 경우에 어떤 현상이 일어나는가?
→ 3단계: 현상의 예측
- 통계 모델 사용 (필요하면 AI 모델 결합)
- 앞으로 무슨 일이 일어날 지?
3. 분석과정(2) - 데이터 수집
* 데이터 수집 = 서비스 활용에 필요한 데이터를 시스템 내부 혹은 외부에서 주기성을 가지고 필요한 형태로 수동 or 자동으로 수집하는 활동
- 서비스 - 목표가 되는 서비스 명확하게
- 데이터의 위치 - 외부 데이터는 통제가 어렵고, 수집 난이도 높음
- 주기성 - 1회성이 아닌 경우가 대다수, 지속적 수집이 필요하다
- 수집된 데이터의 저장 - db, 분산 시스템 등에 저장
[1] 데이터 수집 절차
{1} 데이터 선정
- 프로젝트의 품질 및 성공, 진행 여부 결정하는 핵심 업무
- 수집 가능성, 보안 문제, 정확성, 난이도, 비용 등을 검토한다
{2} 데이터 위치 파악
- 내부라면 데이터 종류, 수집 주기등을 파악
- 외부라면 데이터의 양, 트래픽 정도, 소유 기관과의 협의, 저작권 등을 파악한다
* 데이터 종류
- 정형데이터(structured data) - 데이터베이스에 저장이 가능하며, data schema 지원 - 수집 용이, 잠재가치는 상대적으로 낮다.
- 반정형데이터(semi-structured data) - 내부에 meta 정보가 포함되어 있다. HTML, XML 등의 internet data - 수집 난이도가 있다. API 형태 가능. 잠재가치는 상대적으로 높다.
- 비정형데이터 - 객체화된 개별 데이터로 동영상, 이미지, 텍스트 등이 포함 - 수집 난이도가 높다. 파일의 parsing 과정 필요. 데이터 분석이 선행된 후에 수집하므로 잠재가치가 높다
* 수집 주기
- 일괄수집 - batch 처리
- 실시간수집
* OPENAPI 방식
→ 데이터 수집 방법의 일종
<API: Application Programming Interface - 응용 프로그래밍 인터페이스>
: 프로그래밍 언어에 제공되는 interface 방식 / client가 자료 호출 → server가 자료를 알려주는 방식
<OPENAPI>
: 여러 사람들이 공동 사용할 필요가 있는 data에 대한 사용을 개방하고 사용자들이 해당 data에 대한 전문지식이 없더라도 쉽게 가공하여 사용할 수 있도록 data를 추상화하여 표준화한 interface
- 실제로는 web page 요청/응답 형태로 많이 제공 (XML, JSON 형식)
{3} 데이터 수집 방법 적용
- 데이터 종류에 따라 다른 수집 방법이 필요하다
- 수집 기술 및 보안 사항을 점검
{4} 데이터 수집 진행
- 정확성 등이 원래 계획을 만족시키는지 검증
- 서비스 활용에 적합한지 검토
[2] 데이터 수집 계획서
- 데이터 소스를 명시
- 수집 주기
- 수집 방법
- 추가로 수집 계획을 검토하면서 기술적 검토, 업무적 검토를 수행
[3] 사례: 블랙홀 데이터 수집
→ ETH event horizon telescope 연구팀은 전세계 전파 망원경으로 블랙홀을 관측하였다.
* 해당 데이터 소스는 전세계 대형 전파 망원경 8개
* 5일간 집중 수집
* 데이터 용량은 5PB로 인터넷 전송이 불가능한 정도. 따라서 비행기, 배편으로 운송 - 남극 전파 망원경의 경우 7개월 후 배편으로 운송하였다.
* 그 결과, 데이터 확보에 성공하였고 이후 분석도 모두 성공하였다.
* 출처) 공공데이터 2021 청년인턴 기본역량교육
'Computer Science > Basics' 카테고리의 다른 글
in where? 🦸♀️ - AI examples (0) | 2022.04.17 |
---|---|
What is Data Science? (from Coursera) (0) | 2022.04.13 |
(basic) CLI & 간단 명령어 (linux) & python 가상환경 (0) | 2022.03.31 |
Data Science Methodology (from Coursera) (0) | 2022.03.27 |
Tools for Data Science (from Coursera) (0) | 2022.03.26 |
댓글