Computer Science/Basics

Data Handling

metamong 2022. 7. 15.

기초적으로 알아야 하는 총 4개의 데이터 타입에 대해서 정확히 알아보고(돌다리 두들기고!) 넘어가자 :)

※ 이런게 있다고 기억하고 추후 정보를 조금씩 추가하는 방식!

CSV(Comma Separated Values)

💐 필드를 쉼표로 구분한 텍스트 파일이다. 왜 쉼표로 굳이 분리했냐면, 엑셀 양식의 데이터를 프로그램에 상관없이 쓰기 위해서 데이터 형식으로 만들었다고 보면 된다. 엑셀에서는 '다른 이름 저장' 기능으로 사용 가능하다. notepad로 열면 쉼표로 데이터가 구분되어 표현됨

 

💐 여기서 text 파일 형태로 데이터 처리 시 문장 내에 들어가 있는 "," 등에 대해 전처리 과정이 필요하다. 파이썬에서는 간단히 CSV 파일을 처리하기 위해 csv 객체를 제공해줌. (+한글로 되어 있다면 별도 한글 처리 필요) 

Web

💐 WorldWideWeb(WWW), 줄여서 웹이라고 부름. 인터넷 공간의 정식 명칭이다. 데이터 송수신을 위한 HTTP 프로토콜 사용, 데이터를 표시하기 위해 HTML 형식을 사용한다. 브라우저가 HTML 형식을 사용해서 나타냄

 

💐 HTML은 웹 상의 정보를 구조적으로 표현하기 위한 언어로, Tag를 사용한다. 모든 요소들은 꺾쇠 괄호 안에 둘러 쌓여 있다. 모든 HTML은 트리 모양의 포함관계를 가지며 일반적인 웹 페이지의 HTML 소스파일은 컴퓨터가 다운로드 받은 후 웹 브라우저가 표시한다.

 

💐 HTML 분석 방법 중 하나: 정규식 - 복잡한 문자열 패턴을 정의하는 문자표현 공식으로 특정한 규칙을 가진 문자열의 집합을 추출한다.

→ 파이썬에서는 re module 사용 (search, findall 사용)

XML

💐 데이터의 구조와 의미를 설명하는 tag를 사용하여 표시하는 언어이다. tag와 tag 사이에 값이 표시되고, 구조적인 정보 표현 가능. HTML과 거의 비슷. 컴퓨터 간에 정보를 주고받기 매우 유용한 저장방식으로 쓰임.

 

💐 역시 정규표현식으로 parsing이 가능하며, BeautifulSoup인 parser를 제일 많이 사용함! 

→ beautifulsoup example 참조

JSON

💐 JavaScriptObjectNotation의 준말로, 원래 웹 언어인 JavaScript의 데이터 객체 표현 방식이다. 간결성이 장점! 데이터 용량이 적고, code로의 전환이 매우 쉬움, XML의 대체제로 많이 활용

 

💐 python의 dict type과 유사하다 (key:value 쌍으로 데이터 표시됨) json module을 활용하여 손 쉽게 파싱 및 저장 가능. 데이터 저장 및 읽기는 dict type과 상호호환 가능. 각 사이트마다 developer api 활용하기


* 출처) 네이버 AI Tech

댓글