Python/Web Crawling+Scraping4

Web Crawling(Scraping) 개요 + DOM 기초 🕵🏻 우리가 주어진 data는 대게 정돈된 structured data가 아닐 확률이 높다. 특히 web에 흩뿌려진 data를 가져오는 경우가 종종 있는데, 이 때 web scraping이라는 기법을 사용함! (개인적으로 너무 재밌는 web scraping 🏄🏻‍♀️) Q. Web Scraping vs. Web Crawling? ≫ web scraping은 우리가 찾을 'data'에 초점을 둔 것 / web crawling은 우리가 찾을 장소인 'url'에 초점을 둔 것. 대게 crawling과 scraping 과정을 병행한다. (web scraping is about extracting the data from one or more websites. While crawling is about findi.. Python/Web Crawling+Scraping 2022. 4. 5.
(예제) - 한국 도쿄올림픽 medal count 가져오기 - ! -- 저번 포스팅에서는 HTML 형식의 파일이 존재한다면 open()을 이용해서 가져오고 BeautifulSoup parsing을 통해 직접 데이터를 검색했던 적이 있었다. 이번에는 직접 web browser url을 이용하여 web page를 가져오고 원하는 data를 찾아 출력하는 실습을 해보겠다 -- ! (하단 HTML file - BeautifulSoup 검색 포스팅) HTML 문서를 BeautifulSoup으로 검색하기 (+re module) ! -- web browser에서 직접적인 url을 가져와 parsing하는 web crawling은 아니지만 web에 존재하는(또는 컴퓨터에 자체적으로 존재하는) HTML file 내용을 가져와 나타내는 방법을 알아본다 -- ! ** Beautiful.. Python/Web Crawling+Scraping 2022. 3. 22.
HTML 문서를 BeautifulSoup으로 검색하기 (+re module) ! -- web browser에서 직접적인 url을 가져와 parsing하는 web crawling은 아니지만 web에 존재하는(또는 컴퓨터에 자체적으로 존재하는) HTML file 내용을 가져와 나타내는 방법을 알아본다 -- ! ** BeautifulSoup library tolerates highly flawed HTML & still lets you easily extract the data you need (repairs & parses HTML to make it easier for a program to understand) 1. import & parsing 1> BeautifulSoup import 2> open()의 read() method를 사용하여 sample.html file을 받는.. Python/Web Crawling+Scraping 2022. 3. 21.
Crawling/Scraping에 필요한 HTML5 & CSS3 (간단 정리) 1. HTML5 [1] 개요 및 개념 * 표준 web이라고 부르는 HTML5는 주로 내용을 표현하는 것에 중점을 둠 * HTML 요소를 통해 웹 페이지 구조와 의미를 정의한다 * 시작 태그와 끝 태그를 정의하고, 그 사이 컨텐츠를 만들기 위해 여러 태그를 활용한다 * 태그는 여러 종류로 나뉜다 (아래 외에도 다양한 종류의 tag 존재) → h1 tag: heading → p tag: paragraph - 문단 만들기 → li tag: list - 리스트 목록 만들기 → strong tag: 강조하기 → img tag: 이미지 표현 (src 속성을 통해 image source의 url을 기술한다) → a tag: 링크 정의 (href 속성을 통해 link의 대상을 정의한다) 2. CSS3(Cascading.. Python/Web Crawling+Scraping 2022. 3. 21.