ComputerScience/Web, HTTP

Scrapy, Selenium

#  웹 크롤링과 웹 스크래핑

 

- 웹 스크래핑 : 웹사이트 상에서 원하는 부분에 위치한 정보를 자동으로 추출하여 수집하는 기술
웹 크롤러가 가져오는 하나의 웹 페이지가 있을 때, 추출하길 원하는 항목의 위치 지정해서 데이터로 가져오는 것!

- 웹 크롤링 : 자동화 bot인 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이지를 브라우징하는 행위
링크를 따라 돌면서 연결된 페이지를 가져오는 과정 

 

웹 크롤링 및 스크래핑을 위한  Python libarary  : Scrapy

웹 사이트를 크롤링 및 스크래핑 통해 정보 추출하고 이를 데이터 셋 형태로 저장하는데 특화된 라이브러리로 기초적인 기능만 사용하면, 보고 있는 화면을 그대로 스크래핑할 수 없다. ex) 동적 웹페이지나, 쿠키를 함께 보내야하는 웹페이지의 경우 

 

웹 브라우저 자동화 라이브러리 : Selenium

여기서 제공하는 webdriver모듈을 이용해서, 동적 웹 페이지나, 쿠키를 담아 서버에 요청하는 작업을 할 수 있다.

출처 : https://nittaku.tistory.com/

 

 

'ComputerScience > Web, HTTP' 카테고리의 다른 글

Flask 유저가 FastAPI를 접하며 느낀 점, 무엇인지 왜 사용하는 지 정리  (0) 2022.03.28
RESTful API  (0) 2021.12.19
CORS  (0) 2021.12.19