# 웹 크롤링과 웹 스크래핑
- 웹 스크래핑 : 웹사이트 상에서 원하는 부분에 위치한 정보를 자동으로 추출하여 수집하는 기술
웹 크롤러가 가져오는 하나의 웹 페이지가 있을 때, 추출하길 원하는 항목의 위치 지정해서 데이터로 가져오는 것!
- 웹 크롤링 : 자동화 bot인 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이지를 브라우징하는 행위
링크를 따라 돌면서 연결된 페이지를 가져오는 과정
웹 크롤링 및 스크래핑을 위한 Python libarary : Scrapy
웹 사이트를 크롤링 및 스크래핑 통해 정보 추출하고 이를 데이터 셋 형태로 저장하는데 특화된 라이브러리로 기초적인 기능만 사용하면, 보고 있는 화면을 그대로 스크래핑할 수 없다. ex) 동적 웹페이지나, 쿠키를 함께 보내야하는 웹페이지의 경우
웹 브라우저 자동화 라이브러리 : Selenium
여기서 제공하는 webdriver모듈을 이용해서, 동적 웹 페이지나, 쿠키를 담아 서버에 요청하는 작업을 할 수 있다.
출처 : https://nittaku.tistory.com/
'ComputerScience > Web, HTTP' 카테고리의 다른 글
Flask 유저가 FastAPI를 접하며 느낀 점, 무엇인지 왜 사용하는 지 정리 (0) | 2022.03.28 |
---|---|
RESTful API (0) | 2021.12.19 |
CORS (0) | 2021.12.19 |