Hoin's security

웹 크롤러, 스크래퍼, 검색 차이 본문

프로젝트/Python Web Crawler

웹 크롤러, 스크래퍼, 검색 차이

Hoin.s 2024. 5. 14. 16:26

웹 크롤링(Web Crawling)이란?

: 웹상의 정보들을 탐색하고 수집하는 작업을 의미함. 스파이더 봇이라고도 한다.

웹을 크롤링 하여 특정 페이지의 내용을 학습하고 향후 검색을 위해 정보를 저장해둔다.

주로 데이터 수집, 인덱싱, 콘텐츠 분석 등을 목적으로 사용된다.

URL을 타고다니며 반복적으로 데이터를 가져오는 과정(데이터 색인)이 진행된다.

왜 사용?

: 인터넷에 존재하는 방대한 양의 정보를 사람이 일일히 파악하는 것은 불가능. -> 자동으로 탐색해주는 웹 크롤러 사용.

 

웹 스크래핑(Web Scraping)이란?

: 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미한다.

원하는 정보를 추출하기 위해 ‘스크래퍼 봇’이 특정 웹 사이트에 콘텐츠를 다운로드하기 위한 HTTP GET 요청을 보내고 사이트가 이에 응답하면 스크래퍼는 HTML 문서를 분석하여 특정 패턴을 지닌 데이터를 뽑아낸다

특정한 웹 사이트에서 필요한 데이터를 추출하는 데 초점을 둠.

 

웹 스크래핑은 웹 크롤러와 다르지만 웹 스트래핑은 웹 크롤러의 일부분으로 볼 수 있다.

 

웹 검색과의 차이

웹 크롤링은 웹의 정보를 체계적으로 수집하고 구조화하는 데 초점을 맞추고, 검색은 이러한 정보 중에서 사용자의 쿼리와 가장 잘 일치하는 결과를 찾는 데 초점을 맞춘다.

웹 크롤링은 검색을 위한 전처리 단계로 볼 수 있다.

웹 크롤링은 웹사이트의 모든 페이지를 방문하고 그 내용을 수집하기 때문에, 크롤링 과정에서 얻는 데이터는 해당 웹사이트의 전체 내용을 포괄한다.

검색은 사용자의 쿼리와 관련된 정보만을 반환한다. 검색 엔진은 사용자의 쿼리와 일치하는 키워드나 구문을 포함하는 웹 페이지를 찾아서 결과로 제공한다. 그래서 얻는 데이터는 사용자의 쿼리와 직접적으로 관련된 정보에 한정되어있음.

웹 스크래핑은 웹사이트의 특정 부분에서 특정 정보를 수집하는 데 반해, 검색은 특정 쿼리와 관련된 정보를 찾는 데 초점을 맞춘다.