본문 바로가기

웹스크래핑1

정책을 지키는 웹 수집기: robots.txt·429·재시도·증분 수집 웹 수집기는 차단을 피하는 도구가 아니라, 허용된 데이터만 예측 가능한 속도로 가져오고 거부 신호가 오면 멈추는 클라이언트로 설계해야 한다. 먼저 공식 API·RSS/Atom 피드를 찾고, 웹 문서 수집이 필요한 경우에만 robots.txt와 이용약관을 확인한 뒤 도메인별 속도 제한, 식별 가능한 User-Agent, 제한된 재시도를 적용한다.먼저 결정할 것: HTML을 수집해야 하는가구현 순서는 다음과 같다.공식 API가 있으면 인증·할당량·저장 조건을 확인하고 API를 사용한다.API가 없고 RSS/Atom·사이트맵·내보내기 기능이 있으면 목적에 맞는 피드를 우선한다. 사이트맵은 검색엔진용 URL 목록일 수 있으므로 본문 재사용 허가를 뜻하지는 않는다.그래도 HTML이 필요하면 이용약관, robots.. 2026. 6. 15.

이전 1 다음

티스토리툴바