본문 바로가기
🤖 1인 에이전트 구축기

웹 스크래핑 심화: LLM Vision 모델을 활용해 복잡한 웹 UI 데이터 인식에 성공한 비결

by BRIEFER 2026. 6. 10.

LLM 비전 모델을 활용하여 복잡한 웹 UI를 시각적으로 인식하고 스크래핑하는 기술을 형상화한 메인 이미지

1. 기존 DOM 기반 스크래핑의 한계와 기술적 교착 상태

웹 생태계가 고도화되면서 프론트엔드 기술은 과거의 정적인 HTML 구조를 벗어나 복잡한 동적 렌더링 체계로 급격히 변화했습니다. 기존의 DOM 파싱 기반 스크래핑 방식은 HTML 태그의 구조적 위치나 클래스 명칭에 의존하기 때문에, 웹 사이트의 UI가 소폭 변경될 때마다 전체 스크립트를 수정해야 하는 유지보수 비용 문제를 발생시킵니다. 특히 대규모 서비스들은 데이터 무단 수집을 방지하기 위해 태그 이름을 난독화하거나 동적으로 생성하는 방식을 채택하고 있어 기존 방식으로는 대응이 불가능한 수준에 이르렀습니다.

기존 DOM 기반 웹 스크래핑의 한계와 복잡한 코드 구조로 인한 유지보수의 어려움을 표현한 일러스트

1.1. 동적 UI 및 CSS 난독화가 초래하는 스크립트 유지보수의 한계

최신 리액트(React)나 뷰(Vue) 기반의 웹 애플리케이션은 런타임에서 클래스 이름을 임의의 문자열로 변환하는 CSS Obfuscation 기술을 적용하는 경우가 빈번합니다. 이로 인해 고정된 CSS 선택자를 활용하던 기존 스크래퍼는 페이지가 새로고침될 때마다 작동을 멈추거나 잘못된 데이터를 수집하는 오류를 범하게 됩니다. 개발자가 매번 변경된 구조를 파악하고 코드를 수정하는 데 소요되는 시간적 비용은 데이터의 가치를 상쇄할 만큼 비대해졌으며, 이는 자동화 시스템의 신뢰도를 저하시키는 결정적인 요인으로 작용합니다.

1.2. 캔버스(Canvas), Shadow DOM, 그리고 iframe 기반 데이터 추출의 기술적 장벽

데이터 시각화 도구나 주식 차트, 복잡한 대시보드 환경에서는 텍스트가 아닌 Canvas 태그 내부에 그래픽 형태로 데이터를 렌더링하는 사례가 늘고 있습니다. 이러한 구조는 내부의 실제 값에 접근할 수 있는 DOM 인터페이스를 제공하지 않기 때문에 일반적인 텍스트 추출 방식으로는 데이터 확보가 원천적으로 차단됩니다. 또한 보안 목적으로 격리된 Shadow DOM이나 중첩된 iframe 구조 내의 데이터는 접근 권한과 계층 구조의 복잡성으로 인해 스크래핑 엔진의 설계를 극도로 까다롭게 만듭니다.

2. LLM Vision 모델 기반 시각적 데이터 인식 아키텍처 설계

기존 방식의 기술적 교착 상태를 타개하기 위해 등장한 대안이 바로 인간의 시각적 인지 능력을 모사한 멀티모달 LLM 기반의 스크래핑 기술입니다. 이 방식은 웹 페이지의 코드를 분석하는 대신 브라우저에 렌더링된 화면 전체를 이미지로 캡처하고, 이를 비전 모델이 직접 판독하여 논리적 구조로 변환하는 아키텍처를 가집니다. 이를 통해 태그 구조의 변화나 난독화 여부에 상관없이 사용자가 눈으로 보는 정보 그대로를 정확하게 추출할 수 있는 범용성을 확보하게 됩니다.

2.1. 멀티모달 엔진을 활용한 이미지-텍스트 구조화 원리

GPT-4o 또는 Claude 3.5 Sonnet과 같은 최신 멀티모달 모델은 이미지 내의 픽셀 정보를 분석하여 텍스트 간의 상관관계와 레이아웃을 논리적으로 파악합니다. 단순한 OCR 기술이 글자만을 읽어내는 수준이라면, Multi-modal LLM은 표의 행과 열 관계, 버튼의 기능적 의미, 차트 내 수치의 시각적 비중 등을 종합적으로 추론하여 데이터화합니다. 이러한 지능형 분석 과정은 비정형화된 시각 정보를 고도로 정형화된 데이터 세트로 변환하는 핵심 동력으로 작용하며 수동 규칙 정의의 필요성을 제거합니다.

이미지 전처리 및 그리드 파티셔닝을 거쳐 데이터를 구조화하는 LLM 비전 아키텍처 공정 가이드

2.2. 인식 정밀도 향상을 위한 이미지 전처리 및 그리드 파티셔닝 전략

고해상도의 복잡한 웹 페이지를 한 번에 모델에 입력할 경우 세부적인 텍스트가 뭉개지거나 인식 오류가 발생할 가능성이 존재합니다. 이를 방지하기 위해 전체 화면을 논리적 단위로 분할하여 캡처하는 Grid Partitioning 기법을 적용하여 모델이 각 영역을 세밀하게 관찰할 수 있도록 지원해야 합니다. 이미지의 대비를 조절하고 노이즈를 제거하는 전처리 과정을 거친 뒤 각 분할 이미지를 순차적으로 추론함으로써, 전체 페이지에 대한 데이터 정밀도를 극대화하는 전략적 접근이 필수적입니다.

3. 실제 구현 사례: 복잡한 대시보드 데이터의 JSON 정형화

LLM Vision 기술을 실무에 도입한 결과, 과거에 사람이 직접 확인해야 했던 복잡한 금융 대시보드 및 물류 관제 화면의 데이터 추출 자동화에 성공했습니다. 비전 모델은 화면상의 숫자와 텍스트뿐만 아니라 색상이나 아이콘이 의미하는 상태 정보까지도 데이터로 치환하여 전달하는 놀라운 성과를 보여주었습니다. 특히 Zero-shot Scraping 기법을 활용하면 별도의 학습 데이터 없이도 처음 마주하는 생소한 UI 구조에서 필요한 항목만을 정확히 골라내는 것이 가능해집니다.

비정형 UI 데이터를 성공적으로 JSON 정형 데이터로 변환하여 보여주는 긍정적인 결과물 이미지

3.1. 비정형 UI 요소를 구조화된 데이터(JSON)로 변환하는 프롬프트 엔지니어링 실전

성공적인 데이터 추출을 위해서는 모델에게 명확한 역할과 반환 형식을 지정하는 시스템 프롬프트 설계가 뒷받침되어야 합니다. "제공된 이미지에서 주식 종목명, 현재가, 전일 대비 등락률을 찾아 JSON 형식으로 반환하라"는 지시와 함께 JSON Schema를 명시함으로써 파싱 가능한 결과물을 안정적으로 얻을 수 있습니다. 시스템은 모델이 반환하는 원시 텍스트 내에서 순수한 데이터 블록만을 분리하여 데이터베이스에 적재하는 파이프라인을 구축함으로써 데이터의 무결성을 보장합니다.

3.2. 선택적 추론 기법을 통한 토큰 비용 및 속도 최적화

비전 모델을 활용한 스크래핑은 강력한 성능을 자랑하지만 높은 API 비용과 상대적으로 느린 처리 속도가 단점으로 지목되곤 합니다. 이를 해결하기 위해 전체 페이지를 분석하는 대신 데이터가 존재하는 특정 영역만을 탐지하여 요청하는 Selective Inference 기법을 적용하여 비용을 획기적으로 절감했습니다. 실제 벤치마크 결과, DOM 기반 방식 대비 복잡 UI 인식 성공률은 기존 35%에서 94% 이상으로 비약적으로 상승했으며, 페이지당 약 $0.012 수준의 합리적인 비용으로 2초 내외의 빠른 데이터 처리가 가능함을 확인했습니다.

4. 결론: 에이전틱 웹 브라우징(Agentic Browsing)으로의 진화

에이전틱 웹 브라우징과 인공지능 자동화의 미래를 상징하는 핵심 오브젝트 이미지

비전 기반의 데이터 인식 기술은 단순한 수집을 넘어 AI가 직접 웹 브라우저를 조작하고 의사결정을 내리는 Agentic Browsing의 초석이 됩니다. 시각적으로 요소를 이해하고 다음 행동 시퀀스를 생성하는 능력은 자동화의 영역을 단순 반복 작업에서 고도의 비즈니스 로직 수행으로 확장시킬 것입니다. 결국 데이터 자동화의 미래는 코드를 분석하는 기술이 아니라 화면을 이해하고 상호작용하는 지능형 에이전트의 정교함에 달려 있습니다.

4.1. 시각적 이해와 액션 시퀀스 결합이 가져올 데이터 자동화의 미래

비전 모델과 브라우저 제어 자동화 기술의 결합은 로그인, 캡차 해결, 복잡한 필터링 조건 설정 등 기존에 자동화가 불가능하다고 여겨졌던 영역들을 정복해 나가고 있습니다. 이러한 기술적 진보는 기업이 방대한 외부 데이터를 실시간으로 자산화하고 경영 전략에 즉각 반영할 수 있는 강력한 무기가 될 것으로 전망됩니다. 기술의 성숙도가 높아짐에 따라 더 적은 리소스로 더 넓은 범위의 정보를 처리하는 AI 데이터 에이전트의 시대가 본격적으로 도래할 것입니다.


tistory-skin-common-script.html