구글, 크롤링 구조 공식화… “HTML 2MB 제한 및 IP 인프라 통합” 발표

구글이 크롤링을 ‘2MB 기준 처리 구조’로 명확히 정의하며 기존의 모호했던 처리 기준을 공식화했다. HTML 문서는 초기 2MB 분량만 인덱싱에 반영되며, 이를 초과하는 데이터는 수집 대상에서 제외되는 것으로 확인됐다. 동시에 크롤러 IP 제공 경로가 변경되면서, 크롤링 시스템이 서비스 단위에서 통합 인프라 형태로 재편되고 있음이 드러났다.

“2MB 이후는 존재하지 않는다”… 크롤링 기준 명확화

이번 발표에서 가장 핵심적인 내용은 크롤링 범위에 대한 명확한 정의다.

구글은 HTML 문서를 최대 2MB까지만 가져오며, 이를 초과하는 데이터는 크롤링·렌더링·인덱싱 모든 단계에서 완전히 제외된다고 밝혔다. 이는 기존에도 알려진 제한이지만, 처리 방식이 ‘부분 수집(Partial Fetch)’으로 공식 정의되었다는 점에 주목해야 한다.

결과적으로 검색 시스템은 페이지 전체가 아니라, 앞부분 일부만 존재하는 문서로 인식하게 된다. 이로 인해 페이지 하단에 배치된 콘텐츠는 검색엔진에 인식되지 않는 ‘숨은 데이터’가 될 가능성이 높다.

“구글봇은 하나가 아니다”… 크롤링 구조 재정의

이번 공개에서 또 하나 주목할 변화는 구글봇 개념 자체의 수정이다.

구글은 이제 구글봇을 단일 크롤러가 아닌, 중앙 크롤링 인프라를 기반으로 구동되는 여러 클라이언트로 구성된 시스템으로 재정의했다.

이 구조에서는 검색, 쇼핑, 광고 등 다양한 서비스가 동일한 크롤링 시스템을 공유한다. 사용자 에이전트(User-Agent)는 다르지만, 실제 데이터를 수집하는 인프라는 하나로 통합되어 있다.

이 변화는 크롤링 최적화 대상이 특정 봇이 아니라, 전체 크롤링 시스템으로 확장되어야 함을 의미한다.

렌더링도 ‘2MB 내부에서만’… JS 처리 범위 제한

크롤링 이후 단계인 웹 렌더링 서비스의 동작 범위도 구체적으로 공개됐다.

이 시스템은 크롤링된 데이터만을 기반으로 JavaScript를 실행하며, 외부 리소스 요청도 처리할 수 있다. 그러나 중요한 전제는 단 하나다.

모든 렌더링 실행은 초기 수집된 2MB 이내의 코드 범위로 제한된다.

또한 비상태(stateless) 구조이므로 로그인 정보나 사용자 환경 기반 콘텐츠는 유지되지 않는다. 이로 인해 JS 기반 페이지라도 초기 HTML에 포함되지 않은 핵심 콘텐츠는 검색 시스템에서 인식되지 않을 가능성이 높다.

HTML은 작게, 리소스는 분리… 구조 기준 제시

구글은 HTML과 리소스를 완전히 분리된 단위로 처리한다는 점도 명확히 했다.

HTML은 2MB 제한을 적용받지만, CSS나 JavaScript, API 요청 등은 각각 별도의 요청으로 처리된다.

이 구조는 HTML 내부에 코드가 많이 포함될수록 크롤링 효율이 떨어진다는 의미로 이어진다. 반대로 외부 리소스로 분리된 구조는 안정적인 크롤링 환경을 만든다.

결국 이번 공개는 구글이 오랫동안 암묵적으로 운영해온 크롤링 기준을 처음으로 명문화했다는 점에서 의미가 있다.

구분주요 내용
HTML 처리 한계HTML 문서의 초기 2MB까지만 처리하는 구조 공식화
처리 프로세스초과 데이터는 ‘부분 수집(Partial Fetch)’ 기준에 따라 색인 및 렌더링 제외
렌더링 제약JavaScript 실행 및 외부 요청 처리 역시 수집된 2MB 범위 내로 제한
봇 인프라 재편개별 구글봇(Googlebot) 개념에서 ‘중앙 통합 크롤링 인프라’로 전환
IP 운영 경로IP 범위 제공 경로 변경 (/search//crawling/) 및 플랫폼화
실무적 영향페이지 하단 콘텐츠(리뷰, Q&A 등) 및 JS 의존형 페이지의 노출 한계 발생
SEO 전략 변화콘텐츠 품질을 넘어 상단 배치, HTML 경량화, 리소스 분리가 필수

<기술적 SEO란 무엇인가… 검색엔진이 페이지를 이해하는 구조적 핵심>

IP 경로 변경… 크롤링 시스템 통합 움직임

이번 업데이트에서 함께 발표된 IP 범위 제공 경로 변경도 중요한 변화다.

기존 /search/apis/ipranges/ 경로는 /crawling/ipranges/로 이동하며, 약 6개월 이후 기존 경로는 단계적으로 폐지될 예정이다.

이번 변경은 단순한 경로 이전을 넘어, 검색(Search) 중심의 개별 구조가 ‘크롤링’이라는 통합 플랫폼으로 재편되고 있음을 시사한다.

특히 서버 보안이나 방화벽에서 IP 기반으로 구글봇을 허용하는 구조를 사용하는 경우, 해당 경로를 업데이트하지 않으면 크롤링 차단이 발생할 수 있다.

국내 사이트 영향… “하단 콘텐츠는 사라진다”

한국 웹사이트 구조에서는 영향이 더 직접적으로 나타날 가능성이 높다.

블로그와 콘텐츠 사이트의 경우 긴 글 구조가 일반적인데, 하단에 배치된 핵심 정보는 인덱싱되지 않을 수 있다. 쇼핑몰은 리뷰나 Q&A가 페이지 하단에 집중되는 경우가 많아 상품 평가 신호 일부가 반영되지 않을 가능성이 존재한다.

기업 사이트 역시 JavaScript 중심 랜딩 페이지 구조를 사용하는 경우 초기 HTML에 콘텐츠가 충분히 포함되지 않으면 검색 노출이 제한될 수 있다.

결과적으로 국내 웹 환경 전반에서 상단 정보 집중 구조로의 전환이 불가피해진다.

E-E-A-T 평가도 “위치 기반”으로 강화

이번 조치는 구글의 신뢰도 평가 기준인 E-E-A-T 신호 체계에도 적지 않은 영향을 미칠 것으로 보인다.

검색 시스템이 페이지 전체가 아닌 초기 바이트를 기준으로 평가하면서, 작성자 프로필, 브랜드 정체성, 주제의 명확성 등 핵심 신호를 어느 위치에 배치하느냐가 더욱 중요해진 것이다.

특히 엔티티(Entity, 개체) 정보가 페이지 상단에 명확하게 드러나지 않으면 신뢰도 평가에 불리하게 작용할 수 있다.

이는 단순한 콘텐츠 품질 문제가 아니라, 정보 배치 구조 자체가 평가 요소로 작용하는 단계로 진입했음을 의미한다.

<엔티티 SEO란 무엇인가… 검색과 AI가 이해하는 ‘의미 구조’의 핵심>

결론… SEO 기준, “콘텐츠”에서 “구조”로 전환

이번 구글 발표는 새로운 정책을 도입한 것이 아니라, 기존 시스템의 작동 방식을 구체적으로 공개한 것이다. 그러나 그 의미는 단순 설명을 넘어선다.

핵심은 명확하다. 구글은 페이지를 하나의 완성된 문서로 보지 않는다. 대신 2MB 이하의 바이트 단위 데이터 묶음으로 처리한다. 동시에 크롤링 시스템은 개별 서비스가 아닌 통합 인프라 형태로 운영된다.

이 구조를 기준으로 보면 SEO의 경쟁 축은 변화하고 있다. 콘텐츠 품질은 기본 조건이 되었고, 이제는 어떤 정보를 어디에 배치하는지가 핵심 요소로 작동한다.

결국 앞으로의 검색 최적화는 다음 한 가지로 정리된다.

“검색 엔진은 페이지를 읽는 것이 아니라, 처음 2MB만 해석한다”

FAQ

Q1. 구글의 HTML 2MB 제한은 무엇인가?

구글은 HTML 문서의 처음 2MB까지만 처리한다. 이를 초과한 구간은 검색 반영 대상에서 제외될 수 있다.

Q2. 페이지 하단 콘텐츠는 검색엔진에 반영되지 않을 수 있는가?

그럴 수 있다. 핵심 정보가 2MB 이후 구간에 위치하면 검색 시스템이 해당 내용을 인식하지 못할 가능성이 높다.

Q3. JavaScript 기반 사이트도 검색 반영에 제한받는가?

그렇다. JavaScript 실행은 초기 수집된 2MB 이내 코드 범위에서만 이뤄진다. 초기 HTML에 포함되지 않은 핵심 콘텐츠는 검색 반영이 제한될 수 있다.

Q4. 이번 발표는 구글봇 구조에도 변화를 보여주는가?

그렇다. 구글봇은 단일 봇이 아니라 중앙 크롤링 인프라를 공유하는 다중 클라이언트 시스템으로 설명됐다.

Q5. SEO 실무에서 맨 먼저 바뀌어야 할 것은 무엇인가?

정보 배치 구조다. 핵심 콘텐츠와 엔티티, 신뢰 신호를 페이지 상단과 초기 HTML 구간에 우선 배치해야 한다.

김종일 에디터
김종일 에디터

국내 유력 미디어 및 뉴미디어 플랫폼 창간을 주도한 디지털 콘텐츠 전문가.

한국일보 뉴미디어부 및 인터넷 한국일보 뉴스부에서 기사 작성 및 뉴스 편집 경력을 시작으로, 스포츠한국과 한스경제 창간 TF의 웹사이트 총괄 기획을 담당했습니다. 독립 미디어 이슈인코리아 창간 및 편집국 운영을 통해 디지털 콘텐츠 생태계 전반에 대한 깊은 이해를 갖추고 있습니다. 웹사이트 운영부터 코와몰 쇼핑몰 총괄 기획까지 아우르는 경력을 통해, SEO NEWS의 분석과 가이드를 실질적인 비즈니스 성과와 연결하는 통찰력을 제시합니다.

기사 : 135

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다