Google боты: кто сканирует ваш контент для обучения ИИ

Справочник по Google ботам

Инфраструктура сканирования Google использует различные программы для обхода сайтов. В зависимости от задачи, они делятся на краулеры (обрабатывают бесконечные потоки URL-адресов в фоновом пакетном режиме) и фетчеры (загружают конкретные URL по запросу пользователя).

Всю экосистему ботов Google можно разделить на три основные категории:

Основные поисковые роботы (Краулеры)

Их главная цель — поиск информации для создания индексов Google Поиска, анализа и других системных операций. Эти роботы работают автоматически и всегда строго соблюдают правила файла robots.txt.

  • Googlebot (Smartphone и Desktop): Главный поисковый робот. Имитирует пользователя мобильного устройства или компьютера, сканируя страницы для Google Поиска, ленты рекомендаций и других продуктов. По умолчанию он сканирует лишь первые 2 МБ текста веб-страниц и до 64 МБ для PDF-файлов.
  • Googlebot Image, Video и News: Специализированные боты для индексирования картинок, видеоконтента и новостных материалов.
  • Google StoreBot: Собирает информацию о товарах (цены, наличие) для платформ Google Покупок.
  • Google-InspectionTool: Выполняет запросы от инструментов тестирования (например, при использовании функции «Проверка URL» в Search Console).
  • GoogleOther: Внутренний бот для исследований и разработок Google. Он собирает общедоступный контент, но никак не влияет на позиции в Google Поиске.
  • Google-CloudVertexBot и Google-Extended: Собирают данные для ИИ. Первый сканирует сайты по запросу владельцев для создания агентов Vertex AI. А токен Google-Extended контролирует доступ для обучения языковых моделей Gemini.

Специальные поисковые роботы

Они выполняют конкретные задачи для отдельных рекламных или служебных сервисов Google. Часто они работают на основе договоренности с сайтом и могут игнорировать глобальные правила в robots.txt (обозначенные звездочкой *), если для них не прописаны прямые запреты.

  • AdsBot (включая Mobile Web): Проверяет качество страниц, на которые ведут рекламные объявления из Google Рекламы.
  • AdSense (Mediapartners-Google): Анализирует контент сайтов, которые участвуют в партнерской программе AdSense, чтобы подбирать максимально релевантные рекламные объявления для пользователей.
  • APIs-Google: Используется API Google для отправки push-уведомлений разработчикам об изменении отслеживаемых ресурсов.
  • Google-Safety: Ищет вредоносное ПО, фишинг и другие злоупотребления по общедоступным ссылкам.

Загрузчики, запускаемые пользователями (Фетчеры)

Эти боты действуют не по расписанию алгоритма, а исключительно после того, как реальный человек нажал кнопку или добавил ссылку. Из-за этого они обычно игнорируют robots.txt — ведь они выступают от лица пользователя.

  • Feedfetcher: Скачивает RSS и Atom-фиды по запросам пользователей для Google Новостей и WebSub.
  • Google Read Aloud: По запросу пользователя (например, в Google Ассистенте) скачивает текст страницы, преобразует его в речь и зачитывает.
  • Google Site Verifier: Извлекает токены для подтверждения прав на сайт в Search Console.
  • Google NotebookLM и Google Pinpoint: Загружают конкретные URL, которые пользователи указывают как источники для своих личных исследовательских проектов.
  • Google Сообщения: Скачивает контент, чтобы сгенерировать карточку предпросмотра для ссылки, отправленной в чате.
  • Google Publisher Center: Обрабатывает фиды, которые издатели явным образом передали для Google Новостей.
  • Загрузчик интернет-магазина Chrome: Обращается по ссылкам, указанным разработчиками в метаданных расширений.

Как они выполняют свои функции:

Инфраструктура ботов распределена по тысячам компьютеров по всему миру, чтобы запросы шли с серверов, расположенных ближе к вашему сайту. Роботы динамически определяют оптимальную скорость (частоту) сканирования: если ваш сервер отвечает быстро, они сканируют больше; если сервер начинает выдавать ошибки из-за нагрузки, боты замедляются. Для экономии ресурсов интернета роботы поддерживают современные технологии сжатия (gzip, Brotli), протокол HTTP/2 и строгие стандарты кэширования.

guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии