Краулинг (англ. crawling): Что это? Краулинговый бюджет.

Краулинг

Краулинг (англ. crawling) — процедура обнаружения, сбора информации о новых или прошедших обновление страницах с целью последующей загрузки в индекс поисковой системы, в переводе с английского обозначает сканирование. Отвечают за неё специальные роботы – краулеры. Краулинг – является самым первым этапом сбора данных. Полученная информация применяется в процессе внутренней обработки и не касается результатов поисковых запросов. Это связано с тем, что сканирование страницы не является подтверждением её индексированности.

Краулер, также называемый поисковым роботом, пауком или ботом – программа. Она работает на множестве компьютеров, осуществляющих запрос и выбор страниц во много раз быстрее, чем рядовой пользователь интернета через браузер?. Краулер способен одновременно обрабатывать данные с 1 000 и более страниц.

Googlebot

Робот выполняет следующие функции

  • Проводит постоянную проверку и сравнение просканированных URL? с имеющимися у него в списке.
  • Исключает из списка дубликаты, тем самым, исключая скачивание одной страницы несколько раз подряд.
  • Вносит в список на переиндексацию страницы, которые прошли обновление.

В принципе бот выполняет те же действия что и рядовые пользователи при просмотре страниц и переходе по ссылкам, только во много раз быстрее. Благодаря тому, что вся информация разделена на сегменты, обрабатываемая в определенной последовательности и возможна одновременная обработка огромных массивов данных.

К примеру, Google использует несколько краулеров для разного контента?, в том числе:

  • Googlebot — основной поисковый робот;
  • GooglebotNews — отвечающий за сканирование новостей.
  • GooglebotImages — отвечающий за сканирование картинок.
  • GooglebotVideo — отвечающий за сканирование медиа данных в формате видео.  

Услуги, связанные с термином: