В справке Search Console появилось руководство по управлению сканированием

Руководство опубликовали в Справке Search Console. Оно подойдет для владельцев

  • очень крупных сайтов: более миллиона оригинальных страниц, контент меняется часто, примерно раз в неделю;
  • средних сайтов: порядка 10 тысяч уникальных страниц с ежедневно меняющимся контентом.

Это приблизительные цифры, чтобы определить целевую аудиторию для руководства.

Лимит на сканирование страниц Google существует потому, что поиск не может обнаружить и проиндексировать все URL в интернете. Лимит определяет время и ресурсы, которые Googlebot может затратить на один конкретный сайт. Он определяется двумя основными факторами: скорость сканирования и потребность в сканировании. Поэтому для увеличения лимита на сканирования сайта есть всего два способа:

  • выделить дополнительные ресурсы сервера для сканирования;
  • повысить ценность контента для выдачи Google.

Что влияет на скорость сканирования

На скорость сканирования может влиять оптимизация сайта. Например если на вашем ресурсе есть множество неактуальных страниц, дублей уже существующих или просто удаленных, то вы можете ускорить процесс, указав эти страницы как те, которые можно пропустить.

В значимые факторы скорости также входит популярность, ведь чем чаще страницы посещают пользователи, тем они чаще сканируются и индексируются соответственно.

Также на скорость может повлиять давность сканирования. Потребность в нем возникает зачастую при существенном обновлении ресурса, ведь тогда на нем появляется большое количество новых URL, которые необходимо обработать.

Как сделать сканирование эффективнее

Google поделились рекомендациями:

  • Устраняйте ложные ошибки 404 и возвращайте код ошибки для окончательно удаленных страниц. В первом случае робот не пропускает эти страницы и нерационально расходует лимит. Во втором — заблокированные страницы будут сканироваться до тех пор, пока вы их сами не разблокируете.
  • Избегайте длинных цепочек переадресаций.
  • Вовремя обновляйте файлы Sitemap. Для нового контента рекомендуется тег lastmod.
  • Оптимизируйте свой сайт: чем быстрее он работает, тем больше страниц бот успеет отсканировать.
  • Чаще проверяйте скорость сканирования вашего ресурса.
  • Используйте специальные инструменты, чтобы сообщить Google, какие страницы необходимо отсканировать и проиндексировать прежде всего. Сюда же входит удаление дублей страниц и блокировка на сканирование ненужных страниц. Для последнего рекомендуется использовать файл robots.txt или инструмент «Параметры URL».

В полной версии руководства разработчики также делятся советами о том, как контролировать сканирование и индексацию, а также разоблачают популярные мифы.

Автор:

Илья Боровец

Теги поста или какие разделы почитать еще:

Источник

Tags

Похожие статьи

Добавить комментарий

Закрыть