Архивы: по дате | по разделам | по авторам

Как изменить скорость сканирования сайта роботом "Яндекса"

АрхивВеб-мастеру
автор: Андрей Крупин   25.07.2008

С помощью специальной директивы в файле robots.txt веб-мастеры могут менять продолжительность перерывов, которые делает поисковый робот "Яндекса" между запросами к серверу.

Пользуясь специальной инструкцией Crawl-delay в файле robots.txt, веб-мастеры могут менять продолжительность перерывов, которые делает поисковый робот "Яндекса" между запросами к серверу. Это может оказаться полезным в том случае, если "паук" создает чрезмерную нагрузку на сайт, и его необходимо как-то "утихомирить".

Crawl-delay позволяет задать поисковому роботу минимальное время (в секундах) между окончанием сканирования одной страницы сайта и началом индексации следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке файла robots.txt1, директиву Crawl-delay необходимо добавлять к группе, начинающейся с записи User-agent, непосредственно после строки Disallow (Allow).

Например, для того чтобы заставить робота обходить каждую страницу веб-ресурса с тайм-аутом в три секунды, необходимо прописать в robots.txt следующие инструкции:

User-agent: Yandex
Crawl-delay: 3

или

User-agent: Yandex
Disallow: /administrator
Crawl-delay: 3

В последнем примере яндексовский "паук" будет не только строго выдерживать трёхсекундную паузу перед скачиванием каждой страницы сайта, но и будет игнорировать директорию Administrator2.

"Яндекс" поддерживает дробные значения Crawl-delay - например, 0.5 или 4.5. Это значит, что при желании можно управлять настройками поискового робота и регулировать скорость, с которой он индексирует сайты, с точностью до десятых долей секунд.

И последнее. Директиву Crawl-delay можно применить ко всем поисковым роботам, используя в инструкции User-agent символ подстановки "*".


1. О предназначении файла с именем robots.txt и некоторых тонкостях работы с ним вы можете прочитать в этом материале рубрики RTFM. [вернуться]

2. Некоторые системы управления контентом (Joomla, к примеру) используют директорию Administrator для хранения файлов и скриптов, отвечающих работу панели управления сайтом. По этой причине закрытие папки Administrator от "пауков" может быть вполне оправданным решением. [вернуться]

Поделиться
Поделиться
Tweet
Google
 
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.