Как изменить скорость сканирования сайта роботом "Яндекса"
АрхивВеб-мастеруС помощью специальной директивы в файле robots.txt веб-мастеры могут менять продолжительность перерывов, которые делает поисковый робот "Яндекса" между запросами к серверу.
Пользуясь специальной инструкцией Crawl-delay в файле robots.txt, веб-мастеры могут менять продолжительность перерывов, которые делает поисковый робот "Яндекса" между запросами к серверу. Это может оказаться полезным в том случае, если "паук" создает чрезмерную нагрузку на сайт, и его необходимо как-то "утихомирить".
Crawl-delay позволяет задать поисковому роботу минимальное время (в секундах) между окончанием сканирования одной страницы сайта и началом индексации следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке файла robots.txt1, директиву Crawl-delay необходимо добавлять к группе, начинающейся с записи User-agent, непосредственно после строки Disallow (Allow).
Например, для того чтобы заставить робота обходить каждую страницу веб-ресурса с тайм-аутом в три секунды, необходимо прописать в robots.txt следующие инструкции:
User-agent: Yandex
Crawl-delay: 3
или
User-agent: Yandex
Disallow: /administrator
Crawl-delay: 3
В последнем примере яндексовский "паук" будет не только строго выдерживать трёхсекундную паузу перед скачиванием каждой страницы сайта, но и будет игнорировать директорию Administrator2.
"Яндекс" поддерживает дробные значения Crawl-delay - например, 0.5 или 4.5. Это значит, что при желании можно управлять настройками поискового робота и регулировать скорость, с которой он индексирует сайты, с точностью до десятых долей секунд.
И последнее. Директиву Crawl-delay можно применить ко всем поисковым роботам, используя в инструкции User-agent символ подстановки "*".
1. О предназначении файла с именем robots.txt и некоторых тонкостях работы с ним вы можете прочитать в этом материале рубрики RTFM. [вернуться]
2. Некоторые системы управления контентом (Joomla, к примеру) используют директорию Administrator для хранения файлов и скриптов, отвечающих работу панели управления сайтом. По этой причине закрытие папки Administrator от "пауков" может быть вполне оправданным решением. [вернуться]