Файл robots.txt
АрхивСайтостроениеПравильная настройка файла robots.txt позволяет сознательно избежать индексации содержимого веб-сайта всевозможными поисковыми роботами.
Продолжение серии статей для начинающих сайтовладельцев. Чтение лучше начать с первой части.
Если вы когда-нибудь интересовались статистикой заходов на свой сайт, то обязательно должны были заметить, что периодически его посещают различные поисковые системы. Естественно, делают это не люди, а специальные программы, которые часто называют "роботами". "Роботы" просматривают сайт и индексируют веб-ресурс, чтобы затем его можно было найти с помощью того поисковика, чей "робот" занимался индексацией.
Все "роботы" перед индексацией ресурса ищут в корневом каталоге вашего сайта файл с именем robots.txt. Этот файл содержит информацию о том, какие файлы "роботы" могут индексировать, а какие нет. Это полезно в тех случаях, когда вам нежелательна индексация некоторых страниц, например, содержащих "закрытую" информацию.
Файл robots.txt должен иметь формат текстового файла для Unix. Некоторые редакторы умеют преобразовывать обычные Windows-файлы, иногда это может сделать FCT-клиент. Файл состоит из записей, каждая из которых содержит два поля: строку с названием клиентского приложения (user-agent), и одну или несколько строк, начинающихся с директивы Disallow:
<Поле> ":" <значение>
Строка User-agent содержит название "робота". Например:
User-agent: googlebot
Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":
User-agent: *
Названия роботов можно найти в журналах доступа к Вашему веб-серверу.
Вторая часть команды состоит из строк Disallow. Эти строки - директивы для данного "робота". Они сообщают "роботу" какие файлы и/или каталоги роботу запрещено индексировать. Например:
Disallow: email.htm
Директива может содержать и название каталога:
Disallow: /cgi-bin/
В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит "паукам" индексировать и /bob.html, и /bob/index.html.
Если директива Disallow будет пустой, это значит, что робот может индексировать все файлы. Как минимум, одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.