Архивы: по дате | по разделам | по авторам

Файл robots.txt

автор : Максим Приходько 22.11.2005

Правильная настройка файла robots.txt позволяет сознательно избежать индексации содержимого веб-сайта всевозможными поисковыми роботами.

Продолжение серии статей для начинающих сайтовладельцев. Чтение лучше начать с первой части.

Если вы когда-нибудь интересовались статистикой заходов на свой сайт, то обязательно должны были заметить, что периодически его посещают различные поисковые системы. Естественно, делают это не люди, а специальные программы, которые часто называют "роботами". "Роботы" просматривают сайт и индексируют веб-ресурс, чтобы затем его можно было найти с помощью того поисковика, чей "робот" занимался индексацией.

Все "роботы" перед индексацией ресурса ищут в корневом каталоге вашего сайта файл с именем robots.txt. Этот файл содержит информацию о том, какие файлы "роботы" могут индексировать, а какие нет. Это полезно в тех случаях, когда вам нежелательна индексация некоторых страниц, например, содержащих "закрытую" информацию.

Файл robots.txt должен иметь формат текстового файла для Unix. Некоторые редакторы умеют преобразовывать обычные Windows-файлы, иногда это может сделать FCT-клиент. Файл состоит из записей, каждая из которых содержит два поля: строку с названием клиентского приложения (user-agent), и одну или несколько строк, начинающихся с директивы Disallow:

<Поле> ":" <значение>

Строка User-agent содержит название "робота". Например:

User-agent: googlebot

Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":

User-agent: *

Названия роботов можно найти в журналах доступа к Вашему веб-серверу.

Вторая часть команды состоит из строк Disallow. Эти строки - директивы для данного "робота". Они сообщают "роботу" какие файлы и/или каталоги роботу запрещено индексировать. Например:

Disallow: email.htm

Директива может содержать и название каталога:

Disallow: /cgi-bin/

В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит "паукам" индексировать и /bob.html, и /bob/index.html.

Если директива Disallow будет пустой, это значит, что робот может индексировать все файлы. Как минимум, одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.