Файл под названием robots.txt размещается в корне сайта и служит для одной единственной цели – описания исключений для поисковых роботов. Если сказать проще, в нем прописаны запрещенные для индексации разделы веб-сайта.
Имя файла ни в коем случае не должно содержать заглавных букв, а записи в обязательном порядке следует разделять пустой строкой. В противном случае робот не правильно поймет поставленные задачи, а значит – некорректно их реализует. Каждый комментарий должен начинаться с символа # и заканчиваться окончанием строки. Если строка будет содержать только комментарий – поисковой робот проигнорирует ее.
User-agent – это не что иное, как имя поисковой системы, к которой будут применяться правила исключений. Можно прописать сразу несколько строк в файле с User-agent. В этом случае правила, прописанные в данной конкретной записи, будут применяться обозначенными поисковыми роботами.
Чтобы прописать правила ботам, для которых не составлена своя запись, можно использовать следующий параметр *. Как видим, можно скрыть от индексации некоторые разделы сайта сразу во всех поисковых системах, либо только в определенных.
В поле Disallow прописывается частичный или полный путь к разделу веб-сайта, посещение которого вы хотите запретить для робота. В каждой записи обязательно должно присутствовать не более одного заполненного поля Disallow. Если оставить это поле пустым, то бот автоматически получает разрешение посещать все разделы и директории веб-сайта.
Ни в коем случае при заполнении этого раздела не стоит использовать регулярные символы подстановки. Если вы не планируете ничего скрывать от индексации поисковыми роботами, то можете не заполнять это поле. Но помните – оно обязательно должно присутствовать.
Отдельные поисковые системы поддерживают дополнительные поля в robots.txt. В частности, Яндекс поддерживает директиву под названием Host. В этом поле прописывается основное зеркало сайта. Есть еще и другие поля в различных поисковиках, но они не имеют определяющего значения и выполняют лишь дополнительные функции.
В файле robots.txt не следует указывать путь к папкам с административными файлами и файлам, о которых посторонним лучше вообще не знать. Если прописать в файле путь к данным разделам сайта, то это может вызвать негативные последствия. Злоумышленники могут воспользоваться полученной информацией и совершить действия, которые вас точно не обрадуют. А указать в файле обязательно стоит следующее: папки со скриптами и картинками, сервисные страницы.
Корректно заполненный файл robots.txt надежно защитит конфиденциальную информацию и не даст роботам возможность проиндексировать ее. Необходимо помнить, что корректно работать будет только правильно заполненный файл. Поэтому обязательно учитывайте все рекомендации, приведенные выше.