Файл robots.txt потому так и называется, что он предназначен для роботов. В частности, для поисковых роботов, ведь когда они проводят индексацию какого-либо ресурса, то первым делом ищут, нет ли в его корневой папке файла robots.txt.

Если этот файл присутствует, то в нем робот получает все ценные рекомендации относительно того, как ему себя вести, и какие директории или страницы обходить стороной. Поэтому, если вы хотите спрятать отдельные частички вашего сайта от индексации либо некоторую часть его содержимого, то настраивать данные параметры следует именно здесь.

Файл robots.txt вы можете реализовать в самом обычном Блокноте. Для его заполнения вы должны знать основные команды, которые могут пригодиться. Изначально, чтобы определить действия, вы должны указать, для какой поисковой системы они предназначаются. За это отвечает параметр User-agent. Каждый поисковик присваивает своему роботу особое наименование, и именно его вы и должны использовать. То есть, если вы хотите указать что-то для Google, то вам нужно прописать строку: User-agent: googlebot. Если для всех роботов задачи одинаковы, то можно указать: User-agent: *.

Файл robots.txt

Чтобы дать в файле robots.txt команду на отказ от индексации отдельной страницы, вы должны использовать параметр Disallow. И конечный вид получится примерно таким: Disallow: index.html. Также при применении Disallow можно запретить занесение в индекс определенной папки: Disallow: /papka/.

Если вам нечего скрывать от поисковиков, то вы можете прописать просто пустую строку Disallow, но в любом случае данный параметр должен присутствовать после описания User-agent хотя бы в единственном экземпляре. Иначе это будет считаться ошибкой при заполнении файла robots.txt.

При необходимости вы можете применять комментарии, предварительно закрывая их знаком решетки - #. Но если вы решили прибегнуть к такому ходу, то помните, что комментарий желательно указывать на отдельной строке. Иначе это может привести к неправильной интерпретации прописанных задач. Использование лишних пробелом в файле robots.txt не считается преступлением, но все-таки, для улучшения корректности, их применять не рекомендуется.

Чтобы вы смогли представить себе общую картинку, стоит привести небольшой пример. Допустим, мы хотим спрятать от всех роботов файл music.html, а непосредственно от робота Google директорию с названием mir. Выглядеть это будет примерно так:

User-agent: *
Disallow: music.html
User-agent: googlebot
Disallow: /mir/

Ну вот, теперь вы наверняка разобрались с файлом robots.txt, и его составление не будет представлять для вас особого труда!