Чем быстрее сайт проиндексируется в поисковых системах – тем быстрее вы сможете добиться целей, которые ставили перед собой, создавая ресурс. С помощью представленных ниже данных можно оптимизировать и несколько ускорить процесс индексации.
Для удобства поисковых систем и веб мастеров разработан специальный формат карты сайта, так называемый sitemap. Если проще, то sitemap – это ни что иное как список ссылок на все внутренние страницы интернет ресурса, представляемый в XML.
Sitemap позволяет устанавливать приоритет индексации роботом страничек вашего сайта. В частности, если какие-то страницы ресурса обновляются значительно чаще других – следует обязательно указать эти данные, чтобы поисковые роботы могли правильно распланировать свою работу.
Файл Robots.txt предназначен специально для поисковых роботов. В этом файле веб мастер может указать параметры индексации как для какой-то конкретной поисковой системы, так и для всех роботов сразу. Существует три особенно важных параметра, которые следует указать в этом файле:
- Disallow – используется для запрета индексирования указанных разделов сайта. С помощью этой директивы веб мастер может «спрятать» от индексации странички, не представляющие никакой ценности ни для поисковых систем, ни для пользователей. Это могут быть страницы статистики посещаемости ресурса, логи, страницы баз данных или дубликаты страниц;
- Crawl delay – позволяет установить минимальный временной интервал обращения робота к страницам сайта. Целесообразно использовать эту директиву для оптимизации индексации крупных порталов. При индексации сайта, содержащего тысячи страниц, поисковой робот может создать большую нагрузку на ресурс. А это приведет к перебоям и задержкам в работе сайта;
- Clean param – используется для указания роботам незначащих cgi параметров в адресе страницы. Использование этой директивы позволяет направить индексацию сайта в правильное русло.
Специальный сервис Яндекс.Вебмастер имеет весьма полезную опцию, которая позволяет просматривать список проиндексированных URL с вашего интернет ресурса. Если список регулярно проверять и исправлять возникающие в коде ошибки – можно регулировать рост числа ненужных URL, оптимизируя нагрузку на сайт.
Яндекс индексирует все основные типы документов. Но существует ряд критериев, от которых зависит индексация документа:
- слишком большая длина URL может негативно отразиться на индексации;
- документы размером более 10 Мб не индексируются;
- файлы *.swf индексируются только в том случае, если на них ведет прямая ссылка или они встроены в html с использованием тегов embed или object;
- отлично индексируются документы Open Office и Microsoft Office, но внедрение новых форматов способно немного «притормозить» индексацию.
Для оптимизации процесса индексации рекомендуется выносить на поддомен версии сайта на различных языках или предназначенные для мобильных устройств. Также необходимо следить за корректностью http-заголовков.