robots txt: индексация

robots.txt – это текстовый файл со специальным содержимым, который должен быть расположен в корне сайта. Как стандарт был принят в 1994 г. Включает в себя директивы, сообщающие поисковым роботам правила обработки адресов, имеющихся на сайте.

Так же может иметь специфические директивы, которые понимает какой-либо один робот. Например, директива hosts, которую учитывает только Yandex и пропускают остальные поисковые роботы. В robots.txt желательно корректно указывать ссылку на XML-карту сайта – её обрабатывают все современные ПС.

Если файл правильно расположен на сайте, то при обращении по адресу ваш-сайт.ru/robots.txt в Вашем браузере должен открыться текстовый документ с его содержимым. Если по обращении к данному адресу Вы видите 404 ошибку, то значит, что по данному адресу файл robots.txt не найден, или выставлены права с запретом на чтение.

Файл не является обязательным и носит рекомендательный характер. При помощи него удобно закрывать дубли сайта, запрещать индексировать разделы с персональными данными пользователей, ограничивать к индексации разделы, подверженные спам-атакам, а так же помочь роботу правильно обрабатывать содержимое сайта и оптимизировать его работу.

Рассмотрим директиву стандарта исключений для поисковых роботов, которая запрещает индексировать ВСЁ содержимое сайта, включая каталоги, поддиректории, изображения и видео.

User-agent: *
Disallow: /

Звёздочка означает, что в строке User-agent может находиться любой робот, включая Яндекс и Google. Т.е. запрет будет распространяться на все поисковые машины. Следующий пример запрещает индексацию только Яндексу.

User-agent: Yandex
Disallow: /

По аналогии можно подставлять тех роботов, которые ответственны за определённое содержимое. У Google и Yandex есть множество роботов, каждый из которых ответственен за определённый контент: видео, текст, изображения и т.д. Теперь представим, что нам необходимо запретить к индексации все файлы в папке «users» для поискового робота Google.

User-agent: googlebot
Disallow: /users/

В данном примере мы запрещаем директорию /users/ при помощи директивы «Disallow» и указываем, что это правило актуально для тех, у кого в строке «User-agent» присутствует строка googlebot.

Если необходимо запретить доступ ко всему каталогу, кроме определённого адреса, можно воспользоваться директивой «Allow».

Allow: /user/info.html
Disallow: /user/

В данном примере мы запрещаем индексировать всё содержимое папки «user», но разрешаем доступ к странице «info.html».

26.10.2013