Файлы robots.txt и sitemap.xml

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут  запрещать для индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена и т.д.

Запреты на индексацию
 Админку – административные разделы
 Временные файлы (результаты поиска, фильтрации товаров)
 Данные зарегистрированных пользователей, корзина
 Малоинформативные страницы: регистрация, вход, забыли пароль
 Дубли контента в рубриках, подрубриках
 UTM метки рекламы
На примере озон http://www.ozon.ru/robots.txt
Запрет индексации страниц реализуется директивой Disallow:

ЭТИ ИНСТРУКЦИИ НОСЯТ РЕКОМЕНДАТЕЛЬНЫЙ ХАРАКТЕР – ПОИСКОВЫЕ РОБОТЫ МОГУТ ИХ ПРОИГНОРИРОВАТЬ

Техдокументация
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=ru
https://support.google.com/webmasters/answer/6062608?hl=ru
https://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

Нюансы
 Для яндексбота обязательно указать директиву Host – в ней указать основное зеркало сайта
User-agent: Yandex
Host: sait.ru
 Надо указать адрес по которому расположена карта сайта для поисковых роботов Sitemap: http://medsplav.ru/sitemap.xml

Sitemap.xml — файл с информацией для поисковых систем о страницах веб-сайта, которые подлежат индексации. Sitemap помогает поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

Адрес этого файла на сайте обычно такой: http://site.ru/sitemap.xml
Подробная техническая информация http://www.sitemaps.org/ru/
Проверка корректности роботс и сайтмэп выполняется в системах вебмастер поисковиков. У яндекса (webmaster.yandex.ru) в “Настройки индексирования”. У google (google.com/webmasters) раздел “Сканнирование”.

Системы вебмастер
Обязательно подключите свой сайт к системам вебмастер от гугл и яндекс. Ссылки на эти сервисы указаны выше – в них также можно смотреть много статистики, подробнее эти сервисы мы будем разбирать в лекции по web-аналитике