Что такое robots.txt

Файл robots.txt — это документ состоящий из латинских символов, хранящийся на сервере и предназначенный для рекомендации поисковым системам, какие страницы стоит сканировать.

Для чего нужен файл robots.txt?

  • определение страниц для индексации
  • снижение нагрузки на сервер за счет запрета доступа к сайту для поисковых систем
  • определение пути к карте сайта и основного зеркала
  • указание правил для обхода определенного ресурса

Как выглядит файл robots.txt?

Представим пример базового файла robots.txt:

Sitemap: http://www.mysite.ru
User-agent:*
Allow: /admin/
Allow: /home/

1. Sitemap это URL карты сайта. Для всех User-agent действует один адрес. В файле robots.txt можно указать количество карт сайтов, которое Вам требуется.

2. User-agent — обращение к поисковым ботам. Указывается список ботов, к которым применяются следующие правила, например:

  • «*» — обозначает инструкции ко всем поисковым ботам
  • «Googlebot» — обозначает инструкции только к Google
  • «Yandex» — обозначает инструкции только к Яндексу.

3. Директивы — инструкции, прописанные для User-agent, которым он должен следовать. Перечислим некоторые директивы:

  • Disallow — используется для того, чтобы ограничить доступ к ресурсу по какому-либо пути
  • Allow — используется для того, чтобы открыть доступ к ресурсу
  • Crawl-delay — используется для задержки сканирования. Не поддерживается для Google
  • Noindex — запрещает индексацию ресурса и исключает его из поисковых систем
  • Nofollow — запрещает переходить по всем ссылкам на странице
  • Host — указывает основное зеркало
  • Clean-param — запрещает индексировать параметры адреса страницы. Работает исключительно для Яндекса.

Как создать файл robots.txt ?

Файл robots.txt — это тестовый файл txt с названием robots.txt. Его можно написать, например в блокноте. Знак «$» используется для того, чтобы сохранить окончание URL. Отдельная директива должна начинаться с новой строки. В файл можно вписать комментарий для веб-мастеров, он должен начинаться с новой строки, со знака «#».

Также существуют онлайн сервисы, которые генерируют robots.txt по заданным параметрам. Например SEOlib.

Онлайн генерация файла robots.txt

Файл robots.txt должен быть размещен в корневом каталоге субдомена, в рамках которого он должен действовать и должен открываться по адресу сайта. Допустим сайт имеет адрес: https://handyhost.ru/, то файл должен открываться по адресу https://handyhost.ru/robots.txt.

Как закрыть сайт для индексации от поисковых ботов Вы можете узнать на нашем сайте.

В файле robots использование кириллицы запрещено. Поэтому нужно преобразовывать кириллицу в PunyCode, а адреса страниц указывать в кодировке, которая соответствует структуре ресурса.

Существует сервис по преобразованию URL на кириллице — Simple Seo Solutions.

Неверно:
User-agent: Yandex
Disallow: /магазин
Sitemap: http://первыйсайт.рф/sitemap.xml

Верно:
User-agent: Yandex
Disallow: /xn—80aairftm
Sitemap:http://%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%D1%81%D0%B0%D0%B9%D1%82.%D1%80%D1%84/sitemap.xml

Принимаем
Все способы