Содержание:
Что такое файл robots.txt?
Файл robots.txt — это документ состоящий из латинских символов, хранящийся на сервере и предназначенный для рекомендации поисковым системам, какие страницы стоит сканировать.
Для чего нужен файл robots.txt?
- определение страниц для индексации
- снижение нагрузки на сервер за счет запрета доступа к сайту для поисковых систем
- определение пути к карте сайта и основного зеркала
- указание правил для обхода определенного ресурса
Как выглядит файл robots.txt?
Представим пример базового файла robots.txt:
Sitemap: http://www.mysite.ru
User-agent:*
Allow: /admin/
Allow: /home/
1. Sitemap — это URL карты сайта. Для всех User-agent действует один адрес. В файле robots.txt можно указать количество карт сайтов, которое Вам требуется.
2. User-agent — обращение к поисковым ботам. Указывается список ботов, к которым применяются следующие правила, например:
- «*» — обозначает инструкции ко всем поисковым ботам
- «Googlebot» — обозначает инструкции только к Google
- «Yandex» — обозначает инструкции только к Яндексу.
3. Директивы — инструкции, прописанные для User-agent, которым он должен следовать. Перечислим некоторые директивы:
- Disallow — используется для того, чтобы ограничить доступ к ресурсу по какому-либо пути
- Allow — используется для того, чтобы открыть доступ к ресурсу
- Crawl-delay — используется для задержки сканирования. Не поддерживается для Google
- Noindex — запрещает индексацию ресурса и исключает его из поисковых систем
- Nofollow — запрещает переходить по всем ссылкам на странице
- Host — указывает основное зеркало
- Clean-param — запрещает индексировать параметры адреса страницы. Работает исключительно для Яндекса.
Как создать файл robots.txt ?
Файл robots.txt — это тестовый файл txt с названием robots.txt. Его можно написать, например в блокноте. Знак «$» используется для того, чтобы сохранить окончание URL. Отдельная директива должна начинаться с новой строки. В файл можно вписать комментарий для веб-мастеров, он должен начинаться с новой строки, со знака «#».
Также существуют онлайн сервисы, которые генерируют robots.txt по заданным параметрам. Например SEOlib (https://seolib.ru/tools/generate/robots).
Файл robots.txt должен быть размещен в корневом каталоге субдомена, в рамках которого он должен действовать и должен открываться по адресу сайта. Допустим сайт имеет адрес: https://handyhost.ru/, то файл должен открываться по адресу https://handyhost.ru/robots.txt.
В файле robots использование кириллицы запрещено. Поэтому нужно преобразовывать кириллицу в PunyCode, а адреса страниц указывать в кодировке, которая соответствует структуре ресурса.
Существует сервис по преобразованию URL на кириллице — Simple Seo Solutions (https://www.design-sites.ru/utility/url-encoding.php).
Неверно:
User-agent: Yandex
Disallow: /магазин
Sitemap: http://первыйсайт.рф/sitemap.xml
Верно:
User-agent: Yandex
Disallow: /xn—80aairftm
Sitemap:http://%D0%BF%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%D1%81%D0%B0%D0%B9%D1%82.%D1%80%D1%84/sitemap.xml