Что такое robots.txt и зачем нужен этот файл

Правильно заполняем файл robots.txt

Это текстовой файл, в котором содержаться команды, предназначенные для поисковых роботов. Другими словами, в данном файле прописываются инструкции, так называемые директивы, которых должны придерживаться различные поисковые боты. Суть данных команд заключается в запрете или разрешении поисковым роботам индексировать те или иные страницы и файлы сайта.

Если планируется серьезная раскрутка веб-ресурса в поисковой выдаче, то обязательно необходимо создать такой файл и правильно его заполнить. Создается данный файл непосредственно в корневой папки сайта, и не допускается его размещения в каком либо другом месте файловой системы, например в какой-то другой директории. В противном случае поисковые боты этот файл не обнаружат, и он окажется бесполезным.

Роль файла robots.txt в продвижении сайта

Одним из основных ключевых моментов в продвижении сайта является грамотное предоставление информации о сайте поисковым системам. Нужно понимать какие элементы сайта можно показывать роботам, а какие стоит закрывать от индексации.

Как известно на любом ресурсе имеются страницы плохого качества, или бесполезные страницы которые не несут никакой пользы пользователям, так называемые мусорные страницы. И все эти «прелести» индексируются поисковиками, и как результат, понижают такой сайт в поисковой выдаче. К таким страницам относятся:

  • Дубли страниц;
  • Страницы из поиска по сайту (если над ними не велась работа);
  • Корзина магазина;
  • Сортировки и фильтры;
  • Страницы оформления заказов;
  • Неоптимизированные теги;
  • Страницы с формой авторизации и регистрации;
  • Личный кабинет;
  • Профили зарегистрированных пользователей;
  • Страницы с отзывами;
  • Пустые или недоработанные страницы;
  • Системные файлы и.т.д.

Все вышеперечисленные элементы необходимо закрывать от индексации иначе они будут мертвым грузом тянуть сайт на «дно». На стадии индексации можно выявлять плохо генерируемые URL сайта, и запретить их анализировать поисковым агентам.

Структура

Файл robots.txt содержит в себе группы. В каждой группе может прописываться несколько директив (правил), каждая директива размещается в отдельной строке. Сама же группа содержит в себе следующие сведения:

  • Название поискового бота, к которому должны применяться прописанные действия;
  • Файлы и каталоги к которым разрешен доступ указанному поисковому боту;
  • Каким файлам и каталогам запрещен доступ этому агенту;

В случае отсутствия в файле правила Disallow, которое блокирует доступ к файлу или странице, то по умолчанию агент пользователя будет их обрабатывать.

Обязательные директивы, которые должны присутствовать в файле:

  • User-agent – данная директива указывает какой конкретно поисковый робот должен придерживаться прописанных правил в группе.
  • Disallow – данная директива определяет к какой именно странице или каталогу запретить доступ агенту пользователя, указанного в директиве User-agent. Если это каталог, то путь должен закрываться в конце косой чертой.
  • Allow – данная директива отменяет команду Disallow и дает разрешение на обработку поисковым ботом (указанного в директиве User-agent) подкаталога или страницы, расположенной в запрещенном для сканирования каталоге.

Вот некоторые варианты групп с указаниями для поисковых агентов:

# Запрет на обработку исключительно программой YandexBlogs

User-agent: YandexBlogs
Disallow: /

# Отказ в отслеживании программам YandexImages и YandexMedia

User-agent: YandexImages
User-agent: YandexMedia
Disallow: /

# Отказать обработке всем поисковым программам

User-agent: *
Disallow: /

# Отказать обрабатывать страницу site2.html всем агентам поисковиков

User-agent: *
Disallow: /site2.html

# Запрет на обработку страниц каталога wp-content всем поисковым программам, но разрешить им доступ к файлу post-new.php, содержащемуся в запрещенном каталоге wp-content

User-agent: *
Disallow: /wp-content/
Allow: /wp-content/post-new.php

Символы

Символ «*» задает команды всем поисковым ботам без исключения (Существует более 20-ти поисковых ботов в Яндексе и Google разного назначения). Также этот символ может заменять в командах префиксы, суффиксы пути или весь путь.

К примеру, у нас имеются три страницы блога с отзывами:

  • all.ru/otzyv-1/reviews/
  • all.ru/otzyv-2/reviews/
  • all.ru/otzyv-3/reviews/.

Предположим, что страницы эти разные, но отзывы на них с одинаковым алиасом и нам необходимо их закрыть от индексации. Так как у нас сайт начинается с префиксов otzyv-1, otzyv-2, otzyv-3, мы не сможем закрыть страницы отзывов командой Disallow: / reviews, и чтобы корректно прописать команду, необходимо префиксы otzyv-1, otzyv-2, otzyv-3 заменить «*»:

Disallow: /*/reviews/

Вот еще один пример, где символ «*» задает команду всем поисковым ботам обязательно сканировать все документы, в URL которых, фигурирует фрагмент «.pdf».

User-agent: *
Allow: *.pdf

Символ «/» без всякого дополнения и в сочетании с командой Disallow запрещает индексировать весь сайт, а с командой Allow дает поисковым ботам «зеленый свет» на индексацию всех элементов сайта.

Директивы Desallow и Allow по умолчанию заканчиваются символом «*», в результате чего, ботам дается команда индексировать или не индексировать сразу все страницы, файлы или каталоги, с определенным префиксом, прописанным в командах. Но вдруг возникнет ситуация, когда целесообразней будет отказать индексированию поисковым роботам, лишь какую-то часть документов, из всех имеющихся документов, с общим префиксом, прописанным в команде? Для этого используется символ «$», который отменяет «*».

Пример:

User-agent: Googlebot
Disallow: /search$

запрещает индексацию именно файлов начинающихся с префикса “/search” но не запрещает индексацию остальных файлов с префиксом – “/search.php”.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Понравилась статья? Сохраните ее в своих соцсетях: