Что такое robots.txt и зачем нужен этот файл
Содержание
Это текстовой файл, в котором содержаться команды, предназначенные для поисковых роботов. Другими словами, в данном файле прописываются инструкции, так называемые директивы, которых должны придерживаться различные поисковые боты. Суть данных команд заключается в запрете или разрешении поисковым роботам индексировать те или иные страницы и файлы сайта.
Если планируется серьезная раскрутка веб-ресурса в поисковой выдаче, то обязательно необходимо создать такой файл и правильно его заполнить. Создается данный файл непосредственно в корневой папки сайта, и не допускается его размещения в каком либо другом месте файловой системы, например в какой-то другой директории. В противном случае поисковые боты этот файл не обнаружат, и он окажется бесполезным.
Роль файла robots.txt в продвижении сайта
Одним из основных ключевых моментов в продвижении сайта является грамотное предоставление информации о сайте поисковым системам. Нужно понимать какие элементы сайта можно показывать роботам, а какие стоит закрывать от индексации.
Как известно на любом ресурсе имеются страницы плохого качества, или бесполезные страницы которые не несут никакой пользы пользователям, так называемые мусорные страницы. И все эти «прелести» индексируются поисковиками, и как результат, понижают такой сайт в поисковой выдаче. К таким страницам относятся:
- Дубли страниц;
- Страницы из поиска по сайту (если над ними не велась работа);
- Корзина магазина;
- Сортировки и фильтры;
- Страницы оформления заказов;
- Неоптимизированные теги;
- Страницы с формой авторизации и регистрации;
- Личный кабинет;
- Профили зарегистрированных пользователей;
- Страницы с отзывами;
- Пустые или недоработанные страницы;
- Системные файлы и.т.д.
Все вышеперечисленные элементы необходимо закрывать от индексации иначе они будут мертвым грузом тянуть сайт на «дно». На стадии индексации можно выявлять плохо генерируемые URL сайта, и запретить их анализировать поисковым агентам.
Структура
Файл robots.txt содержит в себе группы. В каждой группе может прописываться несколько директив (правил), каждая директива размещается в отдельной строке. Сама же группа содержит в себе следующие сведения:
- Название поискового бота, к которому должны применяться прописанные действия;
- Файлы и каталоги к которым разрешен доступ указанному поисковому боту;
- Каким файлам и каталогам запрещен доступ этому агенту;
В случае отсутствия в файле правила Disallow, которое блокирует доступ к файлу или странице, то по умолчанию агент пользователя будет их обрабатывать.
Обязательные директивы, которые должны присутствовать в файле:
- User-agent – данная директива указывает какой конкретно поисковый робот должен придерживаться прописанных правил в группе.
- Disallow – данная директива определяет к какой именно странице или каталогу запретить доступ агенту пользователя, указанного в директиве User-agent. Если это каталог, то путь должен закрываться в конце косой чертой.
- Allow – данная директива отменяет команду Disallow и дает разрешение на обработку поисковым ботом (указанного в директиве User-agent) подкаталога или страницы, расположенной в запрещенном для сканирования каталоге.
Вот некоторые варианты групп с указаниями для поисковых агентов:
# Запрет на обработку исключительно программой YandexBlogs
User-agent: YandexBlogs Disallow: /
# Отказ в отслеживании программам YandexImages и YandexMedia
User-agent: YandexImages User-agent: YandexMedia Disallow: /
# Отказать обработке всем поисковым программам
User-agent: * Disallow: /
# Отказать обрабатывать страницу site2.html всем агентам поисковиков
User-agent: * Disallow: /site2.html
# Запрет на обработку страниц каталога wp-content всем поисковым программам, но разрешить им доступ к файлу post-new.php, содержащемуся в запрещенном каталоге wp-content
User-agent: * Disallow: /wp-content/ Allow: /wp-content/post-new.php
Символы
Символ «*» задает команды всем поисковым ботам без исключения (Существует более 20-ти поисковых ботов в Яндексе и Google разного назначения). Также этот символ может заменять в командах префиксы, суффиксы пути или весь путь.
К примеру, у нас имеются три страницы блога с отзывами:
- all.ru/otzyv-1/reviews/
- all.ru/otzyv-2/reviews/
- all.ru/otzyv-3/reviews/.
Предположим, что страницы эти разные, но отзывы на них с одинаковым алиасом и нам необходимо их закрыть от индексации. Так как у нас сайт начинается с префиксов otzyv-1, otzyv-2, otzyv-3, мы не сможем закрыть страницы отзывов командой Disallow: / reviews, и чтобы корректно прописать команду, необходимо префиксы otzyv-1, otzyv-2, otzyv-3 заменить «*»:
Disallow: /*/reviews/
Вот еще один пример, где символ «*» задает команду всем поисковым ботам обязательно сканировать все документы, в URL которых, фигурирует фрагмент «.pdf».
User-agent: * Allow: *.pdf
Символ «/» без всякого дополнения и в сочетании с командой Disallow запрещает индексировать весь сайт, а с командой Allow дает поисковым ботам «зеленый свет» на индексацию всех элементов сайта.
Директивы Desallow и Allow по умолчанию заканчиваются символом «*», в результате чего, ботам дается команда индексировать или не индексировать сразу все страницы, файлы или каталоги, с определенным префиксом, прописанным в командах. Но вдруг возникнет ситуация, когда целесообразней будет отказать индексированию поисковым роботам, лишь какую-то часть документов, из всех имеющихся документов, с общим префиксом, прописанным в команде? Для этого используется символ «$», который отменяет «*».
Пример:
User-agent: Googlebot Disallow: /search$
запрещает индексацию именно файлов начинающихся с префикса “/search” но не запрещает индексацию остальных файлов с префиксом – “/search.php”.