Как правильно настроить robots.txt самостоятельно

автор

статья от

Алексей Лазутин

Специалист по поисковому маркетингу

Когда я провожу SEO-аудиты сайтов, то очень часто встречаю одну очень серьезную ошибку. Это отсутствие файла robots.txt или неправильную его настройку.

Файл robots.txt представляет собой инструкцию для поисковых роботов. Простыми словами, в нем прописаны команды, какие страницы можно индексировать, какие – нельзя. С помощью этого файла можно запретить индексацию сайта или отдельных его страниц.

Если этого файла нет, индексация может пройти некорректно, сайт может долго заходить в индекс, или же в поиск попадут совсем не нужные вам страницы.

Находится этот файл в корневой папке сайта. Посмотреть, есть ли он на вашем сайте, вы можете, вбив в адресную строку браузера адрес-вашего-сайта.ру/robots.txt.

Структура файла robots.txt

Обычно настройка файла robots txt такова: в нем сначала идут общие правила:

User-agent: *

Потом инструкции для одного поискового робота (Яндекс), которые задаются командой:

User-agent: Yandex

затем – для другого (Google):

User-agent: Googlebot

То есть, вы с помощью настройки этого файла даже можете запретить индексировать сайт конкретной поисковой системе.

После инструкций идет команда Host: адрес-вашего-сайта.ру. Тут вы можете указать, какое зеркало вашего сайта главное – с www или без.

Затем указаны ссылки на карту сайта:

Sitemap: ссылка-на-карту-сайта.xml

Вот пример файла, чтобы не быть голословным:

Директивы и их значение

Каждая команда в файле имеет свое значение.

User-agent – указывает, для какого поискового паука будет идти инструкция.

Disallow – запрет на индексацию.

Allow – открыто для индексации (обычно не используется, все что не запрещено – открыто). У меня в примере этого параметра нет.

*- любое значение.

Порядок расположения директив на индексацию сайта не влияет.

Правильная настройка robots txt

Теперь разберемся, как правильно настроить robots txt.

Настройка файла robots txt – это дело вебмастера. Но случается всякое, если вы сами разрабатываете сайт или хотите внести изменения – дальше информация для вас.

Вы можете прописать инструкцию просто в текстовом редакторе, в том же блокноте. Общую схему документа вы уже поняли.

Обратите внимание, что после инструкций для конкретного робота нужно сделать пустую строку.

User-agent: *

Disallow: /адрес-страницы

User-agent: Googlebot

Disallow: /адрес-страницы

А вот внутри пары User-agent+ Disallow пустых строк быть не должно. Получается, что инструкции для каждого бота идут отдельным блоком.

Чтобы в robots txt запретить индексацию конкретной страницы, нужно указать то, что написано в адресной строке после основного адреса вашего сайта.

Поясню.

Адрес вашего сайта: подоконники.рф. Вы хотите закрыть от индексации страницу подоконники.рф/корзина. В файле robots txt пишем:

User-agent: Googlebot

Disallow: /корзина

То есть, слэш (/) и то, что идет после него. Это называется «относительный адрес».

Приведу несколько стандартных манипуляций по настройке robots txt.

Полностью закрыть сайт от индексации в robots txt можно следующим образом:

User-agent: *

Disallow: /

Вы можете закрыть от индексации конкретные страницы:

User-agent: Googlebot

Disallow: /no-index/this-page.html

Или запретить индексировать отдельный тип файлов:

User-agent: *

Disallow: /*.xls$

Что касается карты сайта, то если вы постоянно публикуете новый уникальный контент, в файл robots txt можете ссылку на него не добавлять, достаточно добавить ссылку на карту сайта и роботы сами увидят новый контент.

После того, как вы прописали этот файл, его нужно залить в корневую папку сайта. Проверить корректность файла помогут инструменты для вебмастеров, если сайт туда добавлен и права подтверждены. Яндекс.Вебмастер:

и Google Search Console (Сканирование -> Инструмент проверки файла robots.txt.).

Что нужно закрывать от индексации?

Вам может показаться, что чем больше страниц в индексе – тем лучше. Оно так. Только часто в индекс попадают мусорные или служебные страницы. Их нужно закрывать от индексации через robots txt. Это:

  • админка сайта;
  • страницы или файлы с личными данными;
  • страницы входа;
  • корзину;
  • страницы регистрации;
  • дубли страниц.

Вы можете легко закрыть от индексации любую страницу на сайте, появление которой в результатах поиска будет для вас нежелательным.

Настройка файла robots txt – это один из основных пунктов по внутренней оптимизации сайта. Его правильная настройка поможет вашему сайту зайти в индекс надлежащим образом. Откройте нужные страницы и закройте ненужные.

Существует ли вероятность того, что поисковые роботы обойдут рекомендации, которые вы прописали? Небольшая вероятность есть. Потому всегда проверяйте состояние дел по сайту через инструменты для вебмастеров.

seohead.pro