Skip to main content
Ai-инженер, разработчик
5 октября, 2025

Robots.txt и sitemap.xml: настройка для индексации

Ваш сайт не появляется в поиске? Или наоборот — индексируются страницы, которые не должны быть видны (админка, технические разделы, дубли)?

Проблема может быть в двух критически важных файлах: robots.txt и sitemap.xml. Они управляют тем, как поисковые роботы сканируют и индексируют ваш сайт.

В этой статье — простыми словами о том, что это такое, зачем нужно и как настроить правильно за 15 минут.


Что такое robots.txt

Robots.txt — это текстовый файл, который лежит в корне сайта и сообщает поисковым роботам (Google, Яндекс), какие страницы можно сканировать, а какие — нельзя.

Расположение: https://ваш-сайт.ru/robots.txt

Пример:

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Allow: /

Sitemap: https://ваш-сайт.ru/sitemap.xml

Зачем нужен robots.txt

✅ 1. Закрыть от индексации технические страницы

Например:

  • Админ-панель (/admin/, /wp-admin/)
  • Страницы корзины и оформления заказа
  • Дублирующие URL (сортировки, фильтры)
  • Служебные файлы

Зачем: Чтобы Google не тратил краулинговый бюджет на бесполезные страницы.


✅ 2. Защитить приватные данные

Если у вас есть разделы только для клиентов или сотрудников — закройте их от индексации.

Важно: Robots.txt НЕ защищает от хакеров. Это инструкция для поисковых роботов, а не файервол.


✅ 3. Избежать дублей в индексе

Если у вас есть версии страниц с параметрами (?sort=price, ?color=red) — закройте их, чтобы Google не считал их отдельными страницами.


✅ 4. Указать путь к карте сайта

В robots.txt можно добавить ссылку на sitemap.xml, чтобы роботы сразу нашли её.


Структура robots.txt: базовый синтаксис

User-agent (для кого инструкция)

Указывает, к какому роботу относится правило:

User-agent: *         # для всех роботов
User-agent: Googlebot # только для Google
User-agent: Yandex    # только для Яндекс

Disallow (что запретить)

Запрещает индексацию:

Disallow: /admin/          # запретить папку /admin/
Disallow: /cart/           # запретить корзину
Disallow: /*.pdf$          # запретить все PDF-файлы

Allow (что разрешить)

Разрешает индексацию (используется для исключений):

Disallow: /private/
Allow: /private/public-page.html  # исключение из запрета

Sitemap (ссылка на карту сайта)

Указывает путь к sitemap.xml:

Sitemap: https://ваш-сайт.ru/sitemap.xml

Примеры robots.txt для разных типов сайтов

Пример 1: Для корпоративного сайта

User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /*.pdf$
Allow: /

Sitemap: https://site.ru/sitemap.xml

Пример 2: Для интернет-магазина

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /

Sitemap: https://shop.ru/sitemap.xml

Объяснение: Закрываем корзину, оформление заказа и URL с параметрами сортировки/фильтрации.


Пример 3: Для WordPress

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/

Sitemap: https://blog.ru/sitemap.xml

Объяснение: Закрываем админку и служебные папки, но разрешаем изображения в /uploads/.


Что такое sitemap.xml

Sitemap.xml — это XML-файл со списком всех важных страниц сайта, которые нужно проиндексировать.

Расположение: https://ваш-сайт.ru/sitemap.xml

Пример структуры:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://site.ru/</loc>
    <lastmod>2025-10-01</lastmod>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://site.ru/services/</loc>
    <lastmod>2025-09-28</lastmod>
    <priority>0.8</priority>
  </url>
</urlset>

Зачем нужен sitemap.xml

✅ 1. Ускорить индексацию новых страниц

Когда вы публикуете новую статью или товар — Google узнает об этом быстрее, если страница есть в sitemap.


✅ 2. Помочь роботам найти все важные страницы

Если у вас сложная структура сайта или страницы глубоко вложены — sitemap покажет роботам путь.


✅ 3. Передать дополнительную информацию

Например:

  • lastmod — дата последнего изменения (помогает роботам понять, когда обновлять индекс)
  • priority — приоритет страницы (от 0.0 до 1.0)

Как создать sitemap.xml

Способ 1: Автоматически (для WordPress)

Используйте плагины:

  • Yoast SEO (автоматически создаёт sitemap)
  • Rank Math
  • Google XML Sitemaps

После установки sitemap доступен по адресу:
https://ваш-сайт.ru/sitemap_index.xml


Способ 2: Через онлайн-генераторы

Для небольших сайтов (до 500 страниц):

  • XML-sitemaps.com
  • Screaming Frog SEO Spider

Вводите URL сайта → получаете готовый файл → загружаете в корень сайта.


Способ 3: Вручную (для простых сайтов)

Если у вас 5-10 страниц — можно создать вручную в текстовом редакторе, используя шаблон выше.


Как добавить sitemap.xml в Google Search Console и Яндекс.Вебмастер

Google Search Console

  1. Откройте https://search.google.com/search-console/
  2. Выберите свой сайт
  3. Перейдите в раздел Файлы Sitemap
  4. Введите URL: sitemap.xml
  5. Нажмите Отправить

Google начнёт сканировать страницы из карты сайта.


Яндекс.Вебмастер

  1. Откройте https://webmaster.yandex.ru/
  2. Выберите сайт
  3. Перейдите в Индексирование → Файлы Sitemap
  4. Добавьте URL: https://ваш-сайт.ru/sitemap.xml
  5. Нажмите Добавить

Частые ошибки при настройке robots.txt и sitemap.xml

❌ Ошибка 1: Закрыли весь сайт от индексации

Пример неправильного robots.txt:

User-agent: *
Disallow: /

Результат: Сайт полностью исчезнет из поиска.

Как исправить:

User-agent: *
Allow: /

❌ Ошибка 2: В sitemap.xml добавлены страницы, закрытые в robots.txt

Если страница запрещена в robots.txt — не добавляйте её в sitemap. Это противоречие сбивает роботов с толку.


❌ Ошибка 3: Забыли обновить sitemap после добавления новых страниц

Если используете ручной sitemap — обновляйте его каждый раз при публикации новых страниц.

Решение: Используйте плагины или CMS, которые обновляют sitemap автоматически.


❌ Ошибка 4: Sitemap весит больше 50 МБ или содержит больше 50 000 URL

Лимиты:

  • Максимум 50 МБ
  • Максимум 50 000 URL в одном файле

Решение: Разделите на несколько файлов и создайте индексный sitemap:

<sitemapindex>
  <sitemap>
    <loc>https://site.ru/sitemap-pages.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://site.ru/sitemap-products.xml</loc>
  </sitemap>
</sitemapindex>

❌ Ошибка 5: Не указали ссылку на sitemap в robots.txt

Даже если вы добавили sitemap в Search Console — укажите ссылку в robots.txt. Это помогает другим поисковикам найти карту сайта.

Sitemap: https://ваш-сайт.ru/sitemap.xml

Как проверить правильность настройки

1. Проверка robots.txt

Откройте в браузере:
https://ваш-сайт.ru/robots.txt

Должен открыться текстовый файл с правилами.

Тест в Google Search Console:

  1. Откройте раздел Проверка robots.txt
  2. Введите URL для проверки
  3. Нажмите Тест

Google покажет, разрешена ли индексация.


2. Проверка sitemap.xml

Откройте в браузере:
https://ваш-сайт.ru/sitemap.xml

Должен открыться XML-файл со списком страниц.

Проверка в Search Console:
После добавления sitemap проверьте статус:

  • Если статус Успешно — всё ок
  • Если Ошибка — читайте описание проблемы

Чек-лист: Настройка robots.txt и sitemap.xml за 15 минут

Шаг 1: Создайте robots.txt

  • [ ] Откройте текстовый редактор
  • [ ] Скопируйте шаблон для вашего типа сайта
  • [ ] Укажите пути к закрытым папкам
  • [ ] Добавьте ссылку на sitemap
  • [ ] Сохраните как robots.txt
  • [ ] Загрузите в корень сайта

Шаг 2: Создайте sitemap.xml

  • [ ] Установите плагин (для WordPress) или используйте генератор
  • [ ] Проверьте, что sitemap открывается по адресу /sitemap.xml

Шаг 3: Добавьте sitemap в поисковики

  • [ ] Откройте Google Search Console
  • [ ] Добавьте sitemap
  • [ ] Откройте Яндекс.Вебмастер
  • [ ] Добавьте sitemap

Шаг 4: Проверьте

  • [ ] Откройте robots.txt в браузере
  • [ ] Проверьте sitemap.xml в браузере
  • [ ] Проверьте статус в Search Console

Когда обращаться к специалистам

Вы справитесь сами, если:

  • Сайт на WordPress с плагином Yoast SEO
  • Сайт небольшой (до 100 страниц)
  • Нужно закрыть только стандартные разделы (/admin/, /cart/)

Нужна помощь, если:

  • Сайт на кастомной CMS без автоматического sitemap
  • Сложная структура с фильтрами и параметрами URL
  • Нужно настроить индексацию многорегионального сайта
  • Возникают ошибки в Search Console

Мы помогаем настроить robots.txt и sitemap.xml для корректной индексации. Аудит текущих настроек, исправление ошибок, мониторинг в Search Console.

📩 Свяжитесь с нами для бесплатной диагностики индексации вашего сайта.


Выводы

  1. Robots.txt управляет доступом роботов к страницам. Закрывайте технические разделы, но не блокируйте важный контент.
  2. Sitemap.xml помогает роботам найти все важные страницы. Создавайте автоматически через плагины или CMS.
  3. Обязательно добавьте sitemap в Search Console и Вебмастер. Это ускорит индексацию новых страниц.
  4. Проверяйте регулярно. После каждого обновления сайта проверяйте, что robots.txt и sitemap актуальны.

Следующий шаг: Откройте https://ваш-сайт.ru/robots.txt прямо сейчас. Если файл отсутствует или содержит только служебные записи — создайте правильный robots.txt по шаблонам выше.


🔗 Полезные ссылки:

Статьи по теме: