Robots.txt и sitemap.xml: настройка для индексации
Ваш сайт не появляется в поиске? Или наоборот — индексируются страницы, которые не должны быть видны (админка, технические разделы, дубли)?
Проблема может быть в двух критически важных файлах: robots.txt и sitemap.xml. Они управляют тем, как поисковые роботы сканируют и индексируют ваш сайт.
В этой статье — простыми словами о том, что это такое, зачем нужно и как настроить правильно за 15 минут.
Что такое robots.txt
Robots.txt — это текстовый файл, который лежит в корне сайта и сообщает поисковым роботам (Google, Яндекс), какие страницы можно сканировать, а какие — нельзя.
Расположение: https://ваш-сайт.ru/robots.txt
Пример:
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Allow: /
Sitemap: https://ваш-сайт.ru/sitemap.xml
Зачем нужен robots.txt
✅ 1. Закрыть от индексации технические страницы
Например:
- Админ-панель (
/admin/,/wp-admin/) - Страницы корзины и оформления заказа
- Дублирующие URL (сортировки, фильтры)
- Служебные файлы
Зачем: Чтобы Google не тратил краулинговый бюджет на бесполезные страницы.
✅ 2. Защитить приватные данные
Если у вас есть разделы только для клиентов или сотрудников — закройте их от индексации.
Важно: Robots.txt НЕ защищает от хакеров. Это инструкция для поисковых роботов, а не файервол.
✅ 3. Избежать дублей в индексе
Если у вас есть версии страниц с параметрами (?sort=price, ?color=red) — закройте их, чтобы Google не считал их отдельными страницами.
✅ 4. Указать путь к карте сайта
В robots.txt можно добавить ссылку на sitemap.xml, чтобы роботы сразу нашли её.
Структура robots.txt: базовый синтаксис
User-agent (для кого инструкция)
Указывает, к какому роботу относится правило:
User-agent: * # для всех роботов
User-agent: Googlebot # только для Google
User-agent: Yandex # только для Яндекс
Disallow (что запретить)
Запрещает индексацию:
Disallow: /admin/ # запретить папку /admin/
Disallow: /cart/ # запретить корзину
Disallow: /*.pdf$ # запретить все PDF-файлы
Allow (что разрешить)
Разрешает индексацию (используется для исключений):
Disallow: /private/
Allow: /private/public-page.html # исключение из запрета
Sitemap (ссылка на карту сайта)
Указывает путь к sitemap.xml:
Sitemap: https://ваш-сайт.ru/sitemap.xml
Примеры robots.txt для разных типов сайтов
Пример 1: Для корпоративного сайта
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /*.pdf$
Allow: /
Sitemap: https://site.ru/sitemap.xml
Пример 2: Для интернет-магазина
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /
Sitemap: https://shop.ru/sitemap.xml
Объяснение: Закрываем корзину, оформление заказа и URL с параметрами сортировки/фильтрации.
Пример 3: Для WordPress
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-content/uploads/
Sitemap: https://blog.ru/sitemap.xml
Объяснение: Закрываем админку и служебные папки, но разрешаем изображения в /uploads/.
Что такое sitemap.xml
Sitemap.xml — это XML-файл со списком всех важных страниц сайта, которые нужно проиндексировать.
Расположение: https://ваш-сайт.ru/sitemap.xml
Пример структуры:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://site.ru/</loc>
<lastmod>2025-10-01</lastmod>
<priority>1.0</priority>
</url>
<url>
<loc>https://site.ru/services/</loc>
<lastmod>2025-09-28</lastmod>
<priority>0.8</priority>
</url>
</urlset>
Зачем нужен sitemap.xml
✅ 1. Ускорить индексацию новых страниц
Когда вы публикуете новую статью или товар — Google узнает об этом быстрее, если страница есть в sitemap.
✅ 2. Помочь роботам найти все важные страницы
Если у вас сложная структура сайта или страницы глубоко вложены — sitemap покажет роботам путь.
✅ 3. Передать дополнительную информацию
Например:
- lastmod — дата последнего изменения (помогает роботам понять, когда обновлять индекс)
- priority — приоритет страницы (от 0.0 до 1.0)
Как создать sitemap.xml
Способ 1: Автоматически (для WordPress)
Используйте плагины:
- Yoast SEO (автоматически создаёт sitemap)
- Rank Math
- Google XML Sitemaps
После установки sitemap доступен по адресу:
https://ваш-сайт.ru/sitemap_index.xml
Способ 2: Через онлайн-генераторы
Для небольших сайтов (до 500 страниц):
- XML-sitemaps.com
- Screaming Frog SEO Spider
Вводите URL сайта → получаете готовый файл → загружаете в корень сайта.
Способ 3: Вручную (для простых сайтов)
Если у вас 5-10 страниц — можно создать вручную в текстовом редакторе, используя шаблон выше.
Как добавить sitemap.xml в Google Search Console и Яндекс.Вебмастер
Google Search Console
- Откройте https://search.google.com/search-console/
- Выберите свой сайт
- Перейдите в раздел Файлы Sitemap
- Введите URL:
sitemap.xml - Нажмите Отправить
Google начнёт сканировать страницы из карты сайта.
Яндекс.Вебмастер
- Откройте https://webmaster.yandex.ru/
- Выберите сайт
- Перейдите в Индексирование → Файлы Sitemap
- Добавьте URL:
https://ваш-сайт.ru/sitemap.xml - Нажмите Добавить
Частые ошибки при настройке robots.txt и sitemap.xml
❌ Ошибка 1: Закрыли весь сайт от индексации
Пример неправильного robots.txt:
User-agent: *
Disallow: /
Результат: Сайт полностью исчезнет из поиска.
Как исправить:
User-agent: *
Allow: /
❌ Ошибка 2: В sitemap.xml добавлены страницы, закрытые в robots.txt
Если страница запрещена в robots.txt — не добавляйте её в sitemap. Это противоречие сбивает роботов с толку.
❌ Ошибка 3: Забыли обновить sitemap после добавления новых страниц
Если используете ручной sitemap — обновляйте его каждый раз при публикации новых страниц.
Решение: Используйте плагины или CMS, которые обновляют sitemap автоматически.
❌ Ошибка 4: Sitemap весит больше 50 МБ или содержит больше 50 000 URL
Лимиты:
- Максимум 50 МБ
- Максимум 50 000 URL в одном файле
Решение: Разделите на несколько файлов и создайте индексный sitemap:
<sitemapindex>
<sitemap>
<loc>https://site.ru/sitemap-pages.xml</loc>
</sitemap>
<sitemap>
<loc>https://site.ru/sitemap-products.xml</loc>
</sitemap>
</sitemapindex>
❌ Ошибка 5: Не указали ссылку на sitemap в robots.txt
Даже если вы добавили sitemap в Search Console — укажите ссылку в robots.txt. Это помогает другим поисковикам найти карту сайта.
Sitemap: https://ваш-сайт.ru/sitemap.xml
Как проверить правильность настройки
1. Проверка robots.txt
Откройте в браузере:
https://ваш-сайт.ru/robots.txt
Должен открыться текстовый файл с правилами.
Тест в Google Search Console:
- Откройте раздел Проверка robots.txt
- Введите URL для проверки
- Нажмите Тест
Google покажет, разрешена ли индексация.
2. Проверка sitemap.xml
Откройте в браузере:
https://ваш-сайт.ru/sitemap.xml
Должен открыться XML-файл со списком страниц.
Проверка в Search Console:
После добавления sitemap проверьте статус:
- Если статус Успешно — всё ок
- Если Ошибка — читайте описание проблемы
Чек-лист: Настройка robots.txt и sitemap.xml за 15 минут
Шаг 1: Создайте robots.txt
- [ ] Откройте текстовый редактор
- [ ] Скопируйте шаблон для вашего типа сайта
- [ ] Укажите пути к закрытым папкам
- [ ] Добавьте ссылку на sitemap
- [ ] Сохраните как
robots.txt - [ ] Загрузите в корень сайта
Шаг 2: Создайте sitemap.xml
- [ ] Установите плагин (для WordPress) или используйте генератор
- [ ] Проверьте, что sitemap открывается по адресу
/sitemap.xml
Шаг 3: Добавьте sitemap в поисковики
- [ ] Откройте Google Search Console
- [ ] Добавьте sitemap
- [ ] Откройте Яндекс.Вебмастер
- [ ] Добавьте sitemap
Шаг 4: Проверьте
- [ ] Откройте robots.txt в браузере
- [ ] Проверьте sitemap.xml в браузере
- [ ] Проверьте статус в Search Console
Когда обращаться к специалистам
Вы справитесь сами, если:
- Сайт на WordPress с плагином Yoast SEO
- Сайт небольшой (до 100 страниц)
- Нужно закрыть только стандартные разделы (/admin/, /cart/)
Нужна помощь, если:
- Сайт на кастомной CMS без автоматического sitemap
- Сложная структура с фильтрами и параметрами URL
- Нужно настроить индексацию многорегионального сайта
- Возникают ошибки в Search Console
Мы помогаем настроить robots.txt и sitemap.xml для корректной индексации. Аудит текущих настроек, исправление ошибок, мониторинг в Search Console.
📩 Свяжитесь с нами для бесплатной диагностики индексации вашего сайта.
Выводы
- Robots.txt управляет доступом роботов к страницам. Закрывайте технические разделы, но не блокируйте важный контент.
- Sitemap.xml помогает роботам найти все важные страницы. Создавайте автоматически через плагины или CMS.
- Обязательно добавьте sitemap в Search Console и Вебмастер. Это ускорит индексацию новых страниц.
- Проверяйте регулярно. После каждого обновления сайта проверяйте, что robots.txt и sitemap актуальны.
Следующий шаг: Откройте https://ваш-сайт.ru/robots.txt прямо сейчас. Если файл отсутствует или содержит только служебные записи — создайте правильный robots.txt по шаблонам выше.
🔗 Полезные ссылки:
- Проверка robots.txt в Google: https://search.google.com/search-console/
- Генератор sitemap: https://www.xml-sitemaps.com/
- Документация Google по robots.txt: https://developers.google.com/search/docs/crawling-indexing/robots/intro