Что такое robots.txt

robots.txt — это открытый текстовый файл в корне сайта (https://example.com/robots.txt), который сообщает поисковым и другим роботам что им можно/нельзя краулить (ходить по URL и скачивать контент).
Время прочтения:
4 минуты
Дата публикации:
20.05.25
96
Что такое robots.txt
a
b
c
d
e
f
g
h
i
j
l
m
o
p
r
s
t
u
v
w
y
А
Y
А
Б
В
Г
Д
Е
з
и
к
л
м
н
о
п
р
с
т
у
ф
х
ц
ч
ш
А
Я
метрика месяца
ROMI — это показатель возврата на инвестиции в маркетинг, который рассчитывается как отношение прибыли от маркетинговых активностей к затратам на них. Он помогает оценить, насколько эффективно были потрачены маркетинговые бюджеты и какие каналы приносят наибольшую отдачу.
ROMI
Важно: он управляет краулингом, а не индексацией. URL, запрещённый к обходу, всё равно может появиться в индексе как «голая ссылка» (без сниппета), если на него ссылаются извне.

Где лежит и для кого действует

  • Файл обязателен по пути /robots.txt у каждого хоста (поддомена) отдельно: www.example.com, m.example.com, cdn.example.com — разные файлы;
  • Имя регистронезависимо, содержимое — UTF-8;
  • Комментарии начинаются с #.

Базовый синтаксис

Файл состоит из групп правил для конкретных ботов:
User-agent: Googlebot
Disallow: /admin/
Allow: /admin/assets/

User-agent: *
Disallow: /tmp/
Allow: /           # явное разрешение всего остального

Sitemap: https://example.com/sitemap.xml

Директивы

  • User-agent — кому адресованы правила (имя робота). * — всем;
  • Disallow — запрет краулинга путей (префикс пути от корня). Пустое значение = «ничего не запрещено»;
  • Allow — явное разрешение (подходит, когда нужен «прокол» внутри запрещённого раздела);
  • Sitemap — URL карты сайта (можно указывать несколько; работает для большинства поисковиков).

Подстановки и окончание строки

Современные поисковики поддерживают:
  • * — «любой набор символов»;
  • $ — «конец URL».

Примеры:
Disallow: /*?session=         # любые URL с параметром session
Disallow: /search             # всё под /search
Allow: /search/help$          # но саму /search/help разрешаем

Как роботы выбирают и применяют правила

  1. Робот ищет самую подходящую группу User-agent. Например, для Googlebot-Image группа User-agent: Googlebot-Image приоритетнее, чем User-agent: Googlebot, и обе приоритетнее *.
  2. Внутри выбранной группы применяется самое специфичное совпадение (наиболее длинная строка правила).
  3. При равной специфичности обычно побеждает Allow.

Расширенные/нестандартные директивы

  • Crawl-delay — задержка между запросами. Поддерживается не всеми (Google игнорирует, у Bing/Yandex — опционально);
  • Host, Clean-param — специфичны для Яндекса (Google их игнорирует);
  • Noindex в robots.txt — не используйте: Google давно не поддерживает. Для запрета индексации применяйте meta robots или HTTP-заголовок X-Robots-Tag на самой странице/ресурсе.

Важные нюансы и частые ошибки

  • Это не защита. robots.txt публичен и не «закрывает» данные. Для приватного — авторизация/доступ по IP;
  • «Disallow» ≠ «не будет в индексе». Чтобы гарантированно не индексировалось — откройте краулинг страницы и поставьте noindex (meta или X-Robots-Tag). Если вы запретили краулинг, робот не увидит ваш noindex;
  • Не блокируйте CSS/JS, нужные для рендера. Иначе ухудшите понимание страницы и рискуете качеством индексации;
  • Параметры и дубли. Блокировка параметров в robots.txt не решает вопрос каноничности. Используйте каноникал, аккуратные внутренние ссылки и (при необходимости) правила индексации на самой странице;
  • Размер и доступность. Поисковики читают только первые ~500 КБ файла; при 404 роботы считают, что запретов нет; при 5xx могут временно не краулить сайт;
  • Кейс-сенситивность путей. Поля директив нечувствительны к регистру, а вот пути URL — чувствительны на большинстве серверов: /Admin/ и /admin/ — разные;
  • Редиректы. Отдавайте robots.txt напрямую, без цепочек 3xx.

Типовые примеры

Блокируем служебные разделы, разрешаем статику внутри

User-agent: *
Disallow: /admin/
Allow: /admin/assets/
Disallow: /scripts/
Allow: /scripts/vendor/modern.min.js

Sitemap: https://example.com/sitemap.xml

Запрет поиска и фильтров с параметрами

User-agent: *
Disallow: /search
Disallow: /*?sort=
Disallow: /*&utm_

Мобильный поддомен — свой файл

https://m.example.com/robots.txt:
User-agent: *
Disallow: /admin/
Sitemap: https://m.example.com/sitemap.xml

Временная «заглушка» для стейджа

User-agent: *
Disallow: /
Лучше добавить HTTP-авторизацию, чтобы боты вообще не видели сайт.

Метатеги и заголовки для индексации

Meta robots (в <head> страницы):
<meta name="robots" content="noindex, nofollow">
HTTP X-Robots-Tag — работает и для файлов (PDF, изображения):
X-Robots-Tag: noindex, nofollow
Используйте robots.txt для управления краулингом, а meta/X-Robots-Tag — для индексации.

Мини-чек-лист «здорового» robots.txt

  • Файл доступен по /{root}/robots.txt на каждом поддомене, код ответа 200;
  • Не блокируете критичные CSS/JS/изображения (нужные для рендера);
  • Служебные разделы закрыты (/admin/, /cgi-bin/, внутренние API), но исключения явно Allow;
  • Параметрические мусорные URL ограничены (по шаблонам с */$), каноникал настроен;
  • Указаны актуальные Sitemap(ы);
  • Нет нестандартных директив «на удачу» (Noindex и пр.);
  • Изменения протестированы (краулером/консолью), файл компактный (<500 КБ).

заключение

robots.txt — это «светофор» для краулеров. Он говорит, куда можно ходить, но не решает вопрос индексации и уж точно не защищает данные. Держите файл простым: закрывайте служебное, не мешайте рендеру (CSS/JS), аккуратно обращайтесь с параметрами, указывайте Sitemap — а для запрета индексации применяйте meta/X-Robots-Tag на самих страницах и файлах.
Детальный анализ сайта, ниши и конкурентов
Заполните форму — и в течение 1 рабочего дня вы получите подробную стратегию роста с цифрами, сроками и приоритетами.
Подбор эффективных точек роста и инструментов продвижения
Индивидуальный SEO план на 6–12 месяцев

Бесплатный анализ вашего бизнеса
+ стратегия продвижения

1
2
3

Другие термины

Анкор (anchor; по-русски чаще «анкор-текст») — это кликабельный текст ссылки, который видит пользователь...
Арендные ссылки — это платные внешние ссылки, размещаемые на сайтах-донорах по модели абонплаты: вы платите...
Безанкорная ссылка — это внешняя или внутренняя ссылка, в тексте которой нет ключевого запроса. Анкор либо...
Видимость сайта — это показатель, который отражает, насколько часто и насколько высоко ваш сайт появляется в результатах...
Динамический URL — это адрес страницы, который генерируется автоматически системой управления сайтом...
Естественные ссылки — это внешние ссылки, которые другие сайты ставят по собственной инициативе: чтобы сослаться на ваш...

УСЛУГИ СТУДИИ A2O

аудиты
Находим все слабые места вашего сайта, которые ограничивают рост бизнеса и прибыли. Анализируем более 100 факторов продвижения
SEO ПРОДВИЖЕНИЕ
Продвигаем сайты в любой нише
Гарантируем результат, даем прозрачную статистику и помогаем вашему бизнесу расти

бизнесы, которые растут
вместе с нами

Нам доверяют компании из разных сфер: от локального сервиса до e-commerce.
Мы сопровождаем на всех этапах — от запуска до масштабирования.

бизнесы, которые растут
вместе с нами

Нам доверяют компании из разных сфер: от локального сервиса до e-commerce.
Мы сопровождаем на всех этапах — от запуска до масштабирования.
Технический SEO Аудит
Аудит UX | UI логики
рекомендации по улучшению
Закажите аудит вашего сайта
и получите комплексные рекомендации по улучшению
Отвечаем в Telegram
за 2 минуты

КОНТАКТЫ
SEO STUDIO A2O

Всегда на связи – поможем Вашему
бизнесу покорять поиск!