Что такое robots.txt

robots.txt — это открытый текстовый файл в корне сайта (https://example.com/robots.txt), который сообщает поисковым и другим роботам что им можно/нельзя краулить (ходить по URL и скачивать контент).

Время прочтения:

4 минуты

Дата публикации:

20.05.25

96

Главная

Что такое robots.txt

глоссарий

a

b

c

d

e

f

g

h

i

j

l

m

o

p

r

s

t

u

v

w

y

А

Y

А

Б

В

Г

Д

Е

з

и

к

л

м

н

о

п

р

с

т

у

ф

х

ц

ч

ш

А

Я

метрика месяца

ROMI — это показатель возврата на инвестиции в маркетинг, который рассчитывается как отношение прибыли от маркетинговых активностей к затратам на них. Он помогает оценить, насколько эффективно были потрачены маркетинговые бюджеты и какие каналы приносят наибольшую отдачу.

ROMI

Важно: он управляет краулингом, а не индексацией. URL, запрещённый к обходу, всё равно может появиться в индексе как «голая ссылка» (без сниппета), если на него ссылаются извне.

Где лежит и для кого действует

Файл обязателен по пути /robots.txt у каждого хоста (поддомена) отдельно: www.example.com, m.example.com, cdn.example.com — разные файлы;
Имя регистронезависимо, содержимое — UTF-8;
Комментарии начинаются с #.

Базовый синтаксис

Файл состоит из групп правил для конкретных ботов:

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/assets/

User-agent: *
Disallow: /tmp/
Allow: /           # явное разрешение всего остального

Sitemap: https://example.com/sitemap.xml

Директивы

User-agent — кому адресованы правила (имя робота). * — всем;
Disallow — запрет краулинга путей (префикс пути от корня). Пустое значение = «ничего не запрещено»;
Allow — явное разрешение (подходит, когда нужен «прокол» внутри запрещённого раздела);
Sitemap — URL карты сайта (можно указывать несколько; работает для большинства поисковиков).

Подстановки и окончание строки

Современные поисковики поддерживают:

* — «любой набор символов»;
$ — «конец URL».

Примеры:

Disallow: /*?session=         # любые URL с параметром session
Disallow: /search             # всё под /search
Allow: /search/help$          # но саму /search/help разрешаем

Как роботы выбирают и применяют правила

Робот ищет самую подходящую группу User-agent. Например, для Googlebot-Image группа User-agent: Googlebot-Image приоритетнее, чем User-agent: Googlebot, и обе приоритетнее *.
Внутри выбранной группы применяется самое специфичное совпадение (наиболее длинная строка правила).
При равной специфичности обычно побеждает Allow.

Расширенные/нестандартные директивы

Crawl-delay — задержка между запросами. Поддерживается не всеми (Google игнорирует, у Bing/Yandex — опционально);
Host, Clean-param — специфичны для Яндекса (Google их игнорирует);
Noindex в robots.txt — не используйте: Google давно не поддерживает. Для запрета индексации применяйте meta robots или HTTP-заголовок X-Robots-Tag на самой странице/ресурсе.

Важные нюансы и частые ошибки

Это не защита. robots.txt публичен и не «закрывает» данные. Для приватного — авторизация/доступ по IP;
«Disallow» ≠ «не будет в индексе». Чтобы гарантированно не индексировалось — откройте краулинг страницы и поставьте noindex (meta или X-Robots-Tag). Если вы запретили краулинг, робот не увидит ваш noindex;
Не блокируйте CSS/JS, нужные для рендера. Иначе ухудшите понимание страницы и рискуете качеством индексации;
Параметры и дубли. Блокировка параметров в robots.txt не решает вопрос каноничности. Используйте каноникал, аккуратные внутренние ссылки и (при необходимости) правила индексации на самой странице;
Размер и доступность. Поисковики читают только первые ~500 КБ файла; при 404 роботы считают, что запретов нет; при 5xx могут временно не краулить сайт;
Кейс-сенситивность путей. Поля директив нечувствительны к регистру, а вот пути URL — чувствительны на большинстве серверов: /Admin/ и /admin/ — разные;
Редиректы. Отдавайте robots.txt напрямую, без цепочек 3xx.

Типовые примеры

Блокируем служебные разделы, разрешаем статику внутри

User-agent: *
Disallow: /admin/
Allow: /admin/assets/
Disallow: /scripts/
Allow: /scripts/vendor/modern.min.js

Sitemap: https://example.com/sitemap.xml

Запрет поиска и фильтров с параметрами

User-agent: *
Disallow: /search
Disallow: /*?sort=
Disallow: /*&utm_

Мобильный поддомен — свой файл

https://m.example.com/robots.txt:
User-agent: *
Disallow: /admin/
Sitemap: https://m.example.com/sitemap.xml

Временная «заглушка» для стейджа

User-agent: *
Disallow: /

Лучше добавить HTTP-авторизацию, чтобы боты вообще не видели сайт.

Метатеги и заголовки для индексации

Meta robots (в <head> страницы):

<meta name="robots" content="noindex, nofollow">

HTTP X-Robots-Tag — работает и для файлов (PDF, изображения):

X-Robots-Tag: noindex, nofollow

Используйте robots.txt для управления краулингом, а meta/X-Robots-Tag — для индексации.

Мини-чек-лист «здорового» robots.txt

Файл доступен по /{root}/robots.txt на каждом поддомене, код ответа 200;
Не блокируете критичные CSS/JS/изображения (нужные для рендера);
Служебные разделы закрыты (/admin/, /cgi-bin/, внутренние API), но исключения явно Allow;
Параметрические мусорные URL ограничены (по шаблонам с */$), каноникал настроен;
Указаны актуальные Sitemap(ы);
Нет нестандартных директив «на удачу» (Noindex и пр.);
Изменения протестированы (краулером/консолью), файл компактный (<500 КБ).

заключение

robots.txt — это «светофор» для краулеров. Он говорит, куда можно ходить, но не решает вопрос индексации и уж точно не защищает данные. Держите файл простым: закрывайте служебное, не мешайте рендеру (CSS/JS), аккуратно обращайтесь с параметрами, указывайте Sitemap — а для запрета индексации применяйте meta/X-Robots-Tag на самих страницах и файлах.