Robots.txt е файл в коренната директория на вашия уебсайт, който инструктира търсачките кои части от сайта могат да сканират. Това не е механизъм за сигурност, а инструмент за управление на трафика от търсачки.
Определя за кой бот/търсачка се отнася правилото. Специалната стойност * се отнася за всички ботове.
Пример: User-agent: Googlebot
Блокира достъп до определени URL-адреси. Празен Disallow разрешава всичко.
Пример: Disallow: /private/
Разрешава достъп до конкретни URL-адреси, дори ако са в Disallow секция.
Пример: Allow: /public/
Указва местоположението на XML картата на сайта.
Пример: Sitemap: https://example.com/sitemap.xml
Robots.txt не забранява индексиране, а само обхождането. За да предотвратите индексиране, използвайте мета таг <meta name="robots" content="noindex"> или HTTP заглавка X-Robots-Tag: noindex.
Google Search Console предлага инструмент за тестване на robots.txt файлове. Можете също да използвате онлайн валидатори или да проверите логовете на сървъра за посещения от търсачки.