Файл robots.txt

Файл robots.txt

Когда культурный поисковый Робот (бот, сканер, веб-паук, краулер) (программа автоматически индексирующая [что-то ищущая и/или запоминающая] содержимое интернет сайтов) заходит на какой-нибудь сайт, например, http://www.robotstxt.ru/ , он, робот, как правило, сначала проверяет наличие файла robots.txt в корневой директории сайта, например, http://www.robotstxt.ru/robots.txt. Если файл robots.txt найден, робот анализирует его.

С помощью файла robots.txt Вы можете запретить доступ к определённым файлам и директориям Вашего сайта или ко всему сайту целиком для конкретных роботов или для всех роботов. Правильные названия интересующих Вас роботов для использования в robots.txt можно найти в интернете, воспользовавшись поиском.

Управляющие директивы файла robots.txt поражают многообразием. Их — две, точнее две и комментарий:
User-agent: — задает имя конкретного робота или «*» для всех роботов
Disallow: — то, что запрещено смотреть указанному роботу
# — то, что правее — комментарий

Примеры управляющих директив, которые могут содержаться в robots.txt:

Вариант 1.
Простейший robots.txt для несложного сайта, разрешает полный доступ ко всем частям сайта для всех поисковых роботов.

User-agent: *
Disallow:

Вариант 2.
robots.txt разрешает полный доступ ко всем частям сайта кроме тех, адрес которых начинается с «/mystery» для всех поисковых роботов.

User-agent: *
Disallow: /mystery

Примечание (ваажное).
Директивы
Disallow: /mystery
и
Disallow: /mystery/
отличаются тем, что первая запрещает доступ и к «/mystery.html», и к «/mystery/index.html», и ко всем остальным адресам, начинающимся с «/mystery», в то время, как вторая запрещает доступ к «/mystery/index.html» и другим адресам, начинающимся с «/mystery/» но разрешает к «/mystery.html».:

Вариант 3.
robots.txt разрешает полный доступ ко всем частям сайта кроме тех, адрес которых начинается с «/mystery» и с «/fin/» для всех поисковых роботов кроме робота «VeryBadBot» для которого сканирование сайта запрещено полностью.

User-agent: *
Disallow: /mystery
Disallow: /fin/

User-agent: VeryBadBot # указания только для робота «VeryBadBot»
Disallow: / # запрещает доступ ко всем страницам и директориям сайта

Вариант 4.
robots.txt запрещает доступ к сайту всем поисковым роботам кроме робота «VeryPrettyBot» для которого полностью разрешено сканирование сайта и робота «PrettyBotBrother» для которого сканирование разрешено за исключением некоторых директорий.

User-agent: *
Disallow: /

User-agent: VeryPrettyBot # указания только для робота «VeryPrettyBot»
Disallow: # разрешает доступ ко всем страницам и директориям сайта

User-agent: PrettyBotBrother # указания только для робота «PrettyBotBrother»
Disallow: /storeroom/box2/ # разрешает доступ ко всем страницам и директориям сайта
Disallow: /storeroom/box15 # кроме адресов, начинающихся с
Disallow: /beta/index.php # «/storeroom/box2/», «/storeroom/box15″ и «/beta/index.php»

И так:

Если значением «User-agent» файла robots.txt является «*», запись описывает политику доступа по умолчанию для любого робота, не нашедшего своего названия в других записях «User-agent», например «User-agent: VeryPrettyBot» — указания только для робота «VeryPrettyBot». Не допускается наличие нескольких записей «User-agent: *» в файле robots.txt. Поле «User-agent» файла с именем конкретного робота так же не должно повторяться в robots.txt.

Значение директивы «Disallow» файла robots.txt описывает часть Вашего сайта, которую запрещено посещать роботам. Любой URI, начинающийся этим значением, не будет сканироваться. Пустое значение параметра «Disallow» означает, что весь сайт доступен для робота. Значение «/» значит полный запрет на индексацию сайта. По меньшей мере одно поле «Disallow» должно присутствовать в файле robots.txt.

В robots.txt нельзя оставлять пустые строки между директивами «User-agent» и «Disallow», а также между директивами «Disallow» , относящимися к одному «User-agent». А перед каждой директивой «User-agent» пустая строка желательна.

На сайте может быть только один файл robots.txt в корневом каталоге. Управляющие директивы файлов robots.txt лежащих не в корневом каталоге Вашего сайта роботы не выполняют. Файл robots.txt может быть размещен в корневой директории субдомена Вашего сайта. Примеры размещения robots.txt:

Источник: www.robotstxt.ru

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Security Code: