Robots txt для чего нужен

Предназначение файла robots.txt на сайте

Здравствуйте! В моей жизни было такое время, когда я абсолютно ничего не знал про создание сайтов и уж тем более не догадывался про существование файла robots.txt.

Robots txt для чего нужен. robots. Robots txt для чего нужен фото. Robots txt для чего нужен-robots. картинка Robots txt для чего нужен. картинка robots

Когда простой интерес перерос в серьезное увлечение, появились силы и желание изучить все тонкости. На форумах можно встретить множество тем, связанных с этим файлом, почему? Все просто: robots.txt регулирует доступ поисковых систем к сайту, управляя индексированием и это очень важно!

Зачем скрывать определенное содержимое сайта? Вряд ли Вы обрадуетесь, если поисковый робот проиндексирует файлы администрирования сайта, в которых могут храниться пароли или другая секретная информация.

Для регулирования доступа существуют различные директивы:

Обратите внимание, с 20 марта 2018 года Яндекс официально прекратил поддержку директивы Host. Её можно удалить из robots.txt, а если оставить, то робот её просто игнорирует.

Всегда нужно помнить о безопасности. Этот файл может посмотреть любой желающий, поэтому не нужно указывать в нем явный путь к административным ресурсам (панелям управления и т.д.). Как говориться, меньше знаешь — крепче спишь. Поэтому, если на страницу нет никаких ссылок и Вы не хотите ее индексировать, то не нужно ее прописывать в роботсе, ее и так никто не найдет, даже роботы-пауки.

Сразу хочу отметить, что поисковые системы по разному относятся к этому файлу. Например, Яндекс безоговорочно следует его правилам и исключает запрещенные страницы из индексирования, в то время как Google воспринимает этот файл как рекомендацию и не более.

Для запрета индексирования страниц возможно применение иных средств:

При этом Google может успешно добавить в поисковую выдачу страницы, запрещенные к индексации, несмотря на все ограничения. Его основной аргумент — если на страницу ссылаются, значит она может появится в результатах поиска. В данном случае рекомендуется не ссылаться на такие страницы, но позвольте, файл robots.txt как раз и предназначен для того, чтобы выкинуть из выдачи такие страницы… На мой взгляд, логика отсутствует 🙄

Удаление страниц из поиска

Если запрещенные страницы все же были проиндексированы, то необходимо воспользоваться Google Search Console и входящим в ее состав инструментом удаления URL-адресов:

Robots txt для чего нужен. Udalit URL adresa. Robots txt для чего нужен фото. Robots txt для чего нужен-Udalit URL adresa. картинка Robots txt для чего нужен. картинка Udalit URL adresa

Аналогичный инструмент есть в Яндекс Вебмастере. Подробнее об удалении страниц из индекса поисковых систем читайте в отдельной статье.

Проверка robots.txt

Продолжая тему с Google, можно воспользоваться еще одним инструментом Search Console и проверить файл robots.txt, правильно ли он составлен для запрета индексирования определенных страниц:

Robots txt для чего нужен. Instrument proverki fajla. Robots txt для чего нужен фото. Robots txt для чего нужен-Instrument proverki fajla. картинка Robots txt для чего нужен. картинка Instrument proverki fajla

Для этого достаточно ввести в текстовое поле URL-адреса, которые необходимо проверить и нажать кнопку Проверить — в результате проверки выяснится, запрещена данная страница к индексации или же ее содержимое доступно для поисковых роботов.

У Яндекса также есть подобный инструмент, находящийся в Вебмастере, проверка осуществляется аналогичным образом:

Источник

Что такое robots.txt [Основы для новичков]

Robots txt для чего нужен. 5414. Robots txt для чего нужен фото. Robots txt для чего нужен-5414. картинка Robots txt для чего нужен. картинка 5414

Подробно о правилах составления файла в полном руководстве «Как составить robots.txt самостоятельно».

А в этом материале основы для начинающих, которые хотят быть в курсе профессиональных терминов.

Что такое robots.txt

Поисковый робот, придя к вам на сайт, первым делом пытается отыскать robots.txt. Если робот не нашел файл или он составлен неправильно, бот будет изучать сайт по своему собственному усмотрению. Далеко не факт, что он начнет с тех страниц, которые нужно вводить в поиск в первую очередь (новые статьи, обзоры, фотоотчеты и так далее). Индексация нового сайта может затянуться. Поэтому веб-мастеру нужно вовремя позаботиться о создании правильного файла robots.txt.

На некоторых конструкторах сайтов файл формируется сам. Например, Wix автоматически создает robots.txt. Чтобы посмотреть файл, добавьте к домену «/robots.txt». Если вы увидите там странные элементы типа «noflashhtml» и «backhtml», не пугайтесь: они относятся к структуре сайтов на платформе и не влияют на отношение поисковых систем.

Зачем нужен robots.txt

Казалось бы, зачем запрещать индексировать какое-то содержимое сайта? Далеко не весь контент, из которого состоит сайт, нужен поисковым роботам. Есть системные файлы, есть дубликаты страниц, есть рубрики ключевых слов и много чего еще есть, что вовсе не обязательно индексировать. Есть одно но:

Содержимое файла robots.txt — это рекомендации для ботов, а не жесткие правила. Рекомендации боты могут проигнорировать.

Google предупреждает, что через robots.txt нельзя заблокировать страницы для показа в Google. Даже если вы закроете доступ к странице в robots.txt, если на какой-то другой странице будет ссылка на эту, она может попасть в индекс. Лучше использовать и ограничения в robots, и другие методы запрета:

Тем не менее, без robots.txt больше вероятность, что информация, которая должна быть скрыта, попадет в выдачу, а это бывает чревато раскрытием персональных данных и другими проблемами.

Из чего состоит robots.txt

Файл должен называться только «robots.txt» строчными буквами и никак иначе. Его размещают в корневом каталоге — https://site.com/robots.txt в единственном экземпляре. В ответ на запрос он должен отдавать HTTP-код со статусом 200 ОК. Вес файла не должен превышать 32 КБ. Это максимум, который будет воспринимать Яндекс, для Google robots может весить до 500 КБ.

Внутри все должно быть на латинице, все русские названия нужно перевести с помощью любого Punycode-конвертера. Каждый префикс URL нужно писать на отдельной строке.

В robots.txt с помощью специальных терминов прописываются директивы (команды или инструкции). Кратко о директивах для поисковых ботах:

«Us-agent:» — основная директива robots.txt

Используется для конкретизации поискового робота, которому будут давать указания. Например, User-agent: Googlebot или User-agent: Yandex.

В файле robots.txt можно обратиться ко всем остальным поисковым системам сразу. Команда в этом случае будет выглядеть так: User-agent: *. Под специальным символом «*» принято понимать «любой текст».

После основной директивы «User-agent:» следуют конкретные команды.

Команда «Disallow:» — запрет индексации в robots.txt

При помощи этой команды поисковому роботу можно запретить индексировать веб-ресурс целиком или какую-то его часть. Все зависит от того, какое расширение у нее будет.

Такого рода запись в файле robots.txt означает, что поисковому роботу Яндекса вообще не позволено индексировать данный сайт, так как запрещающий знак «/» не сопровождается какими-то уточнениями.

На этот раз уточнения имеются и касаются они системной папки wp-admin в CMS WordPress. То есть индексирующему роботу рекомендовано отказаться от индексации всей этой папки.

Команда «Allow:» — разрешение индексации в robots.txt

Антипод предыдущей директивы. При помощи тех же самых уточняющих элементов, но используя данную команду в файле robots.txt, можно разрешить индексирующему роботу вносить нужные вам элементы сайта в поисковую базу.

Разрешено сканировать все, что начинается с «/catalog», а все остальное запрещено.

На практике «Allow:» используется не так уж и часто. В ней нет надобности, поскольку она применяется автоматически. В robots «разрешено все, что не запрещено». Владельцу сайта достаточно воспользоваться директивой «Disallow:», запретив к индексации какое-то содержимое, а весь остальной контент ресурса воспринимается поисковым роботом как доступный для индексации.

Директива «Sitemap:» — указание на карту сайта

« Sitemap:» указывает индексирующему роботу правильный путь к так Карте сайта — файлам sitemap.xml и sitemap.xml.gz в случае с CMS WordPress.

Прописывание команды в файле robots.txt поможет поисковому роботу быстрее проиндексировать Карту сайта. Это ускорит процесс попадания страниц ресурса в выдачу.

Файл robots.txt готов — что дальше

Итак, вы создали текстовый документ robots.txt с учетом особенностей вашего сайта. Его можно сделать автоматически, к примеру, с помощью нашего инструмента.

Источник

«Вкалывают роботы»: что такое robots.txt и как его настроить

Robots txt для чего нужен. 53c36bca3cff8bc81477ec1b265d4e43. Robots txt для чего нужен фото. Robots txt для чего нужен-53c36bca3cff8bc81477ec1b265d4e43. картинка Robots txt для чего нужен. картинка 53c36bca3cff8bc81477ec1b265d4e43

Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.

По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге.

Что такое robots.txt

Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации.

Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта /robots.txt и вы увидите его.

Зачем нам нужен этот файл

Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:

Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано.

Настройка директивов robots.txt

Директивы — это правила для роботов. И эти правила пишем мы.

User-agent

Пример:

Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:

Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.

Disallow и Allow

С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow, даем разрешение на индексацию.

Пример:

Даем рекомендацию, чтобы индексировались категории.

А вот так от индексации будет закрыт весь сайт.

Также существуют операторы, которые помогают уточнить наши правила.

Sitemap

Пример:

Директива host уже устарела, поэтому о ней говорить не будем.

Crawl-delay

Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.

Пример:

Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.

Clean-param

Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы.

Пример:

Как закрыть сайт от индексации

Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:

Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.

Проверка файла robots

Переходим в инструмент, вводим домен и содержимое вашего файла.

Robots txt для чего нужен. %D1%80%D0%BE%D0%B1%D0%BE%D1%82%D1%81. Robots txt для чего нужен фото. Robots txt для чего нужен-%D1%80%D0%BE%D0%B1%D0%BE%D1%82%D1%81. картинка Robots txt для чего нужен. картинка %D1%80%D0%BE%D0%B1%D0%BE%D1%82%D1%81

Нажимаем « Проверить » и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.

Robots txt для чего нужен. %D0%BE%D1%88%D0%B8%D0%B1%D0%BA%D0%B8. Robots txt для чего нужен фото. Robots txt для чего нужен-%D0%BE%D1%88%D0%B8%D0%B1%D0%BA%D0%B8. картинка Robots txt для чего нужен. картинка %D0%BE%D1%88%D0%B8%D0%B1%D0%BA%D0%B8

Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.

Robots txt для чего нужен. %D1%80%D0%B0%D0%B7%D1%80%D0%B5%D1%88%D0%B5%D0%BD. Robots txt для чего нужен фото. Robots txt для чего нужен-%D1%80%D0%B0%D0%B7%D1%80%D0%B5%D1%88%D0%B5%D0%BD. картинка Robots txt для чего нужен. картинка %D1%80%D0%B0%D0%B7%D1%80%D0%B5%D1%88%D0%B5%D0%BD

Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.

Правильный robots.txt для WordPress

Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами.

Правильный robots.txt для Joomla

Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.

Источник

Что такое robots.txt и зачем вообще нужен индексный файл

Robots txt для чего нужен. 1e9c3781de8f4ee523e606faf2d8a503. Robots txt для чего нужен фото. Robots txt для чего нужен-1e9c3781de8f4ee523e606faf2d8a503. картинка Robots txt для чего нужен. картинка 1e9c3781de8f4ee523e606faf2d8a503

Файл robots.txt вместе с xml-картой несёт, пожалуй, самую важную информацию о ресурсе: он показывает роботам поисковых систем, как именно «читать» сайт, какие страницы важны, а какие следует пропустить. Еще robots.txt — первая страница, на которую стоит смотреть, если на сайт внезапно упал трафик.

Что за роботс ти экс ти?

Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP. Файл дает поисковым роботам рекомендации: какие страницы/файлы стоит сканировать. Если файл будет содержать символы не в UTF-8, а в другой кодировке, поисковые роботы могут неправильно их обработать. Правила, перечисленные в файле robots.txt, действительны только в отношении того хоста, протокола и номера порта, где размещен файл.

Файл должен располагаться в корневом каталоге в виде обычного текстового документа и быть доступен по адресу: https://site.com.ua/robots.txt.

В других файлах принято ставить отметку ВОМ (Byte Order Mark). Это Юникод-символ, который используется для определения последовательности в байтах при считывании информации. Его кодовый символ — U+FEFF. В начале файла robots.txt отметка последовательности байтов игнорируется.

Google установил ограничение по размеру файла robots.txt — он не должен весить больше 500 Кб.

Ладно, если вам интересны сугубо технические подробности, файл robots.txt представляет собой описание в форме Бэкуса-Наура (BNF). При этом используются правила RFC 822.

При обработке правил в файле robots.txt поисковые роботы получают одну из трех инструкций:

При сканировании файла robots.txt роботы получают такие ответы:

Пока что неизвестно, как обрабатывается файл robots.txt, который недоступен из-за проблем сервера с выходом в интернет.

Robots txt для чего нужен. chioce seo. Robots txt для чего нужен фото. Robots txt для чего нужен-chioce seo. картинка Robots txt для чего нужен. картинка chioce seo

Зачем нужен файл robots.txt

Например, иногда роботам не стоит посещать:

Важно: даже если страница находится в файле robots.txt, существует вероятность, что она появится в выдаче, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.

Так роботы поисковых систем видят сайт с файлом robots.txt и без него:

Robots txt для чего нужен. tak roboty poiskovyh sistem vidat sajt s fajlom. Robots txt для чего нужен фото. Robots txt для чего нужен-tak roboty poiskovyh sistem vidat sajt s fajlom. картинка Robots txt для чего нужен. картинка tak roboty poiskovyh sistem vidat sajt s fajlom

Без robots.txt та информация, которая должна быть скрыта от посторонних глаз, может попасть в выдачу, а из-за этого пострадаете и вы, и сайт.

Так робот поисковых систем видит файл robots.txt:

Robots txt для чего нужен. google obnaruzil fajl robots. Robots txt для чего нужен фото. Robots txt для чего нужен-google obnaruzil fajl robots. картинка Robots txt для чего нужен. картинка google obnaruzil fajl robots

Google обнаружил файл robots.txt на сайте и нашел правила, по которым следует сканировать страницы сайта

Как создать файл robots.txt

С помощью блокнота, Notepad, Sublime, либо любого другого текстового редактора.

В содержании файла должны быть прописаны инструкция User-agent и правило Disallow, к тому же есть еще несколько второстепенных правил.

User-agent — визитка для роботов

User-agent — правило о том, каким роботам необходимо просмотреть инструкции, описанные в файле robots.txt. На данный момент известно 302 поисковых робота. Чтобы не прописывать всех по отдельности, стоит использовать запись:

Robots txt для чего нужен. ctoby ne propisyvat vseh po otdelnosti stoit ispolzovat zapis. Robots txt для чего нужен фото. Robots txt для чего нужен-ctoby ne propisyvat vseh po otdelnosti stoit ispolzovat zapis. картинка Robots txt для чего нужен. картинка ctoby ne propisyvat vseh po otdelnosti stoit ispolzovat zapis

Она говорит о том, что мы указываем правила в robots.txt для всех поисковых роботов.

Для Google главным роботом является Googlebot. Если мы хотим учесть только его, запись в файле будет такой:

Robots txt для чего нужен. dla google glavnym robotom avlaetsa googlebot. Robots txt для чего нужен фото. Robots txt для чего нужен-dla google glavnym robotom avlaetsa googlebot. картинка Robots txt для чего нужен. картинка dla google glavnym robotom avlaetsa googlebot

В этом случае все остальные роботы будут сканировать контент на основании своих директив по обработке пустого файла robots.txt.

Для Yandex главным роботом является. Yandex:

Robots txt для чего нужен. v etom slucae vse ostalnye roboty budut skanirovat kontent na osnovanii svoih direktiv po obrabotke pustogo fajla. Robots txt для чего нужен фото. Robots txt для чего нужен-v etom slucae vse ostalnye roboty budut skanirovat kontent na osnovanii svoih direktiv po obrabotke pustogo fajla. картинка Robots txt для чего нужен. картинка v etom slucae vse ostalnye roboty budut skanirovat kontent na osnovanii svoih direktiv po obrabotke pustogo fajla

Другие специальные роботы:

Disallow — расставляем «кирпичи»

Disallow дает рекомендацию, какую именно информацию не стоит сканировать.

Такая запись открывает для сканирования весь сайт:

Robots txt для чего нужен. takaa zapis otkryvaet dla skanirovania ves sajt. Robots txt для чего нужен фото. Robots txt для чего нужен-takaa zapis otkryvaet dla skanirovania ves sajt. картинка Robots txt для чего нужен. картинка takaa zapis otkryvaet dla skanirovania ves sajt

А эта запись говорит о том, что абсолютно весь контент на сайте запрещен для сканирования:

Robots txt для чего нужен. eta zapis govorit o tom cto absolutno ves kontent na sajte zapresen dla skanirovania. Robots txt для чего нужен фото. Robots txt для чего нужен-eta zapis govorit o tom cto absolutno ves kontent na sajte zapresen dla skanirovania. картинка Robots txt для чего нужен. картинка eta zapis govorit o tom cto absolutno ves kontent na sajte zapresen dla skanirovania

Ее стоит использовать, если сайт находится в процессе доработок, и вы не хотите, чтобы он в нынешнем состоянии засветился в выдаче.

Важно снять это правило, как только сайт будет готов к тому, чтобы его увидели пользователи. К сожалению, об этом забывают многие вебмастера.

Пример. Как прописать правило Disallow, чтобы дать инструкции роботам не просматривать содержимое папки /papka/:

Robots txt для чего нужен. kak propisat pravilo disallow. Robots txt для чего нужен фото. Robots txt для чего нужен-kak propisat pravilo disallow. картинка Robots txt для чего нужен. картинка kak propisat pravilo disallow

Чтобы роботы не сканировали конкретный URL:

Robots txt для чего нужен. ctoby roboty ne skanirovali konkretnyj url. Robots txt для чего нужен фото. Robots txt для чего нужен-ctoby roboty ne skanirovali konkretnyj url. картинка Robots txt для чего нужен. картинка ctoby roboty ne skanirovali konkretnyj url

Чтобы роботы не сканировали конкретный файл:

Robots txt для чего нужен. ctoby roboty ne skanirovali konkretnyj fajl. Robots txt для чего нужен фото. Robots txt для чего нужен-ctoby roboty ne skanirovali konkretnyj fajl. картинка Robots txt для чего нужен. картинка ctoby roboty ne skanirovali konkretnyj fajl

Чтобы роботы не сканировали все файлы определенного разрешения на сайте:

Robots txt для чего нужен. ctoby roboty ne skanirovali vse fajly opredelennogo razresenia na sajte. Robots txt для чего нужен фото. Robots txt для чего нужен-ctoby roboty ne skanirovali vse fajly opredelennogo razresenia na sajte. картинка Robots txt для чего нужен. картинка ctoby roboty ne skanirovali vse fajly opredelennogo razresenia na sajte

Allow — направляем роботов

Allow разрешает сканировать какой-либо файл/директиву/страницу. Допустим, необходимо, чтобы роботы могли посмотреть только страницы, которые начинались бы с /catalog, а весь остальной контент закрыть. В этом случае прописывается следующая комбинация:

Robots txt для чего нужен. allow razresaet skanirovat kakoj libo fajl. Robots txt для чего нужен фото. Robots txt для чего нужен-allow razresaet skanirovat kakoj libo fajl. картинка Robots txt для чего нужен. картинка allow razresaet skanirovat kakoj libo fajl

Правила Allow и Disallow сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для страницы подходит несколько правил, робот выбирает последнее правило в отсортированном списке.

Host — выбираем зеркало сайта

Host — одно из обязательных для robots.txt правил, оно сообщает роботу Яндекса, какое из зеркал сайта стоит учитывать для индексации.

Зеркало сайта — точная или почти точная копия сайта, доступная по разным адресам.

Робот не будет путаться при нахождении зеркал сайта и поймет, что главное зеркало указано в файле robots.txt. Адрес сайта указывается без приставки «https://», но если сайт работает на HTTPS, приставку «https://» указать нужно.

Как необходимо прописать это правило:

Robots txt для чего нужен. obot ne budet putatsa pri nahozdenii zerkal sajta i pojmet cto glavnoe zerkalo ukazano v fajle robots. Robots txt для чего нужен фото. Robots txt для чего нужен-obot ne budet putatsa pri nahozdenii zerkal sajta i pojmet cto glavnoe zerkalo ukazano v fajle robots. картинка Robots txt для чего нужен. картинка obot ne budet putatsa pri nahozdenii zerkal sajta i pojmet cto glavnoe zerkalo ukazano v fajle robots

Пример файла robots.txt, если сайт работает на протоколе HTTPS:

Robots txt для чего нужен. esli sajt rabotaet na protokole https. Robots txt для чего нужен фото. Robots txt для чего нужен-esli sajt rabotaet na protokole https. картинка Robots txt для чего нужен. картинка esli sajt rabotaet na protokole https

Sitemap — медицинская карта сайта

Sitemap сообщает роботам, что все URL сайта, обязательные для индексации, находятся по адресу https://site.ua/sitemap.xml. При каждом обходе робот будет смотреть, какие изменения вносились в этот файл, и быстро освежать информацию о сайте в базах данных поисковой системы.

Инструкция должна быть грамотно вписана в файл:

Robots txt для чего нужен. instrukcia dolzna byt gramotno vpisana v fajl. Robots txt для чего нужен фото. Robots txt для чего нужен-instrukcia dolzna byt gramotno vpisana v fajl. картинка Robots txt для чего нужен. картинка instrukcia dolzna byt gramotno vpisana v fajl

Crawl-delay — секундомер для слабых серверов

Crawl-delay — параметр, с помощью которого можно задать период, через который будут загружаться страницы сайта. Данное правило актуально, если у вас слабый сервер. В таком случае возможны большие задержки при обращении поисковых роботов к страницам сайта. Этот параметр измеряется в секундах.

Robots txt для чего нужен. crawl delay parametr s pomosu kotorogo mozno zadat period cerez kotoryj budut zagruzatsa stranicy sajta. Robots txt для чего нужен фото. Robots txt для чего нужен-crawl delay parametr s pomosu kotorogo mozno zadat period cerez kotoryj budut zagruzatsa stranicy sajta. картинка Robots txt для чего нужен. картинка crawl delay parametr s pomosu kotorogo mozno zadat period cerez kotoryj budut zagruzatsa stranicy sajta

Clean-param — охотник за дублирующимся контентом

Clean-param помогает бороться с get-параметрами для избежания дублирования контента, который может быть доступен по разным динамическим адресам (со знаками вопроса). Такие адреса появляются, если на сайте есть различные сортировки, id сессии и так далее.

Допустим, страница доступна по адресам:

В таком случае файл robots.txt будет выглядеть так:

Robots txt для чего нужен. clean param pomogaet borotsa s get parametrami dla izbezania dublirovania kontenta. Robots txt для чего нужен фото. Robots txt для чего нужен-clean param pomogaet borotsa s get parametrami dla izbezania dublirovania kontenta. картинка Robots txt для чего нужен. картинка clean param pomogaet borotsa s get parametrami dla izbezania dublirovania kontenta

Здесь ref указывает, откуда идет ссылка, поэтому она записывается в самом начале, а уже потом указывается остальная часть адреса.

Но прежде чем перейти к эталонному файлу, необходимо еще узнать о некоторых знаках, которые применяются при написании файла robots.txt.

Символы в robots.txt

С помощью слэша «/» мы показываем, что хотим закрыть от обнаружения роботами. Например, если стоит один слеш в правиле Disallow, мы запрещаем сканировать весь сайт. С помощью двух знаков слэш можно запретить сканирование какой-либо отдельной директории, например: /catalog/.

Такая запись говорит, что мы запрещаем сканировать все содержимое папки catalog, но если мы напишем /catalog, запретим все ссылки на сайте, которые будут начинаться на /catalog.

Звездочка «*» означает любую последовательность символов в файле. Она ставится после каждого правила.

Robots txt для чего нужен. zvezdocka oznacaet lubuu posledovatelnost simvolov v fajle. Robots txt для чего нужен фото. Robots txt для чего нужен-zvezdocka oznacaet lubuu posledovatelnost simvolov v fajle. картинка Robots txt для чего нужен. картинка zvezdocka oznacaet lubuu posledovatelnost simvolov v fajle

Знак доллара «$» ограничивает действия знака звездочки. Если необходимо запретить все содержимое папки catalog, но при этом нельзя запретить урлы, которые содержат /catalog, запись в индексном файле будет такой:

Robots txt для чего нужен. esli neobhodimo zapretit vse soderzimoe papki catalog no pri etom nelza zapretit urly. Robots txt для чего нужен фото. Robots txt для чего нужен-esli neobhodimo zapretit vse soderzimoe papki catalog no pri etom nelza zapretit urly. картинка Robots txt для чего нужен. картинка esli neobhodimo zapretit vse soderzimoe papki catalog no pri etom nelza zapretit urly

Решетка «#» используется для комментариев, которые вебмастер оставляет для себя или других вебмастеров. Робот не будет их учитывать при сканировании сайта.

Robots txt для чего нужен. resetka ispolzuetsa dla kommentariev kotorye vebmaster ostavlaet dla seba ili drugih vebmasterov. Robots txt для чего нужен фото. Robots txt для чего нужен-resetka ispolzuetsa dla kommentariev kotorye vebmaster ostavlaet dla seba ili drugih vebmasterov. картинка Robots txt для чего нужен. картинка resetka ispolzuetsa dla kommentariev kotorye vebmaster ostavlaet dla seba ili drugih vebmasterov

Как выглядит идеальный robots.txt

Такой файл robots.txt можно разместить почти на любом сайте:

Robots txt для чего нужен. takoj fajl robotstxt mozno razmestit pocti na lubom sajte. Robots txt для чего нужен фото. Robots txt для чего нужен-takoj fajl robotstxt mozno razmestit pocti na lubom sajte. картинка Robots txt для чего нужен. картинка takoj fajl robotstxt mozno razmestit pocti na lubom sajte

Файл открывает содержимое сайта для индексирования, прописан хост и указана карта сайта, которая позволит поисковым системам всегда видеть адреса, которые должны быть проиндексированы. Отдельно прописаны правила для Яндекса, так как не все роботы понимают инструкцию Host.

Но не спешите копировать содержимое файл к себе — для каждого сайта должны быть прописаны уникальные правила, которые зависит от типа сайта и CMS. поэтому тут стоит вспомнить все правила при заполнении файла robots.txt.

Как проверить файл robots.txt

Если хотите узнать, правильно ли заполнили файл robots.txt, проверьте его в инструментах вебмастеров Google и Яндекс. Просто введите исходный код файла robots.txt в форму по ссылке и укажите проверяемый сайт.

Как не нужно заполнять файл robots.txt

Часто при заполнении индексного файла допускаются досадные ошибки, причем они связаны с обычной невнимательностью или спешкой. Чуть ниже — чарт ошибок, которые я встречала на практике.

1. Перепутанные инструкции:

Robots txt для чего нужен. pereputannye instrukcii. Robots txt для чего нужен фото. Robots txt для чего нужен-pereputannye instrukcii. картинка Robots txt для чего нужен. картинка pereputannye instrukcii

Robots txt для чего нужен. pravilnyj variant. Robots txt для чего нужен фото. Robots txt для чего нужен-pravilnyj variant. картинка Robots txt для чего нужен. картинка pravilnyj variant

2. Запись нескольких папок/директорий в одной инструкции Disallow:

Robots txt для чего нужен. zapis neskolkih papokdirektorij v odnoj instrukcii. Robots txt для чего нужен фото. Robots txt для чего нужен-zapis neskolkih papokdirektorij v odnoj instrukcii. картинка Robots txt для чего нужен. картинка zapis neskolkih papokdirektorij v odnoj instrukcii

Такая запись может запутать поисковых роботов, они могут не понять, что именно им не следует индексировать: то ли первую папку, то ли последнюю, — поэтому нужно писать каждое правило отдельно.

Robots txt для чего нужен. nuzno pisat kazdoe pravilo otdelno. Robots txt для чего нужен фото. Robots txt для чего нужен-nuzno pisat kazdoe pravilo otdelno. картинка Robots txt для чего нужен. картинка nuzno pisat kazdoe pravilo otdelno

3. Сам файл должен называться только robots.txt, а не Robots.txt, ROBOTS.TXT или как-то иначе.

4. Нельзя оставлять пустым правило User-agent — нужно сказать, какой робот должен учитывать прописанные в файле правила.

5. Лишние знаки в файле (слэши, звездочки).

6. Добавление в файл страниц, которых не должно быть в индексе.

Нестандартное применение robots.txt

Кроме прямых функций индексный файл может стать площадкой для творчества и способом найти новых сотрудников.

Вот сайт, в котором robots.txt сам является маленьким сайтом с рабочими элементами и даже рекламным блоком.

Robots txt для чего нужен. vot sajt v kotorom robotstxt sam avlaetsa malenkim sajtom s rabocimi elementami. Robots txt для чего нужен фото. Robots txt для чего нужен-vot sajt v kotorom robotstxt sam avlaetsa malenkim sajtom s rabocimi elementami. картинка Robots txt для чего нужен. картинка vot sajt v kotorom robotstxt sam avlaetsa malenkim sajtom s rabocimi elementami

Хотите что-то поинтереснее? Ловите ссылку на robots.txt со встроенной игрой и музыкальным сопровождением.

Robots txt для чего нужен. lovite ssylku na robotstxt so vstroennoj igroj i muzykalnym soprovozdeniem. Robots txt для чего нужен фото. Robots txt для чего нужен-lovite ssylku na robotstxt so vstroennoj igroj i muzykalnym soprovozdeniem. картинка Robots txt для чего нужен. картинка lovite ssylku na robotstxt so vstroennoj igroj i muzykalnym soprovozdeniem

Многие бренды используют robots.txt, чтобы еще раз заявить о себе:

Robots txt для чего нужен. mnogie brendy ispolzuut robotstxt ctoby ese raz zaavit o sebe. Robots txt для чего нужен фото. Robots txt для чего нужен-mnogie brendy ispolzuut robotstxt ctoby ese raz zaavit o sebe. картинка Robots txt для чего нужен. картинка mnogie brendy ispolzuut robotstxt ctoby ese raz zaavit o sebe

Robots txt для чего нужен. mnogie brendy ispolzuut. Robots txt для чего нужен фото. Robots txt для чего нужен-mnogie brendy ispolzuut. картинка Robots txt для чего нужен. картинка mnogie brendy ispolzuut

В качестве площадки для поиска специалистов файл используют в основном SEO-агентства. А кто же еще может узнать о его существовании? 🙂

Robots txt для чего нужен. v kacestve plosadki dla poiska specialistov fajl ispolzuut v osnovnom seo agentstva. Robots txt для чего нужен фото. Robots txt для чего нужен-v kacestve plosadki dla poiska specialistov fajl ispolzuut v osnovnom seo agentstva. картинка Robots txt для чего нужен. картинка v kacestve plosadki dla poiska specialistov fajl ispolzuut v osnovnom seo agentstva

А у Google есть специальный файл humans.txt, чтобы вы не допускали мысли о дискриминации специалистов из кожи и мяса.

Robots txt для чего нужен. a u google est specialnyj fajl humanstxt ctoby vy ne dopuskali mysli o diskriminacii specialistov iz kozi i masa. Robots txt для чего нужен фото. Robots txt для чего нужен-a u google est specialnyj fajl humanstxt ctoby vy ne dopuskali mysli o diskriminacii specialistov iz kozi i masa. картинка Robots txt для чего нужен. картинка a u google est specialnyj fajl humanstxt ctoby vy ne dopuskali mysli o diskriminacii specialistov iz kozi i masa

Когда у вебмастера появляется достаточно свободного времени, он часто тратит его на модернизацию robots.txt:

Robots txt для чего нужен. kogda u vebmastera poavlaetsa dostatocno svobodnogo vremeni on casto tratit ego na modernizaciu. Robots txt для чего нужен фото. Robots txt для чего нужен-kogda u vebmastera poavlaetsa dostatocno svobodnogo vremeni on casto tratit ego na modernizaciu. картинка Robots txt для чего нужен. картинка kogda u vebmastera poavlaetsa dostatocno svobodnogo vremeni on casto tratit ego na modernizaciu

Хотите, чтобы все страницы вашего сайта заходили в индекс быстро? Мы выберем для вас оптимальную стратегию SEO-продвижения:

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *