Robots txt и sitemap xml что это

Файлы индексации: robots.txt и sitemap.xml — почему они так важны?

Robots txt и sitemap xml что это. articles557. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-articles557. картинка Robots txt и sitemap xml что это. картинка articles557

Чтобы покупатели могли найти ваш магазин в поисковых системах, он должен быть проиндексирован, т. е. программа-робот последовательно загрузит все страницы вашего сайта, проанализирует их и включит в поисковую выдачу.

Именно здесь и понадобится файл robots.txt — своеобразная инструкция, которая запрещает или разрешает роботу индексировать или не индексировать страницы определенным образом. Если такого файла на сайте нет, робот считает, что все содержимое сайта вы разрешаете просматривать и индексировать. А это опасно. Если не «спрятать» от робота папки и файлы административной части сайта, то магазин становится потенциально уязвим для хакерских атак. Усильте безопасность своих покупателей и своего бизнеса простым добавлением файла robots.txt.

Составление файла — достаточно простой и быстрый процесс для веб-мастера. Однако важно соблюсти правильный синтаксис, чтобы все команды, даваемые роботу, понимались им верно. Поэтому доверьте эту работу своему оптимизатору либо воспользуйтесь инструментами-помощниками, если вы решили сделать robots.txt самостоятельно.

Создание robots.txt вручную

Robots txt и sitemap xml что это. articles558. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-articles558. картинка Robots txt и sitemap xml что это. картинка articles558

Автоматическое создание robots.txt

http://pr-cy.ru/robots/ — популярный инструмент для автоматического формирования файла.

Работа над ошибками

Инструмент от Яндекса: http://webmaster.yandex.ru/robots.xml#results — здесь можно проанализировать созданный файл и исправить возможные ошибки.

sitemap.xml своими руками

Файл sitemap.xml содержит список всех страниц сайта, подлежащих индексации. Казалось бы, поисковой робот должен самостоятельно найти все страницы, которые не спрятаны от него в robots.txt, но… Некоторые сайты (в том числе интернет-магазины) содержат большое количество динамических страниц, а некоторые находятся глубоко в структуре сайта, и робот может их не найти, если будет последовательно переходить с одной внутренней ссылки на другую.

Чтобы ничего не потерялось и не было упущено роботом, составляется карта сайта. Также она содержит ценные инструкции для роботов по частоте обновления страниц и их поисковой ценности (самые важные страницы будут проиндексированы в первую очередь). Кстати, именно в файле robots.txt необходимо указывать путь к директории, где лежит карта.

Автоматическое создание sitemap.xml

Много онлайн-сервисов автоматически формируют карту сайта, но не все из них бесплатные. Здесь http://www.cy-pr.com/tools/sitemap/ вы можете создать sitemap.xml быстро, надежно и абсолютно бесплатно.

Работа над ошибками

Robots txt и sitemap xml что это. articles559. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-articles559. картинка Robots txt и sitemap xml что это. картинка articles559

Хочу все сразу!

Если вы не хотите тратить время своего веб-мастера на эту задачу, если вы хотите быть уверены, что все сделано правильно, с соблюдением стандартов и специфики вашего магазина, закажите у нас услугу SEO-старт. Специалисты Shop2you выполнят всю работу, а вы сможете сосредоточиться только на ведении бизнеса.

Обратите внимание, что SEO-старт — это комплексный пакет, в который включено не только создание файлов для роботов, но и другие жизненно важные для продвижения услуги: подбор ключевых слов, оптимизация заголовков и мета-тэгов, базовое продвижение в соцсетях, написание статей и др. Таким образом, вы получите не разрозненный набор выполненных задач, а целенаправленный комплекс начального продвижения.

Источник

Директива Sitemap: как правильно использовать

Директива Sitemap в robots.txt – это ссылка на файл Sitemap, в котором собраны все страницы сайта для индексирования. Она позволяет сообщить роботу поисковой системы о наличии карты сайта, указать путь к XML файлу и начать индексировать его.

Указывать расположение файла Sitemap.XML необходимо, если для описания структуры ресурса используется карта сайта. Их может быть несколько, тогда нужно прописать их все.

Пример файла Robots с указанием пути к Sitemap:

Пример robots.txt с указанием нескольких адресов карты сайта:

Правило Sitemap является межсекционным, а это значит, что поисковый бот будет использовать директиву независимо от того, где она прописана в файле robots.txt.

Можно данную директиву Sitemap прописывать и через пустую строку. Пример:

Робот запомнит указанное расположение файла, обработает информацию и начнет применять результаты с того момента, когда снова будет формировать сессии загрузки.

Указание Sitemap рекомендуется использовать в Robots.txt, потому что им активно пользуются Google, Яндекс. Если вы не указываете данную директиву, то в Яндекс Вебмастер отображается предупреждение об этом.

Robots txt и sitemap xml что это. robots txt sitemap. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-robots txt sitemap. картинка Robots txt и sitemap xml что это. картинка robots txt sitemap

Я всегда стараюсь следить за актуальностью информации на сайте, но могу пропустить ошибки, поэтому буду благодарен, если вы на них укажете. Если вы нашли ошибку или опечатку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Источник

Как создать robots и sitemap

Robots txt и sitemap xml что это. robots mybabki.ru. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-robots mybabki.ru. картинка Robots txt и sitemap xml что это. картинка robots mybabki.ruВ этой статье вы узнаете, как создавать robots.txt и sitemap.xml (карту сайта). Вот только прежде, чем начать что-то создавать, нужно в первую очередь понять, что же это такое и для чего оно вообще нужно? И хотя некоторые сеошники утверждают, что в последние годы файл robots.txt в принципе и не нужен, потому что поисковые роботы прекрасно обходятся и без него. Я же предпочитаю, ограничивать ранжирование моих файлов. Боту всё равно, что индексировать, а вот мне нет.

В общем, решайте сами создавать его вам или нет. В любом случае моя статья вам пригодится, даже в плане обучения и саморазвития. Потому что такие вещи вы должны знать.

Так что поехали разбираться сначала с robots, потом с картой сайта…

Что такое robots txt

Итак, robots.txt — это txt файл, а не то техническое создание, которое многие привыкли ассоциировать с этим словом. Размер файла должен быть не более: для Google- 500 кб, для Яндекс- 32 кб. В случае превышения этих размеров поисковые роботы будут просто игнорировать его. Создаётся он в текстовом редакторе, например Notepad++. Я предполагаю, что вы уже знакомы с этим редактором, раз уж дошли до этого этапа. Нет, можно конечно и в любом текстовом, но Notepad++ намного удобнее. Затем после создания этот файл сохраняется в корне сайта. И находиться он будет по пути:

Далее поисковые роботы, проводя индексацию сайта первым делом будут искать его и проверять. А там у нас указаны правила для них, куда им можно сунуть свой нос, а куда нельзя. Проще говоря, в этом документе указано какой файл можно или нельзя показывать обозревателям.

Да-да, не всё нужно открывать для роботов поисковиков, иначе они проиндексируют ваши данные и выставят в поисковую систему, тем самым раскрыв для всех как вашу личную информацию, так и информацию ваших подписчиков. Вот поэтому нужно правильно составлять файл robots.

Что запрещать индексировать поисковым роботам:

Вот чтобы не случилось непоправимого нужно запретить им посещать некоторые разделы и директории сайта. А именно:

Далее наблюдая за развитием и работой вашего проекта вы уже сами сможете вносить изменения в этот файл. Например, что-то открыть или закрыть для индексации.

И теперь можно переходить непосредственно к созданию robots.

Как создать robots txt

Мы не станем зарываться в глубокие технические дебри, оставим это для технарей-сеошников, а разберёмся с теми основами, что необходимо знать для создания файла robots.txt и которых вам будет вполне достаточно для работы. Естественно, если у вас возникнет желание изучить эту тему более глубоко и подробно, то дерзайте, это даже полезно. Но наша статья посвящена другой теме, поэтому не станем отвлекаться.

Важные аспекты!

И дальше- это уже дело техники. В Notead++ создаём новый документ, обзываем robots.txt, сохраняем. Теперь вносим в него нужные правила. Чтобы вас не путать, я подготовила готовый шаблон, который можно скопировать и вставить в свой файл. Не забудьте только вставить своё доменное имя вместо надписи «ваш домен«. Закидываем его в корень сайта. Через какое-то время заявятся поисковые роботы и начнут копаться в ваших файлах. Вот только процесс этот длительный они могут прийти через пару недель или даже месяцев. В общем копируйте и вставляйте.

Шаблон файла robots.txt

Строку Allow: /wp-admin/admin-ajax.php удалять или запрещать не стоит, так как её задействуют некоторые плагины при загрузке скриптов и кодов. В отсутствии к ней доступа может отказать работа этих плагинов. Это вам так на всякий случай предупреждение, если вдруг вас смутит расположение этой директивы в админке. Для гуглбота разрешено почти всё, кроме админки. Стоит закрыть ему доступ он начинает выносить мозг сообщениями об ошибках, особенно если работаете с рекламой Google Adsense.

Вы, наверное, уже заметили, что в файле роботс используются:

две директивы: Disallow (запретить) и Allow (разрешить)

Так что разобраться в нём достаточно просто.

Как создать robots txt с помощью плагина

Многие создают файл через плагин. В этом случае текстовый файл не нужен, чтобы они между собой не конфликтовали его стоить удалить из корня сайта, если он уже там имеется. Ставим плагин All in One Seo (после обновления AIOSEO) и с его помощью создаём robots. Рекомендую этот плагин установить в любом случае, не зависимо от того как вы будете создавать роботс, потому что в дальнейшем он нам всё равно понадобится. Как устанавливать и активировать плагины я надеюсь вы помните, тем более, что он не первый, который мы с вами ставим. Ну, а если кто вдруг запамятовал, то смотрите здесь. После установки переходим во вкладку слева в меню «All in One Seo»—>»Инструменты» и настраиваем.

Robots txt и sitemap xml что это. sozdanie robots.txt v plagine. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-sozdanie robots.txt v plagine. картинка Robots txt и sitemap xml что это. картинка sozdanie robots.txt v plagine

Если честно, то как по мне, так лучше создавать этот файл вручную. Это надёжнее и точнее, да к тому же и возни меньше. К тому же плагины постоянно обновляются и не факт, что обновление установится корректно, а это может нечаянно нарушить какую-нибудь функцию в его работе, что может плохо отразится на robots, а он должен быть постоянным. Так что думайте сами, как вам удобнее.

Вот в принципе и всё, что вам пока нужно знать о файле robots.txt. И теперь давайте разберёмся с Sitemap.xml

Что такое Sitemap xml

Ну так вот, Sitemap — это карта вашего сайта, своеобразный путеводитель, созданный для поисковых роботов. Она сообщает поисковым роботам по каким ссылкам можно найти важные страницы сайта, чтобы они их проиндексировали. По техническим параметрам — это файл в формате xml, содержащий перечень ссылок всех страниц вашего сайта. И выглядит он вот так:

Robots txt и sitemap xml что это. karta saita. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-karta saita. картинка Robots txt и sitemap xml что это. картинка karta saita

В таком файле может содержаться не более 50000 ссылок. Поэтому, если ваш сайт достаточно большой вам придётся разбить карту на несколько файлов.

Как создать Sitemap xml

Файл Sitemap.xml можно создать и вручную, и автоматически. И вот в этом случае гораздо удобнее его сделать с помощью плагина. Почему? Да потому что в сайте может быть огромное количество страниц и вручную всё это писать замучаешься. И к тому же в отличие от роботс файла с картой сайта плагины справляются намного корректнее.

Для создания карты сайта будем пользоваться плагином XML Sitemap. В All in One Seo тоже есть такая функция, но после обновления этого плагина до AIOSEO сервисы вебмастер некоторых поисковых систем выдают сообщения об ошибках в этом файле и это не хорошо. А вот с XML Sitemap работают без ошибок. Итак, устанавливаем и активируем этот плагин.

Robots txt и sitemap xml что это. plagin xml sitemap. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-plagin xml sitemap. картинка Robots txt и sitemap xml что это. картинка plagin xml sitemap

Robots txt и sitemap xml что это. nastroika plagina xml sitemap. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-nastroika plagina xml sitemap. картинка Robots txt и sitemap xml что это. картинка nastroika plagina xml sitemap Выставляем нужные галочки, как на скриншотах, остальные оставляем как есть.

Robots txt и sitemap xml что это. bazovaya nastroika plagina xml sitemap. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-bazovaya nastroika plagina xml sitemap. картинка Robots txt и sitemap xml что это. картинка bazovaya nastroika plagina xml sitemap

Robots txt и sitemap xml что это. nastroiki v plagine xml sitemap. Robots txt и sitemap xml что это фото. Robots txt и sitemap xml что это-nastroiki v plagine xml sitemap. картинка Robots txt и sitemap xml что это. картинка nastroiki v plagine xml sitemap

Не забываем обновить параметры и пожалуйста карта сайта сгенерирована. Можете посмотреть её:

Источник

Делаем правильный robots.txt и sitemap.xml

Задача состоит в том, чтобы запретить некоторые каталоги для индексации поисковым системам, для того, чтобы избавится от дублированного контента. Например, на одну и ту же статью можно попасть как с /tag/ так и с /category/.

Почему дублирующийся контент это плохо?

Воспользуйтесь поиском от Google или Яндекс и вы найдете море информации по этой теме.

Robots.txt

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Вот еще эксперименты Дениса Болтикова по идеальному роботсу для WordPress: Идеальный robots.txt для WordPress и Идеальный robots.txt для WordPress — 2.

Мой Robots.txt

Так вот выглядит мой роботс:

Я разрешил поисковым ботам индексировать меня только по «Тегам» и «Архиву». Обратите внимание, я использую маску /wp-, для того чтобы URL’ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow).

Также я разрешил индексировать мой «/wp-content/uploads/» для сервисов «Яндекс.Картинки» и «Google Картинки», так как там хранятся в основном картинки. И расшарил файл «sitemap.xml» для лучшей индексации.

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:

Sitemaps

Так же следует не забыть о файле sitemap.xml

Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации. Sitemaps может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

Сайтмап не обязателен и поисковые системы не гарантируют его использование, он лишь помогает поисковым ботам проводить индексацию, однако я считаю что это очень полезным!

Центры веб-мастеров Google и Яндекс

Для ускорения индексации рекомендуется оповестить Google и Яндекс о ваших файлах robots.txt и sitemap.xml, для этого существуют специальные сервисы:

Использование http-пингов для уведомления поисковых систем о обновлениях в sitemaps

Можно указать поисковым системам местонахождение файла Sitemap при помощи HTTP-запроса:

Где необходимо заменить на полный URL файла Sitemap. Например, чтобы добавить файл http://www.example.com/sitemap.xml в поисковик Google, нужно отправить HTTP-запрос http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.example.com/sitemap.xml .

Google не рекомендует чаще чем раз в час его пинговать, вот пруфлинк.

Уф, наконец-то и я сподобился сделать себе сайтмап. Спасибо за ссылку на плагин.

в таком случает прописывать ли путь к sitemap и Yandex тоже?
Нет, достаточно один раз прописать. Вы можете проверить robots.txt в центре веб-мастеров Яндекса и если прикрепиться сайтмат, то все работает нормально.

Лично я для Яши ничего не прописывал дополнительно, работает все хорошо!

Я тоже таким образом делал примерное, хотя в некоторых случаях разбивал на поисковые боты. Недавно встретил сервис проверки на валидность и он показал кучу ошибок именно в

И еще allow считается неправильным выражением. По крайней мере читал об этом несколько раз.
А сервис проверки на валидность привожу
http://tool.motoricerca.info/robots-checker.phtml

Advent, ага ругается, спасибо, буду изучать сервис 🙂

Добрый день. Я разобрался почему оно ругается. Дело в том, что это чекер указывает на то что символ * относится, как бы к именным поисковым ботам,то есть тем которые переваривают эту фишку. К таким системам относится гугл и яндекс.Тоже самое и с кодом allow. То есть по существу заданные параметры отвечают как гуглеботу, так и яндексу. Остается занозой внедрение гуглом нового алгоритма индексирования nofolow. По сути наверняка плагин сео, теперь нельзя использовать с nofolow, а рубить ненужные страницы в роботсе.тхт, как это сделано на примере, добавляя при необходимости все что является тормозом.

Угу, спасибо за информацию, полезно!

А почему ты выбрал индесацию по тэгам и архиву и закрыл по страницам и категориям?

Потомучто надо было один источник, а теги наиболее тематичны на мой взгляд

да, но как раз с тэгов получается море ссылок на одни и те же страницы.

Хм, не подумал сначала, думаю потом на категории переправлю )

я тут с роботсом занятную штуку увидел, куда бы не заходил на блоге постоянные ссылки на конкретную страницу и из архивов и из категорий, а при попытке зайти через категорию например адрес переписывается на стандартный. Что-то мне подсказывает, что при установке ЧПУ вся возня с запретами в роботсе не нужна никому.

Спасибо, за пост! Пост очень помог с создание robots.txt

Столкнулся с проблемой, мне нужно запретить проход поисковых ботов по счётчикам скачиваний файлов, можно ли через роботс это сделать?

Что такое «счётчикам скачиваний файлов»? У них есть URL?

Вообще я бы закрывал для индексации тела статей в списке, а оставлял только названия и ссылки на отдельную страницу.

Спасиб. Закрыл через плагин SEO все-в-одном рубрики, архивы и теги. Надеюсь этого должно хватить.

Не, вернул рубрики назад, они мне нужны. Подскажите, каким образом можно закрыть именно «тела статей в списке рубрики»?

noindex/nofollow не подходит?

Нашла такой перечень:

но валидатор robots.txt ругается на все строки кроме карты сайта. почему?

Привет. Я добавил в Яндекс сайт и в корень своего сайта файл robots.txt, но мой сайт так и не проиндексирован в Яндексе и Гугле. Почему? Как заставить поисковиков Google и Яндекс проиндексировать мои сайты? Так чтобы они попали в поисковики и чтобы было ТИЦ 50 PR 15.

В статье описано как. Читайте «Центры веб-мастеров Google и Яндекс»

Adw0rd, а где это? В Яндексе?

По ссылке «Яндекс.Вебмастер» перешли?

Да, adw0rd. И что мне теперь делать? Вот мои сайты:
http://*/. Это сайт с бесплатными играми, программами и фильмами для скачивания.
http://
/. Это сайт с кулинарными рецептами добавленными посетителями в блог.
Но эти сайты НЕ проиндексированы. 🙁 Я уже жду, жду, но результат нулевой. Что делать?

http://help.yandex.ru/webmaster/?id=995306 надеюсь после этого у вас не будет вопросов

Я когда пытаюсь в Яндексе сообщить о новом сайте, мне в ответ выдают ошибку вот какую: «Указанный URL запрещен к индексации. Подробнее о запрете на индексацию вы можете прочитать в FAQ». Почему так? Что делать?

А факу пробовали читать? Наверняка с юкозов всяких нельзя добавлять.

Я ещё хочу чтобы туда сайты принимали и с бесплатных хостингов!

Но там в помощи как создать сайт было вот что написано:
«Чтобы сайт появился в поиске Яндекса, робот должен проиндексировать его. Если на ваш сайт есть ссылки с других (чужих) сайтов, то специально добавлять сайт не требуется — он автоматически будет найден и, скорее всего, проиндексирован. Если ссылок на ваш сайт еще нет, вы можете воспользоваться формой «Сообщить о новом сайте», чтобы сообщить роботу о существовании сайта. Также сообщить о новом сайте можно через добавление его в разделе в «Мои сайты». Обратите внимание — добавление URL не гарантирует, что сайт будет проиндексирован или проиндексирован быстро».

А что должно быть в роботе, ну в файле robots.txt? Сайты мои и страницы которые робот должен проиндексировать?

Там должны быть правила индексации для текущего сайта.
http://ru.wikipedia.org/wiki/Robots.txt

А есть ли средство автоматизации пингов для уведомления поисковиков?
Google XML Sitemaps для WordPress уведомляет Gooogle и Bing. Как быть с остальными?

Я для уведомления Яндекса юзаю его сервис Яндекс.Вебмастер, он сам забирает мой сайтмап. Плагинов для wp я не втречал и не искал. Но думаю такие есть, там его делать то 5 минут

Где? Вы сначала почитайте что такое sitemap.xml.

Привет. Я вот ещё добавил в свой сайт файл robots.txt С таким содержимым:

Но мне всё равно выдают вот какую ошибку: «Указанный URL запрещен к индексации.
Подробнее о запрете на индексацию вы можете прочитать в FAQ». А там в запрете на индексирование сайта там написано:
«Индексирование сайта может быть запрещено либо по причинам технического характера (страницы содержат ошибки и их содержимое невозможно корректно проиндексировать или индексирование сайта запрещено в файле robots.txt) либо за использование недобросовестных приемов продвижения сайтов в поисковых системах (поисковый спам)».
Как эту проблему устранить? Я ещё хочу чтобы туда принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz!

Тут вы можете проверить синтаксис http://webmaster.yandex.ru/robots.xml, это единственно что я вам могу посоветовать, остальное вы сами решаете надо индексировать или нет.

Если вы вообще ничего в этом не понимаете, а именно такое мнение сложилось, то тщательно погуглите и найдите ответы на вопросы. После чего проанализируйте ответы, все обдумайте и тогда можете еще что-то написать в камменты.

Как эту проблему устранить? Я ещё хочу чтобы туда принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz!

Ну всё правильно. Вот роботс так выглядит:

А ошибку всё равно выдаёт. Может там ещё чего-то не хватает? Может ещё не хватает файла sitemap.xml?

Может. Не пробовали указывать один раз сайтмап?

Пока нет. А этот файл можно скачать?

Саша Ярош, да, по вашей же ссылке

Аааа. Ну понятно. Но сейчас я вот какую ссылку добавлял: http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=mrjaroshfiles.at.ua. Но мне пишут вот что: «Сервер возвращает код статуса http 403 (ожидался код 200)». Что это значит? Опять ошибку выдаёт или что?

Ааааа. Там в Википедии там где эти коды там я понял что обозначает код ошибки 403:

Сервер понял запрос, но он отказывается его выполнять из-за ограничений в доступе со стороны клиента к указанному ресурсу.

Если для доступа к ресурсу требуется аутентификация средствами HTTP, то сервер вернёт ответ 401 (или 407 для прокси). В противном случае ограничения были заданы администратором сервера или разработчиком веб-приложения и могут быть любыми в зависимости от возможностей используемого ПО.

В любом случае клиенту следует сообщить причины отказа в обработке запроса.

Наиболее вероятными причинами ограничения могут послужить:

Для доступа требуется аутентификация не средствами HTTP (например, для доступа к CMS или разделу для зарегистрированных пользователей).

Сервер не удовлетворён IP-адресом клиента (например, временная блокировка из-за частых обращений или же на этапе разработки приложения доступ разрешён только некоторым IP)».

Успешный запрос ресурса. Если клиентом были запрошены какие-либо данные, то они находятся в заголовке и/или теле сообщения».

А я всё-таки хочу чтобы мои сайты проиндексировали. И ещё хочу чтобы принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz! И я ещё хочу сделать такие показатели своего сайта как ТИЦ 1500 PR 13. Как мне это сделать? Ответьте кто-нибудь пожалуйста?

Саша Ярош, пожалуйста перестаньте писать сюда. Проблемы тут ваши не решаться, это не сео-форум.

2 Саша Ярош
Красавец! PR равный 13-ти! Для тебя будет легче поработить вселенную!

2 adw0rd
Прошу ответить на мой вопрос, если не сложно. Как автоматизировать уведомление Яндекс’а новом sitemap.xml с помощью http-пинга?

Сергей, у меня показатели сайта mrjaroshfiles.at.ua тИЦ 0 PR 2. А у сайта 400receptow.ucoz.ua тИЦ 0 PR 0.

Саша Ярош, pr больше 10 не бывает. Вы задолбали задавать глупые вопросы, еще раз прошу сначала погуглить обо всех материалах, а потом говорить/спрашивать.

Сергей Дорохин, я вам уже отвечал

Я для уведомления Яндекса юзаю его сервис Яндекс.Вебмастер, он сам забирает мой сайтмап. Плагинов для wp я не втречал и не искал. Но думаю такие есть, там его делать то 5 минут

Adw0rd, а что означает погуглить? Как это сделать?

Саша Ярош, вы издеваетесь? Погуглить

А как сделать файл Sitemap_list.xml? Как он выглядит? Что там в нём есть?

Я не знаю что такое «Sitemap_list.xml».

Adw0rd, это я имел в виду «Sitemap.xml». Так что там должно быть? Ну чтобы я мог сообщить о новом сайте в Яндексе.

А то вместо того чтобы сообщить о новом сайте мне ошибку выдают такую: «Сервер возвращает код статуса http 403 (ожидался код 200)».

Я в статье давал ссылку на http://ru.wikipedia.org/wiki/Sitemaps, читайте внимательно.

С помощью программы Xenu ты просканируешь свой сайт, а потом создашь этот sitemap.xml

Сашок! читай документацию, википедию, статьи всякие, пользуй поиск, не доставай людей!

Серёжа, это прога Xenu она на английском языке. Я английского НЕ понимаю. Можешь дать мне русификатор программы Xenu или другую выбрать по сканированию сайта? Только на русском языке!

Саша, я объясню. Если хочешь стать специалистом, сначала читаешь книги, статьи, блоги, форумы по теме. Терпишь и читаешь, пытаешься САМ ПОНЯТЬ ОСНОВЫ. А уж потом спрашиваешь у людей. Дилетанты отпугивают, ответа ты не получишь, пока не пройдешь начальную школу. Умываю руки.

Потому что никому не охота помогать тому, кто не хочет сам себе помочь.
Я снова солидарен с вами Сергей.

Ой б%№дь. Ну хорошо. Я найду другую прогу по сканированию сайта. Но такую которая только на русском языке. Я английского НЕ понимаю.

Привет. Так должен выглядеть файл robots.txt? Вот он:

main section

End of main section

sitemap section

User-agent: Yandex
Allow: /
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml

end of sitema section

Но когда я запускаю под браузером интернета, мне оно выдаёт ошибку. Почему?

Саша Ярош, думаю, Вам лучше заказать сайт у людей, которые разбираются в сайтостроении. Т.к. похоже, что Вы не хотите разбираться сами, а ждете что Вам бесплатно сделают конфетку под все ваши требования и сразу с PR = 100 :)))).

adw0rd, от оповещений на e-mail отписалась, но ваш сайт внесла в закладки

Если я сообщу роботу поисковых систем о новом сайте, то через сколько дней мои сайты проиндексируются?

Да, сообщите Гуглу и Яндексу. На практике блог из 50 страниц индексируется неделю-две.

Я уже сообщал. И что теперь?

Саша Ярош, пить чай с плюшками и ждать великого дня.

Тогда обратите внимание на предложение VRS 🙂

Это никнейм, смотрите камменты выше!
Только не говорите что не знаете что такое «никнейм» и «камменты», вы уже знаете что такое «гуглить» и сможеть нагуглить новые для вас слова.

Привет. Если робот Яндекса проиндексирует все мои страницы сайта, то повыситься от этого тИЦ и PR?

тИЦ и PR нужен для того чтобы мои сайты находились в поисковиках Яндекс и Google. У вас ежедневное посещение более 400 уников. А как у вас это произошло?

Вы задаете глупые вопросы, ответы на которые давно даны специально для новичков. Научитесь пользоваться поиском.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /.js$
Disallow: /
.inc$
Disallow: /.css$
Disallow: /
?*
Disallow: /?*
Disallow: /trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /comments
Disallow: */comments
Disallow: /category
Disallow: /page
Disallow: */
?replytocom*
Disallow: /search

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /.js$
Disallow: /
.inc$
Disallow: /.css$
Disallow: /
?*
Disallow: /?*
Disallow: /trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /comments
Disallow: */comments
Disallow: /category
Disallow: /page
Disallow: */
?replytocom*
Disallow: /search
Host: домен

Как самому проиндексировать сайт в Яндексе бесплатно?

Боюсь попасть в одну мусорку с Ярошем, но все-таки обрисую ситуевину и попрошу совета.

Есть сайт: бесплатный хостинг, домен третьего уровня, блог Вордпресс. ЧПУ включены (само собой, хочется человеческих ссылок).
В canonical.php добавлена директива на запрет неправильных редиректов (нагуглил в десяти источниках, так что вроде не брехня) и, соответственно, перепроверен основной адрес в настройках Вордпресс.
Роботс.тхт составлен по вышеупомянутым правилам (открытыми я оставил именно диретории, в остальном отличий почти нет). Один раз упомянут sitemap.xml (автоматически создается плагином).

Собственно вопрос: неужели нужно ждать еще один-два (или еще десяток) апа ТИЦ/выдачи, чтобы Яша наконец разглядел и проиндексировал сайт в соотвествии с картой сайта и Роботс.тхт, которые ему так понравились?
Сами Гугл и Яндекс уже не знают, что мне ответить.

Дополнительный момент касательно блога автора: здесь, как и в многих других стандалонах, нельзя подписаться своим блогом (просто не хочется быть совсем Анонимусом). Это какая-то фишка ВП, или я просто не нагуглил такого плагина?

гляньте тут: http://kiev-security.org.ua/sitemap.htm

Forbidden You don’t have permission to access /sitemap.htm on this server.

Заранее извиняюсь, но паре десятков людей может помочь мой случай, разрешившийся тяжелыми родами недавно:

На свои вопросы я получил примерно такой ответ: «Извините, но домен содержит в себе много доменов третьего уровня, на которых расположены дорвеи и прочие нехорошие сайты. ПОПРОСИТЕ вашего хостера, раз уж вы пользуетесь его доменным именем, убрать все дорвеи со своих доменов, и ТОГДА мы разблокируем megabyet.net и все домены в этой группе, и не будет появляться 403 ошибка.»

От така *ня, малята! © Простите, не сдержался. Просто представил, как я буду уговаривать своего финского хостера уничтожить часть сайтов ради меня и Яши.

То, что надо! Вот только нужно отправлять файл sitemap часто (но не чаще одного раза в час) или только единожды?

Я изменяю часто и отправляю тоже часто (пингую только гугл).
То есть, например я публикую 20 записей, то в течении 20 минут я каждую минуту пингую гугл. И когда я так начал делать, гугл только еще больше полюбил меня и стал чаще индексировать 🙂 Этот пример касается проект http://kinsburg.ru/, вы можете посмотреть его sitemap.

я пытался добавить свой сайт в яндекс а он мне выдал что типо не индексирует из за заперта роботом но я вообще этот робот не добавлял, но яндекс он почему то находит. и действительно там роботс написан так что запрещает индексировать весь сайт всеми коталогами. что это ваще такое и что делать теперь?

Погуглите в факу юкоза или спросите в их техподержке

andrej, сайт покажи

User-agent: *
Disallow: /engine/go.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /subaction=userinfo
Disallow: /
subaction=newposts
Disallow: /do=lastcomments
Disallow: /
do=feedback
Disallow: /do=register
Disallow: /
do=lostpassword
Disallow: /do=addnews
Disallow: /
do=stats
Disallow: /*do=pm

Sitemap: http://home-center74.ru/sitemap.xml
Вопрос это для Dle немагу понять прочитал много и вывот всёжи не зделал чтоб яша и гугол тебя хорошо скан7ировали что нужно для этого или дайте что надо добавить к ниму.

Здравствуйте! правильно ли я создал robots.txt??

User-agent: *
Sitemap: http://www.gt-light.ru/sitemap.xml
Allow: /office.html
Allow: /index.html
Allow: /product.html
Allow: /doc.html
Allow: /contact.html
Allow: /
Allow: /street.html
Allow: /jkx.html
Allow: /link.html
Allow: /contact2.html
Allow: /send.php

http://www.gt-light.ru/
2011-04-01T08:38:30+00:00
always
1.00

http://www.gt-light.ru/product.html
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/link.html
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/contact.html
2011-04-01T08:37:06+00:00
always
0.80

http://www.gt-light.ru/Links/life.html
2011-03-22T19:21:49+00:00
always
0.80

http://www.gt-light.ru/Link.html
2011-03-22T19:21:49+00:00
always
0.80

http://www.gt-light.ru/office.html
2011-04-01T08:36:16+00:00
always
0.64

http://www.gt-light.ru/jkx.html
2011-04-01T08:34:35+00:00
always
0.64

http://www.gt-light.ru/street.html
2011-04-01T08:35:17+00:00
always
0.64

http://www.gt-light.ru/contact2.html
2011-03-26T14:47:26+00:00
always
0.64

http://www.gt-light.ru/office.pdf
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/street.pdf
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/jkx.pdf
2011-03-21T07:00:53+00:00
always
0.51

Спасибо с статейку, я как раз щас это в оптимизации сайта своего делаю!

спасибо за статью но для яндекса запрос
http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=
не работает

Я перешел по этой ссылке и меня средиректило на http://webmaster.yandex.ru/site/map.xml?host=, видимо теперь это правильный URL, но так как там есть редирект, то смысла пока не вижу переписывать, так как ещё может поменяться не раз 🙂

Я профессионально занимаюсь SEO-обучением http://seo-obuchenie.ru/ (смотри здесь) и продвижением сайтов http://prodvizhenie-saytov.ru/ (смотри здесь), поэтому приходится помнить все тонкости создания robots.txt.

У Вас есть ошибка в посте и одна ненужная строка в robots.txt, так как в данном виде директива Allow не выполнится. К тому же эту директиву изначально поддерживал только Яндекс.

Если
Allow: /wp-content/uploads/
стоит после
Disallow: /wp-
, то выполнится именно первая сверху(!) дирректива, а Allow: /wp-content/uploads/ не выполнится. Приоритет у вышестоящих записей.

Поэтому и в своем robots.txt просто поменяйте их местами.

С уважением, Николай.

P.S. На другие сообщения отвечать не стал, так как их очень много, но почти во всех примерах есть масса ошибок в составлении robots.txt.

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /?sl
Disallow: /index.php?*
Disallow: .pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /
rss.html
Disallow: /*atom.html
Host: ads-74.ru
Sitemap: http://ads-74.ru/sitemap.xml

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /?sl
Disallow: /index.php?*
Disallow: .pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /
rss.html
Disallow: /*atom.html

Использую компонент Xmap (Joomla2.5). После настройки беру со строки браузера ссылку (http://filter-tver.com/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1&filter_showexcluded=1) и заношу её в robot.txt (Sitemap: http://filter-tver.com/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1&filter_showexcluded=1)
В результате:
— «Валидатор файлов Sitemap» (на яндексе) пишет:
Результаты проверки
Произошла внутренняя ошибка. Попробуйте повторить попытку позже.Превышено время ожидания ответа.
Не удалось загрузить Sitemap
Не удалось загрузить указанный файл
— Гугл пишет:
При попытке доступа к вашему файлу Sitemap произошла ошибка. Убедитесь, что этот файл Sitemap соответствует нашимправилам и находится в указанном местоположении, а затем отправьте его повторно.
Что я делаю не правильно?

Ну может им не нравится скорость с которой генерируется sitemap? Ничего другого подозрительного я не увидел

Это не ошибка. Вы сами запретили:

Добрый день)
Очень нужна ваша помощь).
Сейчас разработку портала.
Нам нужно придумать модуль управления robots.txt в связке с sitemap.xml.
Необходимо описание данного модуля и возможности.

Вот с описанием данного модуля и его возможностями проблемка ((, сможете помочь за оплату.
Также хотелось бы у вас проконсультироваться, что лучше всего включать в ленту RSS.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *