Unknown robot что это

Как мы отфильтровали ботов и понизили показатель отказов с 90% до 42%

Несколько месяцев назад у нас сильно вырос показатель отказов по Google Analytics. Мы сделали стандартный набор действий, который рекомендуют делать в Сети: создали в аналитике представление «без пауков и ботов» (настройка «Фильтрация роботов» в представлении), проверили качество настройки кода Analytics, проверили и настроили длительность сессии и так далее. Все это заняло время, но не дало результатов. Показатель отказов в некоторые дни превышал 90%. При этом качество контента на нашем сайте или структура входящего трафика никак очевидным образом не менялась. Это просто «случилось в одночасье» и всё. Поскольку ничего подобного описанного в Сети я не нашел, решил описать как мы нашли и исправили проблему и снизили показатель отказов до приемлемых 42-55%.

Приведу скриншот для иллюстрации исходной проблемы:

Unknown robot что это. image loader. Unknown robot что это фото. Unknown robot что это-image loader. картинка Unknown robot что это. картинка image loader

Поскольку все стандартные схемы результата не дали, пришлось думать самим и искать проблему. Analytics ничем не помог, и я начал проверять через Яндекс.Метрика. Общие показатели по Метрики были довольно приемлемые (до 10% отказов). Прочитав несколько статей о том почему отказы в Метрике могут быть приемлемые, а в Analytics зашкаливать, стало понятно где искать проблему. Если коротко: Метрика считает отказами все посещения, которые длились меньше 15 секунд, а Analytics – все, после которых не было других посещений страницы. Таким образом я начал смотреть отчет по длительности посещений в Метрике и Аналитиксе и понял, что у меня нереально большой процент посещений с длительностью 0:00 секунд, до 50% дневных сеансов. Еще несколько прочитанных статей позволили отбросить гипотезу о не срабатывающем коде и ботах, которые пробираются через фильтр Аналитикса. Никаких признаков реферального спама у меня тоже не было.

В итоге я просто отфильтровал в Вебвизоре посещения с длительностью 0:00 и решил попробовать найти закономерность. Вот что я получил:

Unknown robot что это. image loader. Unknown robot что это фото. Unknown robot что это-image loader. картинка Unknown robot что это. картинка image loader

Каждый «посетитель» заходил со своей подсети, с явно указанным User Agent, разрешением экрана и операционной системой, то есть для Метрики и Analytics он никак не воспринимался как бот.

Unknown robot что это. image loader. Unknown robot что это фото. Unknown robot что это-image loader. картинка Unknown robot что это. картинка image loader

Unknown robot что это. image loader. Unknown robot что это фото. Unknown robot что это-image loader. картинка Unknown robot что это. картинка image loader

Единственное, что его выдавало это ритмичный характер посещений каждые 1 час 1 минуту и 0 длительность просмотра. Я скинул скриншоты нашему сисадмину Андрею и попросил посмотреть, что это такое, по логам сервера. Первый же IPшник заставил нас удивиться: к нам ходил кто-то из подсети Лига.Закон.

есть айпишник за 4:56, сейчас проверю другие заходы
inetnum: 193.150.7.0 — 193.150.7.255
netname: LIGA-UA-NET2
remarks: LIGA ZAKON

Всего по логам нашлось 43 IP-адреса, которые обращались к разным страницам нашего сайта с разных провайдеров, с разными User Agent.

По RIPE ничего интересного мы не нашли, ничем не примечательные IP из обычных подсетей. Кроме того, что боты ходили с интервалом 1:01 больше ничего явно общего в них не было.

Весь найденный список мы заблокировали в iptables.

В течении суток мы еще выловили несколько новых IP, набросали алгоритм автоматической фильтрации подобного бот-трафика на случай, если после блокировки одних ботов, им на смену придут новые. Однако больше никого подобного не нашли. Было только пара любопытных User Agent, но никого с интервалом 1:01.

Еще через сутки показатель отказов по Google Analytics начал приходить в норму и резко упал с 89% до 42,75%.

На сегодня, спустя почти неделю после описанных событий, показатель отказов держится в приемлемых рамках 42-55%, общую динамику можно посмотреть на графике. Там, где резкое снижение — это мы отфильтровали ботов.

Unknown robot что это. image loader. Unknown robot что это фото. Unknown robot что это-image loader. картинка Unknown robot что это. картинка image loader

Гипотезы о том «что это было» у нас всего две.

Первая, это кто-то из нас же неправильно настроил каких-то мониторных ботов. Мы одно время игрались с разным софтом для проверки состояния сервера. Могли что-то включить и забыть. Минус этой теории в том, что я не помню ни одного сервиса, который бы декларировал что они отправляют запросы из разных подсетей на разные страницы сайта с разных User Agent. Поэтому скорее всего это не так.

Вторая гипотеза: это какая-то неизвестная широкой общественности форма бот-атаки, возможно направленная как раз на повышение показателя отказов и, как следствие, пессимизации в поисковой выдаче Google.

Если вы тоже с таким сталкивались, буду рад комментариям. Если вам будут нужны более подробные инструкции о том, как мы это искали и блокировали, пишите тоже.

Источник

Unknown robot что это

Unknown robot что это. 709b78c1c583afbff0d9debf004ad6e5. Unknown robot что это фото. Unknown robot что это-709b78c1c583afbff0d9debf004ad6e5. картинка Unknown robot что это. картинка 709b78c1c583afbff0d9debf004ad6e5

последнее время очень сильно атакуют боты какие то
Unknown robot что это. 508. Unknown robot что это фото. Unknown robot что это-508. картинка Unknown robot что это. картинка 508

ложат сайт, что появляется 508 ошибка
как решить проблему?

Unknown robot что это. 8c9ba40d0d6b7a8be4b016e9330dadcc. Unknown robot что это фото. Unknown robot что это-8c9ba40d0d6b7a8be4b016e9330dadcc. картинка Unknown robot что это. картинка 8c9ba40d0d6b7a8be4b016e9330dadcc

Варианты есть, зависит от конкретной ситуации:

— можно блочить ботов поименно
— можно блочить слишком часто приходящих за короткое время
— можно блочить по стране
— вариант по времени (ночью, например, накидываются)

Unknown robot что это. a1cc63e86d3cb23c446a5d96e47638d5. Unknown robot что это фото. Unknown robot что это-a1cc63e86d3cb23c446a5d96e47638d5. картинка Unknown robot что это. картинка a1cc63e86d3cb23c446a5d96e47638d5

Цитата
Zhezkazganetcs пишет:
как решить проблему?

Начать с анализа логов

Unknown robot что это. 34f88b6ef1beec2ff78ed114b930e871. Unknown robot что это фото. Unknown robot что это-34f88b6ef1beec2ff78ed114b930e871. картинка Unknown robot что это. картинка 34f88b6ef1beec2ff78ed114b930e871

Zhezkazganetcs, заблокирую по юзер-агенту или по ip с помощью htaccess

Пример блокировки по юзер-агенту

Unknown robot что это. 709b78c1c583afbff0d9debf004ad6e5. Unknown robot что это фото. Unknown robot что это-709b78c1c583afbff0d9debf004ad6e5. картинка Unknown robot что это. картинка 709b78c1c583afbff0d9debf004ad6e5

Coder, как посмотреть в метрике что за боты?
Отфильтрованы по статистическим правилам 7 558
вот они это кто? как их определить чтобы блочить?
просто не хочется всех подряд блочить

Цитата
sharkson пишет:
заблокирую по юзер-агенту или по ip с помощью htaccess
Пример блокировки по юзер-агенту

опять же это все хорошо и все замечательно
но кто этот юзер-агент среди Отфильтрованы по статистическим правилам
или как в метрике посмотреть что за боты, потому что сам не нашел а в гугле тоже нет инфы

Unknown robot что это. 8c9ba40d0d6b7a8be4b016e9330dadcc. Unknown robot что это фото. Unknown robot что это-8c9ba40d0d6b7a8be4b016e9330dadcc. картинка Unknown robot что это. картинка 8c9ba40d0d6b7a8be4b016e9330dadcc

Unknown robot что это. 709b78c1c583afbff0d9debf004ad6e5. Unknown robot что это фото. Unknown robot что это-709b78c1c583afbff0d9debf004ad6e5. картинка Unknown robot что это. картинка 709b78c1c583afbff0d9debf004ad6e5

я не могу понять кто это Отфильтрованы по статистическим правилам и как их заблочить
они создают 4-6 запросов в секунду

Источник

Что такое отказы в Яндекс Метрике, и как бороться с ботами и нулевыми заходами

Unknown robot что это. otkaz v yandeks metrike 0. Unknown robot что это фото. Unknown robot что это-otkaz v yandeks metrike 0. картинка Unknown robot что это. картинка otkaz v yandeks metrike 0

Отказ в Яндекс Метрике — это просмотр страницы меньше 15 секунд и возвращение пользователя в поиск. В метрике показатель не должен превышать 20%, но каждый вебмастер пытается снизить показатель до минимальных значений.

Отказы считаются одним из важных показателей ранжирования. Если процент большой, поисковая система считает, что сайт не нравится пользователям, а значит, некачественный, и как следствие понижение позиций в выдаче. А значит, меньше посетителей, читателей и клиентов из поиска.

Но бывает что из-за неправильных настроек метрики или траблов этой системы, растет технический показатель отказов. К примеру, к одной из ваших страниц прилепливается бот и, заходя на нее несколько раз в день, а иногда в час, начисто валит всю статистику. Поэтому если у вас много отказов в метрике, на факт, что они от пользователей.

Моя история борьбы с отказами выбиваемыми ботами

Стоило моим сайтам выйти на посещаемость более 40 уников в сутки, как прилетало счастье со стороны нулевых отказов, сделанных не пользователями, а ботами.

Через неделю после перезапуска этого сайта я зашел на вебвизор, чтобы посмотреть, как идут дела. Картина была просто удручающая, суммарно отказы завалили за красную линию в 20%. Спустя 2 месяца работы над сайтом — просто опускаются руки. Примерно пятая часть заходов — по 0 сек. Яндекс учитывает эти заходы как отказы, и соответственно понижает его в выдаче.

Unknown robot что это. otkaz v yandeks metrike 1. Unknown robot что это фото. Unknown robot что это-otkaz v yandeks metrike 1. картинка Unknown robot что это. картинка otkaz v yandeks metrike 1

Отказы зафиксированы как одиночные с разных IP, так и по несколько хитов с одних и тех же направлений.

Несколько недель упорного труда просто накрывается медным тазом. И так, далее я расскажу, как мне удалось вернуть отказы в норму и значительно сократить — нулевые заходы.

Как отсечь ботов в «Яндекс метрике»

Вначале я обратился в службу Яндекса. Что-то типа: «Эй, парни, вы тут ботов считаете, как посетителей и лепите отказы». На что мне ответили, что я могу самостоятельно отсечь их в Метрике.

По совету специалиста из службы поддержки я перешел в отчет «Роботы» по пути Отчеты — Стандартные отчёты — Мониторинг — Роботы. Внизу страницы находится подраздел называющийся «Фильтрация роботов». В нем три пункта:

У меня стояла отметка на первом пункте. Она ставится по умолчанию на всех счетчиках Яндекс. Метрики. Я поставил на третью, и нужно признать, часть нулевых отказов ушла. Но только часть.

Фильтрация роботов по User-Agent

Но вебвизор не отображает IP адреса, с которых был заход с нулевым временем присутствия на сайте. Я разработал простое решение, основанное на модификации Яндекс счетчика таким образом, чтобы IP адрес каждого посетителя добавлялся в отдельную колонку, и можно было точечно ограничить в доступе к сайту адреса, с которых идут отказы.

Модификации Яндекс счетчика для отображения IP адресов

Для начала необходимо создать php файл, например ip.php в котором будет размещена функция, возвращающая IP посетителя, далее предлагаю исходный код функции:

Теперь остаётся только модифицировать код счетчика Яндекса, чтобы он отображал IP в отдельную колонку. В моем случае код счетчика размещён в отдельном файле metrika.php, который просто инклудится в файле header.php директивой include.

Далее, код самого Яндекс счетчика

Внимание, недавно код счетчика изменился, поэтому статья исправлена с учетом этих изменений

Код счетчика Яндекс отличается только идентификатором и дополнительными опциями, если они включены. Например, если у вас включен вебвизор, то в строке
появляется webvisor:true

Теперь модифицируем счетчик так, чтобы он мог отображать IP посетителя, ниже показан завершенный пример файла metrika.php, то есть то, как он должен выглядеть.

Будьте внимательны, полученное значение IP вначале строки

Источник

Анализ файлов robots.txt крупнейших сайтов

Robots.txt указывает веб-краулерам мира, какие файлы можно или нельзя скачивать с сервера. Он как первый сторож в интернете — не блокирует запросы, а просит не делать их. Интересно, что файлы robots.txt проявляют предположения веб-мастеров, как автоматизированным процессам следует работать с сайтом. Хотя бот легко может их игнорировать, но они указывают идеализированное поведение, как следует действовать краулеру.

По существу, это довольно важные файлы. Так что я решил скачать файл robots.txt с каждого из 1 миллиона самых посещаемых сайтов на планете и посмотреть, какие шаблоны удастся обнаружить.

Я взял список 1 млн крупнейших сайтов от Alexa и написал маленькую программу для скачивания файла robots.txt с каждого домена. После скачивания всех данных я пропустил каждый файл через питоновский пакет urllib.robotparser и начал изучать результаты.

Unknown robot что это. image loader. Unknown robot что это фото. Unknown robot что это-image loader. картинка Unknown robot что это. картинка image loader
Найдено в yangteacher.ru/robots.txt

Огороженные сады: банят всех, кроме Google

Среди моих любимых питомцев — сайты, которые позволяют индексировать содержимое только боту Google и банят всех остальных. Например, файл robots.txt сайта Facebook начинается со следующих строк:

(Предупреждение: Краулинг Facebook запрещён без письменного разрешения. См. http://www.facebook.com/apps/site_scraping_tos_terms.php )

Это слегка лицемерно, потому что сам Facebook начал работу с краулинга профилей студентов на сайте Гарвардского университета — именно такого рода активность они сейчас запрещают всем остальным.

Требование письменного разрешения перед началом краулинга сайта плюёт в лицо идеалам открытого интернета. Оно препятствует научным исследованиям и ставит барьер для развития новых поисковых систем: например, поисковику DuckDuckGo запрещено скачивать страницы Facebook, а поисковику Google можно.

В донкихотском порыве назвать и посрамить сайты, которые проявляют такое поведение, я написал простой скрипт, который проверяет домены и определяет тех, которые внесли Google в белый список тех, кому разрешено индексировать главную страницу. Вот самые популярные из этих доменов:

Unknown robot что это. image loader. Unknown robot что это фото. Unknown robot что это-image loader. картинка Unknown robot что это. картинка image loader
(В оригинальной статье указаны также аналогичные списки китайских, французских и немецких доменов — прим. пер.)

Я включил в таблицу пометку, позволяет ли сайт ещё DuckDuckGo индексировать свою заглавную страницу, в попытке показать, насколько тяжело приходится в наши дни новым поисковым системам.

У большинства из доменов в верхней части списка — таких как Facebook, LinkedIn, Quora и Yelp — есть одно общее. Все они размещают созданный пользователями контент, который представляет собой главную ценность их бизнеса. Это один из их главных активов, и компании не хотят отдавать его бесплатно. Впрочем, ради справедливости, такие запреты часто представляются как защита приватности пользователей, как в этом заявлении технического директора Facebook о решении забанить краулеры или глубоко в файле robots.txt от Quora, где объясняется, почему сайт забанил Wayback Machine.

Далее по списку результаты становятся более противоречивыми — например, мне не совсем понятно, почему census.gov позволяет доступ к своему контенту только трём основным поисковым системам, но блокирует DuckDuckGo. Логично предположить, что данные государственных переписей принадлежат народу, а не только Google/Microsoft/Yahoo.

Хотя я не фанат подобного поведения, но вполне могу понять импульсивную попытку внести в белый список только определённые краулеры, если учесть количество плохих ботов вокруг.

Боты плохого поведения

Я хотел попробовать ещё кое-что: определить самые плохие веб-краулеры в интернете, с учётом коллективного мнения миллиона файлов robots.txt. Для этого я подсчитал, сколько разных доменов полностью банят конкретный useragent — и отранжировал их по этому показателю:

user-agentТипКоличество
MJ12botSEO15156
AhrefsBotSEO14561
BaiduspiderПоисковая система11473
NutchПоисковая система11023
ia_archiverSEO10477
WebCopierАрхивация9538
WebStripperАрхивация8579
TeleportАрхивация7991
YandexПоисковая система7910
Offline ExplorerАрхивация7786
SiteSnaggerАрхивация7744
psbotПоисковая система7605
TeleportProАрхивация7063
EmailSiphonСпамерский скрапер6715
EmailCollectorСпамерский скрапер6611
larbinНеизвестно6436
BLEXBotSEO6435
SemrushBotSEO6361
MSIECrawlerАрхивация6354
mogetНеизвестно6091

В списке боты нескольких определённых типов.

Первая группа — краулеры, которые собирают данные для SEO и маркетингового анализа. Эти фирмы хотят получить как можно больше данных для своей аналитики — генерируя заметную нагрузку на многие сервера. Бот Ahrefs даже хвастается: «AhrefsBot — второй самый активный краулер после Googlebot», так что вполне понятно, почему люди хотят заблокировать этих надоедливых ботов. Majestic (MJ12Bot) позиционирует себя как инструмент конкурентной разведки. Это значит, что он скачивает ваш сайт, чтобы снабдить полезной информацией ваших конкурентов — и тоже на главной странице заявляет о «крупнейшем в мире индексе ссылок».

Вторая группа user-agents — от инструментов, которые стремятся быстро скачать веб-сайт для персонального использования в офлайне. Инструменты вроде WebCopier, Webstripper и Teleport — все они быстро скачивают полную копию веб-сайта на ваш жёсткий диск. Проблема в скорости многопоточного скачивания: все эти инструменты очевидно настолько забивают трафик, что сайты достаточно часто их запрещают.

Наконец, есть поисковые системы вроде Baidu (BaiduSpider) и Yandex, которые могут агрессивно индексировать контент, хотя обслуживают только языки/рынки, которые не обязательно очень ценны для определённых сайтов. Лично у меня оба эти краулера генерируют немало трафика, так что я бы не советовал блокировать их.

Объявления о работе

Это знак времени, что файлы, которые предназначены для чтения роботами, часто содержат объявления о найме на работу разработчиков программного обеспечения — особенно специалистов по SEO.

Источник

Блокировка ботов и снижение нагрузки на сервер

Исследуя логи сервера, можно найти огромное число ботов, которые буквально атакуют ваш сайт изо дня в день, создавая огромную нагрузку на сервер. Блокировка ненужных ботов – логичный этап развития крупных проектов.

Вторая сторона медали – исследование вашего проекта конкурентами через сервисы, например: ahrefs, semrush, serpstat, linkpad и другие. Если вы делаете SEO-продвижения с помощью PBN-сетей, через эти сервисы можно очень легко отследить всю вашу сеть, после чего “настучать” в Google для последующего бана всей сети сайтов читера. Чтобы этого не случилось, следует уделить время закрытию от ботов этих сервисов.

Есть и другие преимущества от блокировки, например: частичная защита от воровства контента, защита от замысла ддос и хакерских атак. Обычно все это делается с предварительным анализом сайта, которые проводятся некоторыми из нижеуказанных ботов.

Популярные боты, создающие нагрузку на сервер

Список ботов, создающих нагрузку на сервер, периодически пополняется и обновляется:

Напишите в комментариях, нужно ли расписывать, к чему относятся каждый из ботов выше (название сервиса и другая информация)?

Как заблокировать AhrefsBot, SemrushBot, MJ12bot и других ботов?

Существует 2 известных мне метода надежной блокировки от плохих ботов:

Если вы знаете другие методы, обязательно напишите в комментариях!

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *