Email or username:

Password:

Forgot your password?
Top-level
continue

Не знаю какая там политика у meta по обновлению robots.txt но через X часов кравлеры так и не унимаются. Недолго логировал User-Agent: все приходят со значением facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)

А вот тут нашёл интересненькое:
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/?_fb_noscript=1

Note that the FacebookExternalHit crawler might bypass robots.txt when performing security or integrity checks, such as checking for malware or malicious content.

Ага, ясно-понятно. Раз кравлеры могут игнорировать robots.txt, значит я могу банить их по значению в User-Agent. Будем наблюдать...

2 comments
Iron Bug
а ты что, до сих пор верил в то, что если ты написал "не входить", то они не будут лезть?
банить все скраперы, жёстко по юзерагентам, айпишникам и прочему, что можно выявить. я у себя просто скрипт написала, кооторый шарашит по логам и если там какой-то неизвестный слишком интересуется моим сервером, он присоединяется к длинному списку банов. по итогам, я иногда ещё просматриваю списки банов и баню целые подсети, из которых лезут подобные боты.
иногда у ботоферм есть "разведчики": как только такой айпишник зашёл на сервер - так полезли и все прочие. иногда удаётся выявлять целые кластеры такой фигни.
а ты что, до сих пор верил в то, что если ты написал "не входить", то они не будут лезть?
банить все скраперы, жёстко по юзерагентам, айпишникам и прочему, что можно выявить. я у себя просто скрипт написала, кооторый шарашит по логам и если там какой-то неизвестный слишком интересуется моим сервером, он присоединяется к длинному списку банов. по итогам, я иногда ещё просматриваю списки банов и баню целые подсети, из которых лезут подобные боты.
Iron Bug
я тебе больше скажу: иногда лезут боты с расеянскими айпишниками. причём некоторые зарегистрированы на какие-то там НИИ с сомнительными названиями. так что любых ботов в принципе надо банить. цели у них всегда вредительские.
Go Up