Не знаю какая там политика у meta по обновлению robots.txt
но через X часов кравлеры так и не унимаются. Недолго логировал User-Agent
: все приходят со значением facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
А вот тут нашёл интересненькое:
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/?_fb_noscript=1
Note that the FacebookExternalHit crawler might bypass robots.txt when performing security or integrity checks, such as checking for malware or malicious content.
Ага, ясно-понятно. Раз кравлеры могут игнорировать robots.txt
, значит я могу банить их по значению в User-Agent. Будем наблюдать...
банить все скраперы, жёстко по юзерагентам, айпишникам и прочему, что можно выявить. я у себя просто скрипт написала, кооторый шарашит по логам и если там какой-то неизвестный слишком интересуется моим сервером, он присоединяется к длинному списку банов. по итогам, я иногда ещё просматриваю списки банов и баню целые подсети, из которых лезут подобные боты.
иногда у ботоферм есть "разведчики": как только такой айпишник зашёл на сервер - так полезли и все прочие. иногда удаётся выявлять целые кластеры такой фигни.
банить все скраперы, жёстко по юзерагентам, айпишникам и прочему, что можно выявить. я у себя просто скрипт написала, кооторый шарашит по логам и если там какой-то неизвестный слишком интересуется моим сервером, он присоединяется к длинному списку банов. по итогам, я иногда ещё просматриваю списки банов и баню целые подсети, из которых лезут подобные боты.