Я тут мимоходом заметил, что facebook через мой экземпляр yah2g индексирует #Gemini
По-быстрому сделал отдачу запрещающего robots.txt. Чуть позже сделаю путь к robots.txt
опцией командной строки.
сс @vlnst
3 comments
я тебе больше скажу: иногда лезут боты с расеянскими айпишниками. причём некоторые зарегистрированы на какие-то там НИИ с сомнительными названиями. так что любых ботов в принципе надо банить. цели у них всегда вредительские.
|
Не знаю какая там политика у meta по обновлению
robots.txt
но через X часов кравлеры так и не унимаются. Недолго логировалUser-Agent
: все приходят со значениемfacebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
А вот тут нашёл интересненькое:
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/?_fb_noscript=1
Ага, ясно-понятно. Раз кравлеры могут игнорировать
robots.txt
, значит я могу банить их по значению в User-Agent. Будем наблюдать...Не знаю какая там политика у meta по обновлению
robots.txt
но через X часов кравлеры так и не унимаются. Недолго логировалUser-Agent
: все приходят со значениемfacebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
А вот тут нашёл интересненькое:
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/?_fb_noscript=1