#netstalking #hiddennetworks #statistic
сайдэффект от работы краулера скрытосетей - это возможность чтото поанализировать.
на картинке немного цифирей - по количеству сайтов в onion/i2p/loki за все время сбора (любая уникальная ссылка на сайт из поисковых систем или со страниц), сколько из них были активны (на момент сканирования), группировка по фильтру (фильтр достоточно грубый, но 99,9% дерьма отсеивает, но... часто в него попадают поисковики c рекламой и разные аиб).
из того что не детализировано, а можно сделать:
разделить v2/v3 онион - первые сейчас интересны только с исторической точки зрения;
разделить b32.i2p и просто i2p - тут есть явное удвоение, хэши страниц будут идентичные;
с loki - такаяже фигня могут задваиваться длинные и короткие адреса;
под тэги попадают клирнетовские адреса - немного, но нужно вычищать;
есть зеркала клирнет/скрытосети с идентичным контентом - тоже можно попытаться вытащить, опять же хэш для таких страниц также должен быть одинаковый.
а так, быстрый очевидный вывод - в i2p дерьмоконтента на 2 порядка меньше чем торе (отношение clear/filter)
сайдэффект от работы краулера скрытосетей - это возможность чтото поанализировать.
на картинке немного цифирей - по количеству сайтов в onion/i2p/loki за все время сбора (любая уникальная ссылка на сайт из поисковых систем или со страниц), сколько из них были активны (на момент сканирования), группировка по фильтру (фильтр достоточно грубый, но 99,9% дерьма отсеивает, но... часто в него попадают поисковики c рекламой и разные аиб).
из того что не детализировано, а можно сделать:
разделить v2/v3 онион - первые сейчас интересны только с исторической точки зрения;
разделить b32.i2p и просто i2p - тут есть явное удвоение, хэши страниц будут идентичные;
с loki - такаяже фигня могут задваиваться длинные и короткие адреса;
под тэги попадают клирнетовские адреса - немного, но нужно вычищать;
есть зеркала клирнет/скрытосети с идентичным контентом - тоже можно попытаться вытащить, опять же хэш для таких страниц также должен быть одинаковый.
а так, быстрый очевидный вывод - в i2p дерьмоконтента на 2 порядка меньше чем торе (отношение clear/filter)