forwarded from iwojima@iwojimagzktuisvveh6zjuv453wm6rnch6oefof66mt7nuoxn4nliwqd.onion
#netstalking #tools
Гештальт по федеративным поисковым сетям у меня еще не закрыт:)
Продолжаю тестировать yacy.
Тестовый инстанс развернут тут
http://yacy.iwojimagzktuisvveh6zjuv453wm6rnch6oefof66mt7nuoxn4nliwqd.onion:8090
Внутри - полнотекстовый поиск по архиву найденых сайтов.
Архив примерно с 2019 года.
Всего в архиве >250k файлов, для >200k доменов которые были активны на момент сканирования. А всего база доменов содержит >280k записей.
Сырые данные весят порядка 7GB, индекс ~40GB
#netstalking #tools
Гештальт по федеративным поисковым сетям у меня еще не закрыт:)
Продолжаю тестировать yacy.
Тестовый инстанс развернут тут
http://yacy.iwojimagzktuisvveh6zjuv453wm6rnch6oefof66mt7nuoxn4nliwqd.onion:8090
Внутри - полнотекстовый поиск по архиву найденых сайтов.
Архив примерно с 2019 года.
Всего в архиве >250k файлов, для >200k доменов которые были активны на момент сканирования. А всего база доменов содержит >280k записей.
Сырые данные весят порядка 7GB, индекс ~40GB
покрутил, повертел... понял, что мне нужно чтото по проще - ну не требуется мне всесь функционал yacy....
попробывал recall - прикольно, индекс строит быстро, но... есть непонятные ньюансы: строка в файле есть, но в результатах поиска ее нет. пичаль.
сейчас тестирую id-utils
https://www.gnu.org/software/idutils/manual/idutils.html
индекс строит достаточно быстро ~7GB переварило за ~1,5 часа
поиск по построеному индексу - секунды.
вебморду осталось наваять и быстрая замена grep готова...
покрутил, повертел... понял, что мне нужно чтото по проще - ну не требуется мне всесь функционал yacy....
попробывал recall - прикольно, индекс строит быстро, но... есть непонятные ньюансы: строка в файле есть, но в результатах поиска ее нет. пичаль.