Email or username:

Password:

Forgot your password?
Andrey Esin

Давно мечтал запилить централизованную бд спаммеров, чтобы удобно было подключать к asterisk и во время звонка успевать делать лукап номера

Немного опередили ребята из http://rustyle.tmweb.ru/

Ну как опередили - у них есть некоторая бд, которую помогают составлять люди

Всё это к сожалению закрыто и бд никуда не выложена и самое грустное, что оно работает не супер быстро - примерно через 5 секунд выдаёт результат поиска

Есть грубое ощущение, что условный grep по плейн файлу выдаст быстрее

#asterisk

15 comments
Iron Bug
так полно же этих собирателей. на их сайтах через веб млжно сделать запрос по номеру и если распарсить выхлоп - вот тебе и "бд".
Andrey Esin

Для дома пользуюсь парсингом ответа от поиска Яндекса, но как-то это по колхозному что ли, да и прикрыть лавочку могут

Сейчас проверил от Сбера и Тинька рандомный номер, который сегодня настойчиво звонил и обвинял в долгах - показывают, что всё ок, в то время как Яндекс - чётко указывает на спам

Надо обдумать этот момент, возможно и правда, имеет смысл спарсить банки

Спасибо

Iron Bug
я бы наоборот считала, что если хоть где-то номер светится как спам, то он спам и есть.
Andrey Esin

@iron_bug
Я полностью согласен с твоей точкой зрения

Проблема 1
Яндекс банит по ойпи при парсинге поиска

Проблема 2
Тинёк и Сбер выдают не совсем релевантные ответы (видимо пока что, номер не попал к ним в бд)

Iron Bug
во-первых, как хуяндекс определит, что ты "парсишь поиск". ты же не собираешься это делать не сто раз в секунду, а по мере поступления звонков. а звонки - вещь редкая. хуяндекс от этого не пострадает.
Andrey Esin
@iron_bug
Подобным я занимаюсь сейчас - при входящем звонке Астерикс проверяет номер через Яндекс
Но есть вероятность, отличная от нуля, что могут как просто поменять формат ответа, так и в принципе убрать эту возможность
Поэтому, для меня, как возможно и для некоторых других было бы идеальным решением хранить у себя всю базу номеров, при необходимости обновлять её и для поиска использовать grep например или иметь локальную копию в той же mariadb
Прекрасно было бы спарсить базы Тинька, Сбера и Яндекса, но есть не иллюзорный шанс получить бан по айпи
@iron_bug
Подобным я занимаюсь сейчас - при входящем звонке Астерикс проверяет номер через Яндекс
Но есть вероятность, отличная от нуля, что могут как просто поменять формат ответа, так и в принципе убрать эту возможность
Iron Bug
ну, вероятность есть, но не думаю, что это прямо ужасная проблема - переделать парсер.
а вот если ты начнёшь дидосить их попытками спиздить их базы - они тебя точно забанят. ещё и в "экстремисты" запишут :)
Iron Bug
и не стала бы обращаться к банкам, потому что они стопудово свои колл-центры и прочее такое спамом не считают. имхо, лучше взять что-нибудь "народное", где информация собирается людьми и никем не модерируется.
Мантисса :CrabVerified:

@andrey была база от "Should I Answer?", пока сервис не закрылся
gitlab.com/xynngh/YetAnotherCa

Andrey Esin

@cybertailor
О, пуха

Мб русские делали что-то подобное?

Немного не по себе, если начну ковырять проекты ребят, у которых это закрыто и на собственном энтузиазме везут подобные вещи

Andrey Esin

У Тинькова классно сделано - https://www.tbank.ru/oleg/who-called/info/ если номер не найден, то возвращается код 404, в ином случае - 200 с информацией, то есть можно теребонькать простым HEAD

Правда через порядка 50 запросов стало приходить 429

Andrey Esin
Как интересно устроено - сменил юзер агента у курла на браузерный и 429 почти не появляется
Andrey Esin
Получается, чтобы спарсить хотя бы один телефонный код, условно 916, нужно проверить 10 млн номеров, один номер проверяется за секунду, значит на это уйдет 3.5 месяца
Iron Bug
я сразу сказала, что эта идея безумная и бесперспективная. потому что за это время все эти номера сто раз поменяются.
Iron Bug
я сразу сказала, что эта идея безумная и бесперспективная. потому что за это время все эти номера сто раз поменяются.
Go Up