Email or username:

Password:

Forgot your password?
Top-level
Who Let The Dogs Out 🐾

@iggisv9t Вероятно хорошая визуализация. Но где данные для воспроизведения результата?
Ссылки на более подробное изложение имеются?

5 comments
Sv9t

@ashed когда перестану ловить баги и хотя бы текущий шаг по графу закончу, опубликую и код и визуализацию в интерактивном виде. Сами данные не знаю. наверное только лично буду выдавать.

Who Let The Dogs Out 🐾

@iggisv9t Отлично. Я запомнил этот пост.

Sv9t

@ashed Текущий шаг из списка в 48К. Правда у меня туда попадают не только каналы, но и чаты и юзернеймы. Каналы отсеиваю уже на попытке распарсить.

kurator88

@iggisv9t @ashed данные сами собираете ? Было бы интересно почитать как вы телегу парсите и куда складываете. Уверен на хорошую техническую статьи или даже доклада наберётся.

Sv9t

@kurator88 @ashed сделал кровлер на основе вот этого github.com/bellingcat/snscrape

Там есть класс `TelegramChannelScraper()`, его надо инициировать с именем канала (которое в ссылке на канал) и дальше можно итерироваться по постам. Вот оттуда выдёргиваю все ссылки и проверяю подходят они или нет для того, чтобы идти их скрапить. Очень наколеночный код. Всё складываю в csv а не в базы, никаких очередей нет, просто пачками поднимаю csv на каждом новом шаге и смотрю кого ещё не скрапил. Получается BFS по графу упоминаний.

@kurator88 @ashed сделал кровлер на основе вот этого github.com/bellingcat/snscrape

Там есть класс `TelegramChannelScraper()`, его надо инициировать с именем канала (которое в ссылке на канал) и дальше можно итерироваться по постам. Вот оттуда выдёргиваю все ссылки и проверяю подходят они или нет для того, чтобы идти их скрапить. Очень наколеночный код. Всё складываю в csv а не в базы, никаких очередей нет, просто пачками поднимаю csv на каждом новом шаге и смотрю кого ещё не скрапил. Получается...

Go Up