Интересно, а кто-нибудь уже собирал датасет тутов? Я подумываю натренировать что-то типа toot2vec (по аналогии с #tweet2vec), чтобы научиться семантически клатеризовать туты - может кто-то это уже делал? Датасет тутов проще всего собрать при поддержке администраторов серверов, но вот захотят ли они такого? В идеале бы ещё выложить на #kaggle... @drq @rf
#машинноеобучение #машинное_обучение #языковое_моделирование
@shwars Если ты просто хочешь собирать текст публичных постов, то кто ж тебе запретит. Но содействовать тебе тут вряд ли кто-то будет. Не я точно. Мне репутация, моя и mml, еще дорога.
У нас есть хэштег для профилей #nobot. Он тут не просто так.
@rf