@th3rdsergeevich не utf-8 aware токенизатор is a b!tch
6 comments
@frssoft большая разница, обрабатывать текст корректно или некорректно @frssoft токенизация по половине символа? Крайне вряд-ли. Просто кое-кто до сих пор не может осознать тот факт, что существует жизнь за пределами US-ASCII
[DATA EXPUNGED]
@th3rdsergeevich модель не работает с байтами от слова совсем |
@mo
Да какая разница, если размер текста вне английского алфавита становится больше...
@th3rdsergeevich