@frssoft токенизация по половине символа? Крайне вряд-ли. Просто кое-кто до сих пор не может осознать тот факт, что существует жизнь за пределами US-ASCII
@th3rdsergeevich модель не работает с байтами от слова совсем
Собственно, нафига нужен токенизатор: он превращает байты в набор векторов, часто даже ±осмысленно, которыми уже оперирует нейросеть
@frssoft токенизация по половине символа? Крайне вряд-ли. Просто кое-кто до сих пор не может осознать тот факт, что существует жизнь за пределами US-ASCII
@th3rdsergeevich