Хм. На русском он отказался по причине "Палехче, тут слишком много"
Откопала в открытом доступе токенизер...ёмае, да там токенов больше чем символов!
Как оно с таким токенизатором В ПРИНЦИПЕ умудряется выдавать что-то осмысленное на русском???
Top-level
Хм. На русском он отказался по причине "Палехче, тут слишком много" Откопала в открытом доступе токенизер...ёмае, да там токенов больше чем символов! Как оно с таким токенизатором В ПРИНЦИПЕ умудряется выдавать что-то осмысленное на русском??? 8 comments
[DATA EXPUNGED]
@mo @frssoft большая разница, обрабатывать текст корректно или некорректно @frssoft токенизация по половине символа? Крайне вряд-ли. Просто кое-кто до сих пор не может осознать тот факт, что существует жизнь за пределами US-ASCII
[DATA EXPUNGED]
@th3rdsergeevich модель не работает с байтами от слова совсем |
Для понимания, представьте что вы читаете текст по одной букве, и ответ формулируете тоже по одной букве. Вот как-то так с вами общается чатгпт на русском