Email or username:

Password:

Forgot your password?
Top-level
Мя :sparkles_lesbian:

Хм. На русском он отказался по причине "Палехче, тут слишком много"

Откопала в открытом доступе токенизер...ёмае, да там токенов больше чем символов!

Как оно с таким токенизатором В ПРИНЦИПЕ умудряется выдавать что-то осмысленное на русском???

8 comments
Мя :sparkles_lesbian:

Для понимания, представьте что вы читаете текст по одной букве, и ответ формулируете тоже по одной букве. Вот как-то так с вами общается чатгпт на русском

[DATA EXPUNGED]
Мя :sparkles_lesbian:

@th3rdsergeevich не utf-8 aware токенизатор is a b!tch

localhost(mod=True)

@mo
Да какая разница, если размер текста вне английского алфавита становится больше...
@th3rdsergeevich

Мя :sparkles_lesbian: replied to localhost(mod=True)

@frssoft большая разница, обрабатывать текст корректно или некорректно

@th3rdsergeevich

localhost(mod=True) replied to Мя

@mo
я думаю это сделано намеренно, а не по ошибке
@th3rdsergeevich

Мя :sparkles_lesbian: replied to localhost(mod=True)

@frssoft токенизация по половине символа? Крайне вряд-ли. Просто кое-кто до сих пор не может осознать тот факт, что существует жизнь за пределами US-ASCII

@th3rdsergeevich

[DATA EXPUNGED]
Мя :sparkles_lesbian: replied to DELETED

@th3rdsergeevich модель не работает с байтами от слова совсем
Собственно, нафига нужен токенизатор: он превращает байты в набор векторов, часто даже ±осмысленно, которыми уже оперирует нейросеть

@frssoft

localhost(mod=True) replied to DELETED

@th3rdsergeevich
повезло однобайтным языкам
@mo

Go Up