Моделька отлично перемалывает википедию в человекочитаемый формат :ageblobcat:
Top-level
Моделька отлично перемалывает википедию в человекочитаемый формат :ageblobcat: 10 comments
Хм. На русском он отказался по причине "Палехче, тут слишком много" Откопала в открытом доступе токенизер...ёмае, да там токенов больше чем символов! Как оно с таким токенизатором В ПРИНЦИПЕ умудряется выдавать что-то осмысленное на русском??? Для понимания, представьте что вы читаете текст по одной букве, и ответ формулируете тоже по одной букве. Вот как-то так с вами общается чатгпт на русском
[DATA EXPUNGED]
@mo @frssoft большая разница, обрабатывать текст корректно или некорректно @frssoft токенизация по половине символа? Крайне вряд-ли. Просто кое-кто до сих пор не может осознать тот факт, что существует жизнь за пределами US-ASCII
[DATA EXPUNGED]
@th3rdsergeevich модель не работает с байтами от слова совсем |
Попробую швыряться в неё целыми статьями. Официальная дока говорит про лимит в 4 тысячи токенов (это на самом деле очень много)