Email or username:

Password:

Forgot your password?
Top-level
Мя :sparkles_lesbian:

А я ещё согласилась (мама очень настойчиво просила) помочь с учебным проектом сыну её подруги (хаха, фак зе систем /j)

"Да там на 3 часа тебе делать нефиг"

При том что у меня вот...это с работоспособностью. Хаха. Штош, будем пробовать лить водичку ChatGPT, на диплом прокатило тут тем более должно

14 comments
Бука

@mo воспользуемся роботоспособностью :blobcatbadumtss:

Мя :sparkles_lesbian:

Мне нравится лить водичку ChatGPT. Да, может он и пишет хуже по качеству, но НИКОГО это ниибёт, потому что эту херню все делают для галочки

Мя :sparkles_lesbian:

Процесс лития водички выглядит как-то так
1. Напиши мне в общих чертах про проблему
2. Ctrl+C, Ctrl+V
3. А теперь обоснуй актуальность, объект и предмет исследования
4. Ctrl+C, Ctrl+V
5. ну вы понели

Причем мне даже переводчик подключать не приходится, потому что там рили тривиальщина, и достаточно русскоязычной части модели

Мя :sparkles_lesbian:

Моделька отлично перемалывает википедию в человекочитаемый формат :ageblobcat:

Мя :sparkles_lesbian:

Попробую швыряться в неё целыми статьями. Официальная дока говорит про лимит в 4 тысячи токенов (это на самом деле очень много)

Мя :sparkles_lesbian:

Хм. На русском он отказался по причине "Палехче, тут слишком много"

Откопала в открытом доступе токенизер...ёмае, да там токенов больше чем символов!

Как оно с таким токенизатором В ПРИНЦИПЕ умудряется выдавать что-то осмысленное на русском???

Мя :sparkles_lesbian:

Для понимания, представьте что вы читаете текст по одной букве, и ответ формулируете тоже по одной букве. Вот как-то так с вами общается чатгпт на русском

[DATA EXPUNGED]
Мя :sparkles_lesbian:

@th3rdsergeevich не utf-8 aware токенизатор is a b!tch

localhost(mod=True)

@mo
Да какая разница, если размер текста вне английского алфавита становится больше...
@th3rdsergeevich

Мя :sparkles_lesbian: replied to localhost(mod=True)

@frssoft большая разница, обрабатывать текст корректно или некорректно

@th3rdsergeevich

localhost(mod=True) replied to Мя

@mo
я думаю это сделано намеренно, а не по ошибке
@th3rdsergeevich

Мя :sparkles_lesbian: replied to localhost(mod=True)

@frssoft токенизация по половине символа? Крайне вряд-ли. Просто кое-кто до сих пор не может осознать тот факт, что существует жизнь за пределами US-ASCII

@th3rdsergeevich

[DATA EXPUNGED]
Мя :sparkles_lesbian: replied to DELETED

@th3rdsergeevich модель не работает с байтами от слова совсем
Собственно, нафига нужен токенизатор: он превращает байты в набор векторов, часто даже ±осмысленно, которыми уже оперирует нейросеть

@frssoft

localhost(mod=True) replied to DELETED

@th3rdsergeevich
повезло однобайтным языкам
@mo

Go Up