@Worst Ну вот я бы с радостью позапускал LLaMA 3.1...

@Worst
Ну вот я бы с радостью позапускал LLaMA 3.1 405B, например. Но текущие тулкиты, которые предназначены для удобного пользования с этим не очень справляются.

Хотя, если я ошибаюсь и что-то упустил - буду рад если ты ткнёшь меня туда, где написано как 405B модель запустить на видеокарте с 16G VRAM - пусть и с оффлоадом в RAM 🤷‍♂️

Like 11 August at 23:55 | Open on lor.sh

15 comments

∅

@skobkin@lor.sh так я же прямо сказал, что тут или или

А по поводу - koboldcpp и lm studio сам юзаю в качестве сервера, но я манал из vram вылезать
Lm удобная, но у kobold есть фичи на поиграться (особенно у Frankenstein форка), хотя сомнительно
Глянь ещё Mistral Nemo и nvinia nemotron из моделей - Nemo показалась очень качественной в instruct, хоть и галлюцинирует (а кто нет, но мб нужен прост)

И да - там ещё Яндекс что-то мутит с q2 квантованием без потерь, но я ниасилил

12 August at 1:33 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
У меня есть Nemo на сервере, да.

Но я чаще испольщую LLaMA 3.1 8B всё-таки. Скорее потому, что мои локальные юзкейсы - это чаще либо "reasoning", либо какие-нибудь приколы с персонажами. Например, когда я создаю надстройку над моделью, где в системном промпте ей сказано, что она социопат, прошу решить задачку про волка, козу и капусту и наблюдаю как она мне говорит, что ебала в рот возить на лодке этих коз - пусть сами плывут.

А мистраль (именно Nemo) для таких кеков и вживания в роль как-то меньше подошла на моём опыте - как-то начинала сваливаться в формальности в каждом ответе хотя в системном промпте было сказано, что персонаж не любит формальности.
А LLaMA 3.1 наоборот стала податливей в этом плане по сравнению с 3 и тем более 2 от чего у меня и случился восторг.

И что самое забавное - LLaMA 3.1 хотя казалось бы должна быть ещё хуже зацензурирована, чем её предшественники, но по факту выяснилось, что в пылу диалога может хуй забить на разный файн-тюнинг проделанный Meta, что меня очень порадовало.

Ну, например я иногда балуюсь тем, что создаю для LLM персонажей из мифологии или массовой культуры и разыгрываю какие-нибудь ситуации в чате.

Скажем, у меня есть персонаж кицунэ (японский трикстер-йокай с фичами лисы).
Я по приколу разыграл в чате поход с этим персонажем в "Пятёрочку". И LLaMA настолько вошла в роль, что пыталась на автоматизированной кассе спиздить снэки, хотя я напрямую никаких склонностей к такому не указывал.

@Worst
У меня есть Nemo на сервере, да.

Expand text...

12 August at 1:48 | Open on lor.sh

∅

@skobkin@lor.sh хм, надо будет тогда протыкать в этом плане, благо скачана

12 August at 3:14 | Open on shitpost.poridge.club

∅

@skobkin@lor.sh Кстати, не подскажешь для неё параметры?

12 August at 6:42 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
Я конкретно с параметрами модели не играюсь обычно. Определяю системный промпт в основном. В случае с Ollama это создание Modelfile. Там, конечно, и параметры можно твикать, но я этого не делаю. У меня достаточно поверхностное знание LLM сейчас.

12 August at 10:44 | Open on lor.sh

∅

@skobkin@lor.sh прост со стоковыми параметрами моя 3,1 q5 пишет в стиле я есть грут

12 August at 10:56 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
Так может потому и пишет, что у неё инференс по пизде идёт из-за неудачной версии модели?

https://github.com/ggerganov/llama.cpp/pull/1684#issuecomment-1579252501

Попробуй Q4_K_M. И, естественно, instruct версии.

12 August at 11:00 | Open on lor.sh

∅

@skobkin@lor.sh

12 August at 11:01 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
?

12 August at 11:06 | Open on lor.sh

∅ replied to Alexey

@skobkin@lor.sh У меня этот чекпоинт лежит

12 August at 11:09 | Open on shitpost.poridge.club

∅ replied to ∅

@skobkin@lor.sh тьфу блять, какой чекпоинт...

12 August at 11:09 | Open on shitpost.poridge.club

Alexey Skobkin replied to ∅

@Worst
Ну лежит и лежит.
Попробуй четырёхбитную, говорю. Её по идее проще должно быть в памяти укладывать.

12 August at 11:11 | Open on lor.sh

∅ replied to Alexey

@skobkin@lor.sh Так у меня нет проблем с памятью
Но ладно, ладно, попробую 4km

12 August at 11:16 | Open on shitpost.poridge.club

Alexey Skobkin replied to ∅

@Worst
Я не знаю в чём у тебя проблема.
Но я помню, что у меня модель вела себя как после лоботомии как раз когда я ошибался и стягивал не те версии весов.

12 August at 11:21 | Open on lor.sh

∅ replied to Alexey

@skobkin@lor.sh Так по схеме с ссылки q5km ном же должны быть

12 August at 11:24 | Open on shitpost.poridge.club