Email or username:

Password:

Forgot your password?
Top-level

@skobkin@lor.sh ну тут или "дома" с 7-12b моделями или "все знания мира" с 700b моделью на класстере
У некоторых второе вполне заводится дома

16 comments
Alexey Skobkin

@Worst
Ну вот я бы с радостью позапускал LLaMA 3.1 405B, например. Но текущие тулкиты, которые предназначены для удобного пользования с этим не очень справляются.

Хотя, если я ошибаюсь и что-то упустил - буду рад если ты ткнёшь меня туда, где написано как 405B модель запустить на видеокарте с 16G VRAM - пусть и с оффлоадом в RAM 🤷‍♂️


@skobkin@lor.sh так я же прямо сказал, что тут или или

А по поводу - koboldcpp и lm studio сам юзаю в качестве сервера, но я манал из vram вылезать
Lm удобная, но у kobold есть фичи на поиграться (особенно у Frankenstein форка), хотя сомнительно
Глянь ещё Mistral Nemo и nvinia nemotron из моделей - Nemo показалась очень качественной в instruct, хоть и галлюцинирует (а кто нет, но мб нужен прост)

И да - там ещё Яндекс что-то мутит с q2 квантованием без потерь, но я ниасилил

Alexey Skobkin

@Worst
У меня есть Nemo на сервере, да.

Но я чаще испольщую LLaMA 3.1 8B всё-таки. Скорее потому, что мои локальные юзкейсы - это чаще либо "reasoning", либо какие-нибудь приколы с персонажами. Например, когда я создаю надстройку над моделью, где в системном промпте ей сказано, что она социопат, прошу решить задачку про волка, козу и капусту и наблюдаю как она мне говорит, что ебала в рот возить на лодке этих коз - пусть сами плывут.

А мистраль (именно Nemo) для таких кеков и вживания в роль как-то меньше подошла на моём опыте - как-то начинала сваливаться в формальности в каждом ответе хотя в системном промпте было сказано, что персонаж не любит формальности.
А LLaMA 3.1 наоборот стала податливей в этом плане по сравнению с 3 и тем более 2 от чего у меня и случился восторг.

И что самое забавное - LLaMA 3.1 хотя казалось бы должна быть ещё хуже зацензурирована, чем её предшественники, но по факту выяснилось, что в пылу диалога может хуй забить на разный файн-тюнинг проделанный Meta, что меня очень порадовало.

Ну, например я иногда балуюсь тем, что создаю для LLM персонажей из мифологии или массовой культуры и разыгрываю какие-нибудь ситуации в чате.

Скажем, у меня есть персонаж кицунэ (японский трикстер-йокай с фичами лисы).
Я по приколу разыграл в чате поход с этим персонажем в "Пятёрочку". И LLaMA настолько вошла в роль, что пыталась на автоматизированной кассе спиздить снэки, хотя я напрямую никаких склонностей к такому не указывал.

@Worst
У меня есть Nemo на сервере, да.

Но я чаще испольщую LLaMA 3.1 8B всё-таки. Скорее потому, что мои локальные юзкейсы - это чаще либо "reasoning", либо какие-нибудь приколы с персонажами. Например, когда я создаю надстройку над моделью, где в системном промпте ей сказано, что она социопат, прошу решить задачку про волка, козу и капусту и наблюдаю как она мне говорит, что ебала в рот возить на лодке этих коз - пусть сами плывут.


@skobkin@lor.sh хм, надо будет тогда протыкать в этом плане, благо скачана


@skobkin@lor.sh Кстати, не подскажешь для неё параметры?

Alexey Skobkin

@Worst
Я конкретно с параметрами модели не играюсь обычно. Определяю системный промпт в основном. В случае с Ollama это создание Modelfile. Там, конечно, и параметры можно твикать, но я этого не делаю. У меня достаточно поверхностное знание LLM сейчас.


@skobkin@lor.sh прост со стоковыми параметрами моя 3,1 q5 пишет в стиле я есть грут

Alexey Skobkin

@Worst
Так может потому и пишет, что у неё инференс по пизде идёт из-за неудачной версии модели?

github.com/ggerganov/llama.cpp

Попробуй Q4_K_M. И, естественно, instruct версии.

replied to Alexey

@skobkin@lor.sh У меня этот чекпоинт лежит

replied to

@skobkin@lor.sh тьфу блять, какой чекпоинт...

Alexey Skobkin replied to

@Worst
Ну лежит и лежит.
Попробуй четырёхбитную, говорю. Её по идее проще должно быть в памяти укладывать.

replied to Alexey

@skobkin@lor.sh Так у меня нет проблем с памятью
Но ладно, ладно, попробую 4km

Alexey Skobkin replied to

@Worst
Я не знаю в чём у тебя проблема.
Но я помню, что у меня модель вела себя как после лоботомии как раз когда я ошибался и стягивал не те версии весов.

replied to Alexey

@skobkin@lor.sh Так по схеме с ссылки q5km ном же должны быть

Go Up