@Revertron Требований я не видел. Я знаю, что в 16G...

@Revertron Требований я не видел. Я знаю, что в 16G в среднем влезают максимум 13B модели.
Плюс, спасибо @rayslava, посмотрел статистику по методам квантизации и стараюсь брать Q4_K_M если есть - там обещается в среднем меньше путаницы.

Могу посмотреть по факту сколько ест просто.

Like 23 May 2024 at 14:34 | Open on lor.sh

8 comments

Alexey Skobkin

@Revertron @rayslava
Ну вот llava-llama3:8b-v1.1-q4_0.

23 May 2024 at 14:50 | Open on lor.sh

⚛️Revertron

@skobkin @rayslava Круть!

23 May 2024 at 14:51 | Open on zhub.link

ZD915

@skobkin в мой сервер влезает только низкопрофильное, из доступных в окружающих магазинах максимум 4гб 1050i. Есть ли смысл ставить, или маловато для домашнего ии? @Revertron @rayslava

24 May 2024 at 6:27 | Open on qoto.org

Шуро

@skobkin @Revertron @rayslava @zd915 Есть работающие на ОЗУ и ЦП.

Картинки я рисовал и на 2ГБ VRAM на ноутбуке, но было немного печально, генерация по несколько минут.

24 May 2024 at 6:53 | Open on friends.deko.cloud

Alexey Skobkin

@shuro @Revertron @rayslava @zd915
> Есть работающие на ОЗУ и ЦП.

Это будет больно если не мощный CPU. При этом если использовать в режиме чата, то каждый последующий ответ будет генерироваться всё дольше и дольше (контекст растёт), что на CPU может быть совсем больно.

Я тут уже по-моему постил видео пример того как какая-то 7B модель работает на достаточно хорошему Ryzen 7900X. В целом с этим можно жить, но не всегда комфортно.

Вот:
https://lor.sh/@skobkin/111983662454301471

Тут был пример первого ответа прогретой моделью в чате на 7900X. Но если этот чат состоит из десятков реплик, то это всё будет ЗАМЕТНО медленнее.

@shuro @Revertron @rayslava @zd915
> Есть работающие на ОЗУ и ЦП.

Expand text...

24 May 2024 at 11:46 | Open on lor.sh

Alexey Skobkin

@zd915 @Revertron @rayslava
Я ставил с кронштейном и райзером, т.к. прямо в мать тоже не лезла.
1050, имхо, маловато. Хотя что-то легкое,наверное, заведётся. Мини-версии Phi и Dolphin, например.

24 May 2024 at 11:18 | Open on lor.sh

LyrionTannister

@skobkin @zd915 @Revertron @rayslava кстати, смотрю на дискретные карточки интел, в плане в домашний мини ящичек поставить что-то такое, что сможет и гта5 потянуть, и оупен цл, и при этом стоить копейки за выдаваемый перф. Не могу понять, как они за такие копейки так хорошо работают на уровне зеленых 4060

24 May 2024 at 21:21 | Open on mastodon.ml

Alexey Skobkin

@LyrionTannister @zd915 @Revertron @rayslava
У интеллов новых очень много нюансов с драйверами и тем, что они не могут по сравнению с другими.
Они развиваются, конечно, но пока что сложно сказать, что это универсальное решение для всего.
У них, например, с производительностью на каких-то версиях DirectX проблемы.

24 May 2024 at 21:50 | Open on lor.sh