Email or username:

Password:

Forgot your password?
D:\side\

:blobcatwhatsthis: Я почему-то долгое время думал, что моя RTX 3060 с её 12 гигабайтами VRAM не вывезет никакие, кроме совсем небольших #LLM, порядка 7B-8B максимум (7-8 миллиардов параметров).

Но долгое время не доходили руки протестировать пределы на практике.
На днях дошли.

Оказалось, что может и больше. Раза в два. Моделька на 16B влезла в GPU без проблем. С обычным для Ollama квантованием в 4 бита, что типично даёт оптимальное соотношение качества ответов к размеру модели.

Плюс выяснилось, что #Ollama умеет ещё и выгружать модель частично на CPU, с этим запустить удалось даже 22B (84% GPU/16% CPU) на скорости 2-3 токена в секунду.

Грустно только, что GUI в комплекте нет. Удобнее всего, как ни странно, оказалось приложение Ollama для Android: github.com/JHubi1/ollama-app/b — где можно даже картинки загружать для моделей, которые их понимают.

1 comment
Шуро

У меня на такой карте и 33B 6 бит приемлемо работает :) Движок, правда, koboldcpp.

Вот дальше уже да, совсем грустно.

Go Up