:blobcatwhatsthis: Я почему-то долгое время думал, что моя RTX 3060 с её 12 гигабайтами VRAM не вывезет никакие, кроме совсем небольших #LLM, порядка 7B-8B максимум (7-8 миллиардов параметров).
Но долгое время не доходили руки протестировать пределы на практике.
На днях дошли.
Оказалось, что может и больше. Раза в два. Моделька на 16B влезла в GPU без проблем. С обычным для Ollama квантованием в 4 бита, что типично даёт оптимальное соотношение качества ответов к размеру модели.
Плюс выяснилось, что #Ollama умеет ещё и выгружать модель частично на CPU, с этим запустить удалось даже 22B (84% GPU/16% CPU) на скорости 2-3 токена в секунду.
Грустно только, что GUI в комплекте нет. Удобнее всего, как ни странно, оказалось приложение Ollama для Android: https://github.com/JHubi1/ollama-app/blob/main/README.md — где можно даже картинки загружать для моделей, которые их понимают.
У меня на такой карте и 33B 6 бит приемлемо работает :) Движок, правда, koboldcpp.
Вот дальше уже да, совсем грустно.