:blobcatwhatsthis: Я почему-то долгое время думал,...

:blobcatwhatsthis: Я почему-то долгое время думал, что моя RTX 3060 с её 12 гигабайтами VRAM не вывезет никакие, кроме совсем небольших #LLM, порядка 7B-8B максимум (7-8 миллиардов параметров).

Но долгое время не доходили руки протестировать пределы на практике.
На днях дошли.

Оказалось, что может и больше. Раза в два. Моделька на 16B влезла в GPU без проблем. С обычным для Ollama квантованием в 4 бита, что типично даёт оптимальное соотношение качества ответов к размеру модели.

Плюс выяснилось, что #Ollama умеет ещё и выгружать модель частично на CPU, с этим запустить удалось даже 22B (84% GPU/16% CPU) на скорости 2-3 токена в секунду.

Грустно только, что GUI в комплекте нет. Удобнее всего, как ни странно, оказалось приложение Ollama для Android: https://github.com/JHubi1/ollama-app/blob/main/README.md — где можно даже картинки загружать для моделей, которые их понимают.

Like 25 July at 20:27 | Open on mastodon.ml