@rayslava I run llama on my fairly mid by now CPU....

rayslava's posts Post Back to profile

Top-level

Dr. Quadragon ❌

@rayslava I run llama on my fairly mid by now CPU. A bit slow, true, but okay.

Like 24 October at 3:18 | Wall-to-wall | Open on mastodon.ml

13 comments

rayslava

@drq yep. "A bit slow, but okay" is the best option we have now, I guess. And future seems even darker.

Running something like 80B models published lately or some behemoths like Grok with its 314B parameters seems nearly impossible for most enthusiasts 🤷🏻‍♂️

24 October at 3:22 | Open on lor.sh

Dr. Quadragon ❌

@rayslava Actually, 8b runs fine, like ChatGPT level fine when it comes to speed. Same difference.

70b is much slower, but aside from that still does run okay. I'll try to experiment with more powerful and modern hardware, and let you know.

24 October at 3:36 | Open on mastodon.ml

Dr. Quadragon ❌

@rayslava Попробовал Лламу 3.1 на 70 гигапараметров на машине помощнее моей - 7950X, 128 гигов памяти. Один из сервачков на работе взял погонять.

И знаешь, что? Вполне себе удобоваримо. Работать можно. И да, Оллама сразу в нем нашла графику, что не может не радовать.

30 October at 2:13 | Open on mastodon.ml

Dr. Quadragon ❌

@rayslava Скорость - примерно одно-два слова в секунду. Да, может быть, хотелось бы побыстрее, но не "невозможно".

Уверен, была бы видюшка пооборотистее, было бы вообще хорошо. Наверное, надо попробовать подружить ее со своей рыксой, но я не уверен, что она держит ROCm.

30 October at 2:28 | Open on mastodon.ml

rayslava

@drq можешь поставить эксперимент вот с этой пепякой: https://github.com/vosen/ZLUDA
Заодно и расскажешь, как там прошло воскрешение проекта.
Моя видюха пока ко мне плывёт, поэтому сам проверить пока не могу

30 October at 2:30 | Open on lor.sh

Dr. Quadragon ❌

@rayslava Лол, прикольно. Это, считай, WINE для интелов и AMD

30 October at 15:32 | Open on mastodon.ml

rayslava

@drq йеп. Именно оно!

30 October at 15:33 | Open on lor.sh

Alexey Skobkin

@rayslava @drq
На твоей видюхе ROCm нативно работает.

31 October at 10:44 | Open on lor.sh

burbilog

@drq @rayslava насколько я понимаю, вопрос не то чтобы в производительности, сколько в объемах VRAM, чтобы модель туда целиком влезла. народ гоняет llama 70b на двух теслах p40, старых как говно мамонта, зато каждая по 24gb. даже запихуемо в обычный корпус, разве что охлаждение колхозить надо...

30 October at 6:16 | Open on lor.sh

Alexey Skobkin

@drq @rayslava
Так ollama и работает с ROCm.Я так и запускаю.

31 October at 10:45 | Open on lor.sh

Dr. Quadragon ❌

@skobkin Что видюха держит ROCm

@rayslava

31 October at 10:53 | Open on mastodon.ml

Alexey Skobkin

@drq @rayslava
Ну RX по-моему все или почти все должны уметь в ROCm.

Плюс в ряде случаев можно переменной среды форсить использование нужного ядра ROCm для "похожей" видеокарты так чтобы работало на твоей. Так некоторые встройки запускали 🤷

31 October at 11:56 | Open on lor.sh

SouceCalve

@skobkin @drq @rayslava моя 580 на 8гб дружит только со старым rocm, но в докере)

31 October at 12:12 | Open on mastodon.ml