@rayslava I run llama on my fairly mid by now CPU. A bit slow, true, but okay.
Top-level
13 comments
@rayslava Actually, 8b runs fine, like ChatGPT level fine when it comes to speed. Same difference. 70b is much slower, but aside from that still does run okay. I'll try to experiment with more powerful and modern hardware, and let you know. @rayslava Попробовал Лламу 3.1 на 70 гигапараметров на машине помощнее моей - 7950X, 128 гигов памяти. Один из сервачков на работе взял погонять. И знаешь, что? Вполне себе удобоваримо. Работать можно. И да, Оллама сразу в нем нашла графику, что не может не радовать. @rayslava Скорость - примерно одно-два слова в секунду. Да, может быть, хотелось бы побыстрее, но не "невозможно". Уверен, была бы видюшка пооборотистее, было бы вообще хорошо. Наверное, надо попробовать подружить ее со своей рыксой, но я не уверен, что она держит ROCm. @drq можешь поставить эксперимент вот с этой пепякой: https://github.com/vosen/ZLUDA |
@drq yep. "A bit slow, but okay" is the best option we have now, I guess. And future seems even darker.
Running something like 80B models published lately or some behemoths like Grok with its 314B parameters seems nearly impossible for most enthusiasts 🤷🏻♂️