@shuro @Revertron @rayslava @zd915
> Есть работающие на ОЗУ и ЦП.

Это будет больно если не мощный CPU. При этом если использовать в режиме чата, то каждый последующий ответ будет генерироваться всё дольше и дольше (контекст растёт), что на CPU может быть совсем больно.

Я тут уже по-моему постил видео пример того как какая-то 7B модель работает на достаточно хорошему Ryzen 7900X. В целом с этим можно жить, но не всегда комфортно.

Вот:
lor.sh/@skobkin/11198366245430

Тут был пример первого ответа прогретой моделью в чате на 7900X. Но если этот чат состоит из десятков реплик, то это всё будет ЗАМЕТНО медленнее.