qwq-32B 4-бит версия влазит на 4090 / 24G с размером контекста 12000 токенов, с большим не влазит (оллама) — начинает работать на цпу. скорость на gpu — 25 котенов/сек. #AI #profit