@drq @rayslava насколько я понимаю, вопрос не то чтобы в производительности, сколько в объемах VRAM, чтобы модель туда целиком влезла. народ гоняет llama 70b на двух теслах p40, старых как говно мамонта, зато каждая по 24gb. даже запихуемо в обычный корпус, разве что охлаждение колхозить надо...