Email or username:

Password:

Forgot your password?
Alexey Skobkin

Случайно заметил, что мне LLM стали очень как-то лениво отвечать.

Уже пооткатывал разные версии ollama пока не дошёл до той, где точно всё работало хорошо получив такой же результат.

И потом внезапно заметил, что amdgpu_top мне показывает не тот GPU. Не дискретную графику, а встроенную в процессор.

Открыл сервер и понял, что судя по всему, когда менял подохший вентилятор на CPU, случайно вытащил райзер видеокарты из слота PCI-e.

🤦‍♂️

#log #server #hardware #log #maintenance #LLM #FAIL #GPU

6 comments
Alexey Skobkin

Ах да.

Я ж ещё думал чего это у меня потребление памяти выросло гигов на ~десять, но в детали не вдавался, так как она ещё не кончалась...

А ollama просто от безысходности грузила модели в обычную память и молотила на процессоре...

burbilog

@skobkin да, регулярно такое случается -- не сумев запользовать видеокарту оно молча юзает процессор и понять это можно только по дичайшим тормозам

причем без вытаскивания чего-бы то ни было, просто от проглючившего драйвера видюхи. лечится ребутом, да.

Alexey Skobkin

@burbilog
Ну, не только.
Ещё по логам, по мониторингу памяти.
В общем-то я посмотрев туда и полез посмотреть в amdgpu_top чтобы увидеть, что КАРТЫ-ТО НЕТ.

Digitual :ablobcatwave:

@skobkin ничего себе поведение...

Alexey Skobkin

@Parabrando
Если что, это абсолютно правильное и ожидаемое поведение. Ведь не все гоняют нейронки на GPU. Плюс большие сетки вроде 70B моделей в домашнюю карту просто не влезут.
Так что такой фоллбэк на CPU - это нормально. Это мне стоило проверять, что всё на месте после замены вентилятора.
А то могло бы быть и хуже: например, райзер мог выскочить из разъёма не до конца или сползти вбок и что-нибудь переполюсовать.

Digitual :ablobcatwave:

@skobkin соглашусь, ламу многие на cpu юзают, а не на gpu. Себе ставил 3b. Но 70 для меня жирно.

Go Up