Email or username:

Password:

Forgot your password?
Dr. Quadragon ❌

@rf, помоги!

Попеременно отваливаются NVmE-диски. После перезапуска все становится нормально до следующего отвала.

Кто знает, что это за напасть? Это чипсет с ума сходит, или проц выгорает?

Или это у Самсунгов в принципе норма в последнее время?

18 comments
Dr. Quadragon ❌

@rf Если что, на другом сервере со в точности такой же конфигурацией, но другой материнкой - все нормально.

WildTuna 🇷🇺

@drq sata диски не стоят дополнительно ещё в проблемном? Часто m.2 порты конфликтуют с sata и нельзя занимать все

@rf

Alexey Skobkin

@wildtuna @drq
Это не приводит к отвалу. Одно из сразу отключается.

Mirivlad

@drq @rf ну если все такое же, а мать другая то вероятных причин две - проблемы по питалову, либо проблемы с контроллером. Я бы поставил на контроллер. Обычно на серверах два БП - так что по питанию проблемы сомнительны.


@drq@mastodon.ml @rf@mastodon.ml Могу предположить, что начали отьезжать контроллеры

loonycyborg
@drq @rf
Я бы поставил на перегрев.
Digitual :ablobcatwave:

@drq если мать - чайнамэйд (x99 и т.п. для xeon), то от высоких температур у них отклеиваются сокеты. У самого случилось третьего дня, но с оперативкой.

L29Ah

@drq @rf На моих 970 evo plus всё норм. Ты рекомендациям проследовал и не помогло, правда же?

Alexey Skobkin

@drq @rf Слушай, загугли сообщения перед отвалом с указанием своего чипсета и или материнки.
Я что-то похожее, кажется, ловил когда-то с другими PCI-e девайсами. Там проблема была в поддержке чего-то в линуксах (не помню чего именно) и помогло отключение какой-то фичи в UEFI.

Но было давно и на другом железе - так что не смогу вспомнить / посмотреть сейчас.

То ли IOMMU, то ли еще какой-то шаринг чего-то, то ли еще какая-то фича от AMD.

Meko #nowar
@skobkin @drq о, кстати. Не об ССД, а об iommu

У меня на компе, чтоб USB 3.0 не отваливались, в грабе прописано параметр GRUB_CMDLINE_LINUX="intel_iommu=off"

Материнка какая-то MSI. Проц Intel core i5-4590
MrClon

@drq может контроллеры перегреваются и выключаются? Сравни показания температуры в проблемном и нормальном серверах

Roman

@drq @skobkin @rf я бы смотрел на охлад. Оно нагревается и отвал, перегруз, остыло и по новой. Такие косяки отловить сложно. Радиатор на чипсете поставь здоровый с активным охладом.

Alexey Skobkin

@3draven @drq @rf
Они должны троттлить, а не отваливаться.

Mirivlad

@drq а ты пробовал pcie_aspm=off как тебе в логах советуют?

Mirivlad

@drq yну значит это не ина pci-e и ее чип. Так что проблема скорее-всего в контроллере именно ssd. Это печально(((

1lyaP

@drq @rf Да, к сожалению, у самсунгов хуёвое выходное тестирование это норма. Я 990-е думал брать,
но почитал форумы и прилично так переплатил за Firecud'ы 530-е, когда сервак домашний собирал, именно по этой причине: дорогая рулетка выходит.

Go Up