Šta je novo?

Generalan problem sa stabilnoscu AMD 59xx serije sa Linux ~6.5 kernelom (ubuntu 22.04 server)

techone

Poštovan
Učlanjen(a)
18.08.2020
Poruke
648
Poena
75
Moja oprema  
Pristup internetu
  1. Optički internet
Posto imam dosta masina na linux i pretezno su 5900x i 5950x u zadnje vreme vidjam sve vise random restarte pre svega u mix load ili low cpu use load, greske su 100% uvek iste ili ga kernel log ne zabelezi ili posle restarta kernel log ima MCE error
Jednostavno ne mogu da zakljucim sta je tacno problem ali je net generalno pun lose binovanih procesora i prica ide da neki kerneli jako zategnute postavke drze ili da je neki C low power state pa i napajanje krivo, ali posto mi se za sad desava na skoro sve 59xx masine i posto je problem jako tesko uociti jer se restart desi na 20-40 dana krenuo sam redom

  • 2 masine vratio na kernel 6.2
  • 1 masinu iskljucio c6 verovatno sa: Power idle control: Typical current idle i jos neke tweakove sa reddit ali dok se ne restartuje ili ne proverim ne znam sad koji su
  • 1 masinu stavio na +5 PBO
imam starije masine 5900x koje su 1god radile stabilno na -20 curve sad mislim da su na def i jos ne znam jel prave problem jer sam ih tek skoro restartovao i updatovao kernel

sve su ploce iz boljih serije (biosi od pre 3-4 meseca nedge, na neke sam i updatovao zadnje ali posto nisam sve zapisivao ne znam tacno), napajanja od cors, be quite itd, doduse neka napajanja su starije serije ko kors cx itd, ali opet kompovi nikad nejdu u idle, memorije su sve kingston renegade na 3200 i sve su 100% ok, kuleri su razn uglavnom ih drzi na 70-90C jer su neki na 125w neki na ~160-170W

greska je uvek ovde:
Kod:
1.049313] mce: [Hardware Error]: Machine check events logged
kernel: [    1.049316] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 3: baa0000000030118
kernel: [    1.049329] mce: [Hardware Error]: TSC 0 MISC d012000100000000 SYND 4d000027 IPID 300b000000000
kernel: [    1.049339] mce: [Hardware Error]: PROCESSOR 2:a20f10 TIME 1708133546 SOCKET 0 APIC 0 microcode a201025

ima bas tona postova na netu i sve se nekako vrti u krug, veci bost manji napon na linux, bla bla, mene interesuje samo da pokusam da nadjem sta je tacno i da to prestelujem i da se zna problem jednom tacno gde je

Ovaj topic ne bi otvarao u HW jer je bas specifican vise za linux (siguran sam da je sve ispravno pa cak i procesori osim da su neki mozda losiji bin), na winowsu bas procesori koji su bas u losem stanju prave ove greske i to je jako retko, ono sto je cudno ljude je ovo mucilo i ranije a meni se sad desava, zadnja 2-3 meseca, ok mozda mi se i upotreba linux svela na taskove koji ne drze konstantno cpu na 100% vec ima periodicnih padova na load od 1-2 jezgra, cak sam ufurao i kad je hladnije da se javi problem sto mozda i bude moguce jer cpu vise boostuje
 
Nije bilo restarta do danas, neke masine su mi zavrsile taskove i sve upucuje da se problem definitivno javlja zbog CPU low power stata log od danas:
Kod:
mce: [Hardware Error]: Machine check events logged
Mar 22 10:07:13 ploter5950 kernel: [    0.736474] microcode: CPU15: patch_level=0x0a201016
Mar 22 10:07:13 ploter5950 kernel: [    0.736474] microcode: CPU31: patch_level=0x0a201016
Mar 22 10:07:13 ploter5950 kernel: [    0.736476] mce: [Hardware Error]: CPU 2: Machine Check: 0 Bank 5: bea0000000000108
Mar 22 10:07:13 ploter5950 kernel: [    0.736484] fbcon: Taking over console
Mar 22 10:07:13 ploter5950 kernel: [    0.736487] mce: [Hardware Error]: TSC 0 ADDR 55fa75468a6a MISC d012000100000000 SYND 4d000000 IPID 500b000000000
Mar 22 10:07:13 ploter5950 kernel: [    0.736499] mce: [Hardware Error]: PROCESSOR 2:a20f10 TIME 1711098430 SOCKET 0 APIC 4 microcode a201016
Mar 22 10:07:13 ploter5950 kernel: [    0.736506] mce: [Hardware Error]: Machine check events logged
Mar 22 10:07:13 ploter5950 kernel: [    0.736507] mce: [Hardware Error]: CPU 28: Machine Check: 0 Bank 5: bea0000000000108
Mar 22 10:07:13 ploter5950 kernel: [    0.736512] mce: [Hardware Error]: TSC 0 ADDR 55fa747654d0 MISC d012000100000000 SYND 4d000000 IPID 500b000000000
Mar 22 10:07:13 ploter5950 kernel: [    0.736522] mce: [Hardware Error]: PROCESSOR 2:a20f10 TIME 1711098430 SOCKET 0 APIC 19 microcode a201016

Videt cu da prestelujem bios u svakom koji se resetuje za low power state i vidim dalje
 
Moje iskustvo sa Asus/Gigabyte + 12th, 13th, 14th Intel ako ima problema sa random restartima je disable C States u cpu sekciji.
 
Nazad
Vrh Dno