Šta je novo?

HDD S.M.A.R.T. Multi Zone Error Rate greške

5xeVo

Slavan
Učlanjen(a)
15.05.2007
Poruke
741
Poena
345
Moja oprema  
CPU & Cooler
r9 9950x | nh-d15+offset :: e3-1225v2 | lc-cc-94
Matična ploča
x870e taichi lite :: intel server board s1200kp
RAM
2x32 6000c30 :: 2x8 1600 ecc
GPU
rtx 3090 :: iGPU
Storage
kc3000 2tb :: ssd 120 | hdd 16+16 tb
Zvuk
int. :: int.
PSU
hcg 1000 pro :: fd ion+ 660p
Kućište
fd north xl :: fd node 304
Monitor
iiyama 32'' + hp 24'' :: headless
Miš & tastatura
mx keys | mx master 2s
Laptop
hp elitebook 830 g8
Pristup internetu
  1. Optički internet
Kolege forumaši,


Zamolio bih vas za pomoć oko dijagnostike HDD-a koji je počeo da otkazuje,

Napomena na startu, disk sam diskonektovao a skrinšot SMART dijagnostike je napravljen u momentu kada sam primetio čudno ponašanje NAS-a.
Disk se nalazi u custom NAS-u sa OMV-om.


Pre neko veče nisam mogao prekopirati neki fajl sa NAS-a na laptop, posle nekoliko neuspelih pokušaja kopiranja odlučio sam da pogledam SMART dijagnostiku.
Problematični HDD ima 1 bad sector, 1 pending bad sector i 12 Multi Zone Error Rate grešaka.

1718472071336.png

Pretražujući internet za ove greške uglavnom sam nalazio neke polu-informacije da je u pitanju mehanički kvar/defekt igle i/ili ploča.

Podaci na ovom disku:
  • kompleta arhiva projekata od faksa.
  • privatna dokumenta (skenirani originali itd).
  • arhiva eKnjiga
  • ostali folderi nisu toliko bitni.

(Polu)Sreća u nastaloj situaciji što imam backup arhive projekata ali star oko min. 2 godine.

Arhiva fotografija, filmova i drugih fajlova nije na ovom disku.


Sve u svemu, imam sledeća pitanja:
  • Da li neko zna o čemu se tačno radi i koliko je ozbiljna situacija?
  • Da li postoji šansa da se izvuku podaci ako je problem do mehanike?
  • Svaki dugi savet koji može pomoći je dobrodošao.


Trenutni plan mi je da prvo proverim backup diskove (koliko je star, tj. koje godine treba da targetiram tokom izvlačenja podataka.



Hvala svima unapred :)
 
1. Ako ti do sada nije palo na um da uradis backup ovog problematicnog hdd-a, ne znam sta cekas???
A ako backup nije izvodljiv iz bilo kojih faktora kao npr. i konflikt usled nemogucnosti kopiranja tog datog fajla ili foldera.
Onda nema druge do da kopiras foldere jedan po jedan ili grupno ali bez doticanja problematicnog dijela.

2. Za sad jos nema panike. Ono sto svakako treba da uradis jeste "popravka" 12 Multi Zone Error Rate grešaka.
I izolirati taj jedan losi sektor.

Problem postaje veci kako se losi sektori pocnu umnozavati, poput virusa.
Jedan los sektor uglavnom upucuje na fizicku shtetu na plochi. Mada ima slucajeva da se i oni otklone,doduse vrlo rijetko.
Stoga ga je bolje izolirati i pustiti ga da crkne u samoci.

Kolika je shansa da se doticni fajl iskopa tj. prebaci u formi u kakvoj i jeste, je vrlo diskutabilno.
Za tako nesto vrijedi isprobati one programe koji se bave takvom vrstom havarija. Mada uglavnom je to izgubljena bitka.
Ali vrijedi probati.
 
Zdravo Che :)

Nisam stigao napisati nazad rezultate svih aktivnosti, imao sam ,,zanimljiv'' mesec iza sebe. Hvala ti za podsetnik.

Elem, okolnosti su bile takve da na toj lokaciji gde se privremeno nalazio NAS nisam imao ni eksterni monitor, ni periferije, ni svoje butabilne USB alate (stelec i ostalo).
Pošto mi nije bila jasna geneza problema i učinilo mi se da je kliktao disk, odmah sam sve pogasio, izvadio disk i kad mi je bilo zgodno odneo u jednu domaću firmu za recovery podataka sa oštećenih medija.

Firma je izvukla sve podatke sa diska, koliko sam uspeo pretražiti i pregledati skoro 3TB podataka, svi (najbitniji) fajlovi su čitljivi.
Njihova dijagnostika je pokazala samo logičku grešku i da je sa njihove tačke gledišta disk mehanički ispravan (glave, ploče itd). SMART izveštaj ih nije zanimao ni najmanje.
Na toj pređašnjoj lokaciji je znalo biti prekida u električnom napajanju (hvala EPS ;)) pa je možda i to bio uzrok problema koji sam imao a koji mi je skrenuo pažnju na SMART dijagnostiku diska.
Imao sam i ranije iskustva sa vraćanjem u funkcionalno stanje diskova sa logičkim greškama. Možda sam i ovo mogao sam ali zbog SMART grešaka i internet pretrage koja je sugerisala na problem/kvar glava, nisam hteo sam da eksperimentišem.

Trenutno stanje, NAS je počašćen sa 2x 16TB Seagate Exos diska, stavljenih u SnapRAID, jedan disk za podatke, drugi za Parity data. Svi podaci prekopirani na nove diskove.
U toku svih ovih dešavanja, konačno mi je stigao internet u stan u kojem živim skoro godinu dana, tako da je NAS premešten kod mene.

Potom sam konektovao ponovo i problematični HDD da ga pogledam u HDSentinel-u.
Multi Zone Error Rate (u OMV SMART dijagnostici) je ustvari Write Error Rate u HDSentinel-u.
Ovo možda, nekada, nekome bude od koristi. :)
 
Kada je tako ozbiljna upotreba i naj manja greška ili upozorenje je znak za uzbunu. Ostavi neki profram da radi u pozadini koji će da raportira svaki sumnjivi podatak a "1 backup = no backup".
 
Zdravo Che :)

Nisam stigao napisati nazad rezultate svih aktivnosti, imao sam ,,zanimljiv'' mesec iza sebe. Hvala ti za podsetnik.

Elem, okolnosti su bile takve da na toj lokaciji gde se privremeno nalazio NAS nisam imao ni eksterni monitor, ni periferije, ni svoje butabilne USB alate (stelec i ostalo).
Pošto mi nije bila jasna geneza problema i učinilo mi se da je kliktao disk, odmah sam sve pogasio, izvadio disk i kad mi je bilo zgodno odneo u jednu domaću firmu za recovery podataka sa oštećenih medija.

Firma je izvukla sve podatke sa diska, koliko sam uspeo pretražiti i pregledati skoro 3TB podataka, svi (najbitniji) fajlovi su čitljivi.
Njihova dijagnostika je pokazala samo logičku grešku i da je sa njihove tačke gledišta disk mehanički ispravan (glave, ploče itd). SMART izveštaj ih nije zanimao ni najmanje.
Na toj pređašnjoj lokaciji je znalo biti prekida u električnom napajanju (hvala EPS ;)) pa je možda i to bio uzrok problema koji sam imao a koji mi je skrenuo pažnju na SMART dijagnostiku diska.
Imao sam i ranije iskustva sa vraćanjem u funkcionalno stanje diskova sa logičkim greškama. Možda sam i ovo mogao sam ali zbog SMART grešaka i internet pretrage koja je sugerisala na problem/kvar glava, nisam hteo sam da eksperimentišem.

Trenutno stanje, NAS je počašćen sa 2x 16TB Seagate Exos diska, stavljenih u SnapRAID, jedan disk za podatke, drugi za Parity data. Svi podaci prekopirani na nove diskove.
U toku svih ovih dešavanja, konačno mi je stigao internet u stan u kojem živim skoro godinu dana, tako da je NAS premešten kod mene.

Potom sam konektovao ponovo i problematični HDD da ga pogledam u HDSentinel-u.
Multi Zone Error Rate (u OMV SMART dijagnostici) je ustvari Write Error Rate u HDSentinel-u.
Ovo možda, nekada, nekome bude od koristi. :)
Које имаш Exos дискове ? Имаш ли хлађење NAS-a ?
 
Које имаш Exos дискове ? Имаш ли хлађење NAS-a ?
Kupio X18 od 16 TB, imam hlađenje.

Skoro sam naišao na neke Backblaze statistike da su se X18 lošije pokazali od X16, mada je još uvek mali uzorak.
 
Nisam naišao na taj podatak :S. Hvala za napomenu!

Trenutno su na oko 35 stepeni. Imam par opcija da poboljšam hlađenje.
 
Ja bas sad gledam kako se cita SMART jer mi se javio problem sa diskom pa da prokomentarisem ovo gore mozda bude nekom korisno i postavim pitanje.

Na osnovu SMARTa gore bi rekao da je bio u pitanju 'weak sector' jer je postavljeno 1 na Pending_Sector count a Reallocate_Sector count je 0.
Weak sektor je koliko sam video nesto sto disk jos uvek ne zna da li je bad sektor ili je one-off greska pri upisu zbog nestanka struje, loseg napajanja ili losih kablova - sto se uklapa sa nestankom struje koje je pomenuto.
Za weak sektore odn pending sektore se preporucuje Repair test u HDD Sentinelu (Disk / Surface test / Disk repair) koji skenira sve sektora da li su citljivi a kad naidje na weak sektor vraca status na good ili ga relocira (i u tom slucaju se poveca broj relociranih sektora koji odgovara broju bad sektora).


E sad pitanje, za taj Repair test se kaze da nije destruktivan medjutim sta se desava kada naidje na 'damaged' sektor, odn da li su podaci na njemu nepovratno izgubljeni?

The test is safe for stored data and the damaged file(s) will be readable, however file fragment(s) on damaged sectors may be corrupted. File(s) on the affected repaired sectors are listed when the test completed.
 
Podatci (sve što može da se pročita) se prebacuju u "rezervni" deo koji ima svaki disk i onda se obeleži kao nedostupan. Ako je tu ceo file i fali i jedan bit ili bite, taj file postaje neupotrebljiv kao celina. CHKDSK.EXE iz windowsa radi istu stvar ali pronađeni i relocirani podaci se pišu u found.000, found.001 itd. i obično su neupotrebljivi mada može da se izvuku neki bitovi. Neki weak sectori mogu da se poprave prepisivanjem preko njih jer se za pisanje uptrebljava jači magnetizam nego za čitanje.
 
Verujem da je tako u slucaju da je sektor los iz perspektive HDDa - tada ga HDD oznacava i postavlja kao nedostupan a umesto njega na dalje koristi rezervni sektor. Broj tih iskoriscenih rezervnih sektora se upisuje u SMART Relocated_Sector count i to bi trebalo bude isti broj kao broj bad sektora.

Weak sektor (Pending_Sector) moze da bude oznacen kao los i remapiran ali moze i da se ocisti oznaka Pending_Sektor sa njega, mislio sam na taj slucaj kada nije problem u samom sektoru ili mediji vec je oznacen zbog loseg kabla/napajanja itd. Da li u tom slucaju mogu da se procitaju korektno podataci sa tog sektora ili su vec izgubljeni u svakom slucaju.
 
Ako nije samo do file systema, tj, OS-a, to što upiše u SMART tu i ostaje pa makar je i "popravljen" Jedino zamena firmware-a može to da promeni. Tako varaju na onim "Refurbished" diskovima, upišu nov Firmware i sve izgleda kao novo. Tako sam jednom nadrljao sa Hitachi 1TB diskom, Skoro kao now, malo radio i SMART 100%. Posle nekoliko dana počeo da izbacuje greške, pogledam po serial broju kad ono upisan novi FW koji i nije za njega.
 
@flash.aa
Podaci iz weak bloka mogu i da se pročitaju a i da se ne pročitaju. Prilikom upisa podataka u blok, upisuju se sami podaci ali i cheksum upisanih podataka. Prilikom operacije čitanja, računa se cheksum onoga što je pročitano i poredi za zapisanim cheksum-om. Ako se ne slažu, to je onda weak blok. Npr. ako bi između glave diska i tog bloka u tom trenutku postajala neka prljavština, pa ona recimo nestane, onda bi blok mogao da se pročita.

Što se tiče samog Repair Disk Surface Test-a u HDDSentinel-u, mislim da će on kada naiđe na slabe blokove da pokuša da ih pročita, i zatim izvrši upis (ili pročitanih podatka ili "nula" ako ne može da pročita) da bi se ponovnim čitanjem tih blokova proverilo da li i dalje imaju problem ili ne. Oni koji i se i dalje ne mogu pročitati će izgubiti svoju adresu koja će biti dodeljena nekom bloku iz rezerve.

Uglavnom, ako su ti podaci bitni, najbolje da odneseš u servis, jer ako je neki fizički kvar u pitanju, što duže disk radi, teže će biti da se spasu.
 
@CountMike

To vazi osim za pending sektore - za njih je predvidjeno da sam SMART moze da resetuje status posle uspesnog upisa, sto mozda i ima smisla ako ih izazovu prolazne greske koje nemaju veze sa diskom.

0xC5Current Pending Sector Count[62]Low
Lower
Critical

[8][57][60]
Count of "unstable" sectors (waiting to be remapped, because of unrecoverable read errors). If an unstable sector is subsequently read successfully, the sector is remapped and this value is decreased. Read errors on a sector will not remap the sector immediately (since the correct value cannot be read and so the value to remap is not known, and also it might become readable later); instead, the drive firmware remembers that the sector needs to be remapped, and will remap it the next time it has been successfully read.[75]
However, some drives will not immediately remap such sectors when successfully read; instead the drive will first attempt to write to the problem sector, and if the write operation is successful the sector will then be marked as good (in this case, the "Reallocation Event Count" (0xC4) will not be increased). This is a serious shortcoming, for if such a drive contains marginal sectors that consistently fail only after some time has passed following a successful write operation, then the drive will never remap these problem sectors. If Raw value of 0xC5 attribute is higher than its Threshold value, that will reported as "drive warning".[76][77]

A "weak sector" or "pending sector" (the same but with different name) is a sector where the CRC check showed problems on a read operation, but (currently) no physical problem encountered. The drive marks such sector as "pending sector" and on next write operation(s) the drive verifies the status of the corresponding sector to confirm if it can be re-used or not.

If things are good, the drive sector could read back and there are no signs of problems, then the status of the sector set back to normal (the number of such weak sectors may decrease and thereis no re-allocation). But if this verification shows failure, then the drive starts the reallocationprocess and marks the sector as bad - to completely disable its later use and re-direct allfurther reads and writes to the spare area instead. Then the number of bad (reallocated) sectorsmay incrase and they may be reported in Hard Disk Sentinel.
Disk menu -> Surface test -> Disk repair test designed to diagnose and attempt to repair easier by performing a read test - and attempting the repair specifically on the affected sectors found problematic during this test. After the test, possible damaged files (located on the original problematic, damagedsectors) listed for reference.
 
@flash.aa
Podaci iz weak bloka mogu i da se pročitaju a i da se ne pročitaju. Prilikom upisa podataka u blok, upisuju se sami podaci ali i cheksum upisanih podataka. Prilikom operacije čitanja, računa se cheksum onoga što je pročitano i poredi za zapisanim cheksum-om. Ako se ne slažu, to je onda weak blok. Npr. ako bi između glave diska i tog bloka u tom trenutku postajala neka prljavština, pa ona recimo nestane, onda bi blok mogao da se pročita.

Što se tiče samog Repair Disk Surface Test-a u HDDSentinel-u, mislim da će on kada naiđe na slabe blokove da pokuša da ih pročita, i zatim izvrši upis (ili pročitanih podatka ili "nula" ako ne može da pročita) da bi se ponovnim čitanjem tih blokova proverilo da li i dalje imaju problem ili ne. Oni koji i se i dalje ne mogu pročitati će izgubiti svoju adresu koja će biti dodeljena nekom bloku iz rezerve.

Uglavnom, ako su ti podaci bitni, najbolje da odneseš u servis, jer ako je neki fizički kvar u pitanju, što duže disk radi, teže će biti da se spasu.

Evo sta se desilo - na disku su postojala 2 pending sektora a ostali SMART je izgledao ok - bez realociranih / spin problema / gresaka u komunikaciji itd.

Pustio sam Repair test i posle sat vremena pronasao je crc greske na 16 sektora (ukljucujuci i ta 2 pending) i kaze ispravio.

1729848738849.png
19.10.2024 14:38:25 Sequential test, Disk: [7] 3726 GB WDC WD40EFRX-68WT0N0 [WD-WCC4E3PVN2LL] [Repair]
19.10.2024 14:38:25 Test ID# 1 00030002 00250091 1 4 H: 660
19.10.2024 15:27:31 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591776, Block: 1112 File: Unused sector on logical drive \
19.10.2024 15:27:35 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591776, Block: 1112 File: Unused sector on logical drive \
19.10.2024 15:27:38 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591776, Block: 1112 File: Unused sector on logical drive \
19.10.2024 15:27:39 Repair successful Sector: 869591776, Block: 1112 [0 (0) 0 (0) 0 (0) 0 (0) 0 (0) ]
<isto za blokove 869591777-869591783>
19.10.2024 15:27:56 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591808, Block: 1112 File: Unused sector on logical drive \
19.10.2024 15:28:00 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591808, Block: 1112 File: Unused sector on logical drive \
19.10.2024 15:28:03 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591808, Block: 1112 File: Unused sector on logical drive \
19.10.2024 15:28:04 Repair successful Sector: 869591808, Block: 1112 [0 (0) 0 (0) 0 (0) 0 (0) 0 (0) ]
<isto za blokove 869591809-869591814>
19.10.2024 15:28:16 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591815, Block: 1112 File: Error: Unable to detect partition / logical drive information. E: -12
19.10.2024 15:28:16 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591815, Block: 1112 File: Error: Unable to detect partition / logical drive information. E: -12
19.10.2024 15:28:17 ! Error: 23 Data error (cyclic redundancy check)., Sector: 869591815, Block: 1112 File: Error: Unable to detect partition / logical drive information. E: -12
19.10.2024 15:28:17 Repair successful Sector: 869591815, Block: 1112 [0 (0) 0 (0) 0 (0) 0 (0) 0 (1) ]
<snip>
19.10.2024 15:42:18 16 sector(s) successfully repaired.
19.10.2024 15:42:18 Test stopped

Hard disk test details
0 new reallocated sectors found
0 new spin retry errors found
0 new reallocation events found
2 pending sectors fixed
0 new off-line uncorrectable sectors found

16 sector(s) successfully repaired.

Posle ovoga SMART prikazuje nula za Pending a nema ni Relocated.

E sada, ono sto bi mene zanimalo je da li bi moglo da se kaze da su podaci u tih 16 sektora validno sacuvani ili ne.
 
Sada je možda kasno ali HDD Regenerator može da prikaže tačne adrese tih sectora ili neki HDD Mapper program. Ako bi znao adrese tih sectora, na O&0 defrag recimo može da se vidi sadržaj svakog sectora kada klikneš na njega. Moguće je i da nije ni bilo podataka u tim sektorima. Sada bi verovatno bilo najbolje da odradiš CHKDSK /f i defrag sa optimizacijom sa pomenutim O&O Defrag.
 
@flash.aa

The test is safe for stored data and the damaged file(s) will be readable, however file fragment(s) on damaged sectors may be corrupted. File(s) on the affected repaired sectors are listed when the test completed.
Ako ništa nije izlistao, ja bi rekao da se radi o slobodnom prostoru.

Može i u Sentinelu da se klikne na bilo koji blok i da se vidi delovi kojih fajlova se na njemu nalaze.
 
Nazad
Vrh Dno