Testarea integrității datelor

Neo

The Good Doctor
Tot se discută despre metode de backup, NAS-uri, Bluray, etc. Dar mai interesant este altceva. Cum ne asigurăm că acele date rămân neschimbate, și, mai presus de orice, integre?

De ce deschid threadul? Păi tocmai am descoperit că am un set de fotografii relativ importante pentru mine care sunt corupte. Au fost backed up pe un HDD local, cu mirrors pe laptop și în încă vreo 2 locații, toate sincronizate cu SyncToy. Sistemul primește scanări ale discurilor relativ regulate, totul ar părea ok.

Or is it?

Voi cum testați integritatea datelor pe care le aveți stocate și backed up pe medii tip HDD? Pe discuri optice este clar nu au cum să se bușească decât în eventualitatea belirii fizice a discului, caz în care tot se mai poate face ceva de obicei. Dar cu biți corupți de pe HDD ce faci?

Discuss.
 
E unul din motivele pentru care pe NAS m-am zbatut sa am ZFS: face scrub la 35 de zile (implicit; se poate seta si alt interval, dar e recomandat o saptamana pentru enterprise use si 35 de zile pentru home use) si verifica si repara tot ce e cu probleme: daca da de un sector cu probleme, dar care se poate citi cu ajutorul CRC, il muta in alta parte. Asta la nivel de sector, la nivel logic fiind RAIDz are si redundanta discului n, deci am 2 motive sa cred ca datele sunt in regula si recuperabile in mod normal. Exista riscul unei caderi catastrofice a sursei care sa prajeasca si toate hardurile, de-aia mai am o copie la chestii esentiale (gen poze de familie) pe un alt HDD care sta in dulap.

NAS-ul e pe UPS.

Discurile optice se duc cel mai usor: substratul chimic este degradabil in timp; discul o sa arate perfect pe afara si e praf inauntru. Cele facute pe matrita nu au problema asta, ci cele scrise acasa - tehnologia de scriere e punctul vulnerabil.

Daca faci sincronizare intre sisteme ai toate sansele ca o varianta corupta sa fie replicata peste cele bune.
 
Datele nu se pierd in timpul stocarii, ci in timpul copierii/mutarii dintr-o parte in alta (ex. defragmentare). RAID-urile software sunt in mod special predispuse la genul asta de erori in timpul scrierii.

Eu tin chestiile arhivate in doua moduri: .RAR cu recovery record (suma de control are implicit) pentru programe, jocuri, etc. si "as is" cu suma de control .SFV pentru filme si muzica. Suma de control o actualizez manual atunci cand adaug sau sterg ceva din director.
Pentru recuperarea datelor in caz ca suma de control nu corespunde, folosesc backup-ul.
 
Discurile optice se duc cel mai usor: substratul chimic este degradabil in timp; discul o sa arate perfect pe afara si e praf inauntru. Cele facute pe matrita nu au problema asta, ci cele scrise acasa - tehnologia de scriere e punctul vulnerabil.

Daca faci sincronizare intre sisteme ai toate sansele ca o varianta corupta sa fie replicata peste cele bune.

1. În vreo 200 de ani, cam așa.
2. Da, presupun că fix asta s-a întâmplat :( Pozele le-am recuperat, aveam backup în altă parte (:D), dar review-ul respectiv s-a dus naibii cu tot, se pare că toate fișierele din folderele respective s-au dus dracului.
3. Nu pricep o chestie. ZFSul respectiv verifică defecte fizice ale sistemului de stocare sau defecte ale fișierelor? Pentru că de fapt asta este extrem de frustrant, practic dimensiunile fișierelor sunt identice cu originalele, dar sunt corupte efectiv.

Datele nu se pierd in timpul stocarii, ci in timpul copierii/mutarii dintr-o parte in alta (ex. defragmentare). RAID-urile software sunt in mod special predispuse la genul asta de erori in timpul scrierii.

Eu tin chestiile arhivate in doua moduri: .RAR cu recovery record (suma de control are implicit) pentru programe, jocuri, etc. si "as is" cu suma de control .SFV pentru filme si muzica. Suma de control o actualizez manual atunci cand adaug sau sterg ceva din director.
Pentru recuperarea datelor in caz ca suma de control nu corespunde, folosesc backup-ul.
Totul se defragmentează periodic, dar doar cele menționate au fost bulite. De asemenea, nu am pe RAID nimic esențial, iar sincronizarea este unidirecțională dinspre RAID.

La ce folosește CRCul dacă datele efective se corup, doar ca să-ți spună că ceva e fucked? Bună chestie, văd și singur asta :D
 
Am CDuri din 1999 care funcționează perfect. Am mai specificat odată că Bluray-urile sunt mult mai rezistente decât CDurile, respectiv DVDurile.

Teoretic, layerele organice ar trebui să supraviețuiască perfect minim 100 de ani. Acum, dacă ai umiditate 99% în casă și variații mari de temperatură, posibil să crape după <1 an, dar asta nu este valabil la latitudinea asta.
 
3. Nu pricep o chestie. ZFSul respectiv verifică defecte fizice ale sistemului de stocare sau defecte ale fișierelor? Pentru că de fapt asta este extrem de frustrant, practic dimensiunile fișierelor sunt identice cu originalele, dar sunt corupte efectiv.
ZFS citeste toate sectoarele dintr-un bloc si verifica sumele de control; daca suma de control arata ca datele sunt corupte incearca sa le refaca pe baza blocului de paritate; daca reuseste, scrie o copie noua a blocului respectiv (date + paritate).

Datele nu se pierd in timpul stocarii, ci in timpul copierii/mutarii dintr-o parte in alta (ex. defragmentare). RAID-urile software sunt in mod special predispuse la genul asta de erori in timpul scrierii.
1. Datele se corup in timp si daca sunt stocate; la mediile magnetice nu stiu care e timpul de demagnetizare, dar la fiecare scriere magnetizarea unui sector se duce la parametrii initiali, asta inseamna ca datele scrise recent si cele scrise de mult au o durata de viata diferita.
2. Ce te face sa afirmi ca RAID software e mai predispus la asta? Diferenta majora fata de un controller RAID I2O e ca astea au de obicei si baterie de backup, nimic altceva. Daca iti pica curentul in timp ce scrii pe discuri ai aceleasi buseli la RAID software sau hardware fara baterie, conteaza mai mult sistemul de fisiere (jurnalizat sau nu) decat tipul de RAID.
 
Din observatii personale stiu ca RAID-ul software este mai predispus la erori. Datele sunt corupte in procesor, memorie si la transferul prin diferite bus-uri fara detectia erorilor. Procesorul nu verifica calculele, memoria nu mai are ECC/paritate, iar bus-urile seriale actuale n-au decat un encoding tolerant la clock drift / bit slip, nu ECC adevarat fiindca ar trebui un procesor la celalat capat care sa verifice ECC-ul si, evident, ar fi prea scump. RAID-ul software face toate operatiile in procesorul si memoria sistemului. BTW, prin retea, unde exista sume de control la fiecare transfer, nu mi s-a intamplat niciodata sa am date corupte si am fost foarte atent la chestia asta.

Defragmentarea periodica pe discul/RAID-ul de arhive este o greseala. Mediul se scrie o data, se verifica scrierea (SFV) si apoi trebuie sa ramana neatins cat mai mult timp. Bineinteles, se pot adauga date, dar nu-i bine sa fie mutate cele deja scrise. Da, mediile se demagnetizeaza in timp, dar la hardurile facute in ultimii 20 de ani nu-i nevoie decat de o verificare o data la 2 ani.

@AdrianB1: Gresesti. Daca s-a degradat mediul magnetic in zona unui sector, sectorul oricum va trebui realocat fiindca nu poti reface marcajul de sector sau pistele servo (care sunt tot date inregistrate magnetic). Alea se pot rescrie doar la formatarea low-level adevarata, adica la SCSI, nu si la SATA.

@Neo: SFV-ul ajuta la verificarea automata a datelor, astfel incat sa nu trebuiasca sa deschizi fiecare fisier in parte sa vezi daca mai e bun sau nu. BTW, cum verifici un film? Te uiti la el cap-coada in cautare de pete de culoare sau pocnete audio?
 
Marius, tot respectul pentru experienta ta, dar chestia asta cu "observatii personale", "nu mi s-a intamplat mie" sau "am vazut eu" are valoare fix 0. Daca imi dai link la un articol, niste teste, etc. mai vorbim, altfel experienta personala este doar experienta personala, nu inseamna ca se aplica tuturor.
 
Mie mi se pare hilară faza cu "raid software sux" venind de la cineva care folosește FAT32, la fel și sfatul împotriva defragmentării. De asemenea, vreau și eu să înțeleg de ce ar ține cineva backup pe o matrice RAID și ce avantaje ar avea aceasta VS un HDD formatat normal.

De asemenea, una la mână, nu țin filme pe HDD, singurele chestii care mă interesează le am arse pe BR și n-au treabă cu Hollywood-ul.

Doi la mână, este practic ZFS de folosit la un sistem desktop pentru stocare? M-ar interesa să-l testez, eventual iau câteva HDDuri de 3-4TB, care o fi mai ieftin per GB și încheg un RAID de genul, măcar scap de o problemă.
 
Eu facusem RAID mai mult pentru insumarea capacitatilor. Nu-mi place sa imi impart chestiile in tzspe locuri si apoi sa stau sa le caut.
Era pe vremea cand stateam intr-un camin studentesc, scriam CD-uri si rulam DC++ in reteaua locala. De remarcat ca CD-urile s-au pastrat mai bine ca RAID-ul. :D
 
Din observatii personale stiu ca RAID-ul software este mai predispus la erori. Datele sunt corupte in procesor, memorie si la transferul prin diferite bus-uri fara detectia erorilor.
Procesorul are corectie de erori, transferul prin PCIe are corectie de erori etc. In schimb un controller RAID hardware care are tot un procesor (gen i960, pe vremuri) si RAM pe el si foloseste tot un bus pentru comunicatii are aceleasi sanse sa corupa datele ca si procesorul gazda.

Doi la mână, este practic ZFS de folosit la un sistem desktop pentru stocare? M-ar interesa să-l testez, eventual iau câteva HDDuri de 3-4TB, care o fi mai ieftin per GB și încheg un RAID de genul, măcar scap de o problemă.

Nu inteleg intrebarea. Ce inseamna la tine desktop, un form factor al carcasei sau un PC cu Windows? ZFS nu merge cu Windows, ci doar cu Solaris sau FreeBSD; Solaris sau FreeBSD se pot instala pe aproape orice desktop, daca daca nu vrei sa te complici pui direct un soft de NAS pe un stick USB si doar configurezi discurile.

De asemenea, vreau și eu să înțeleg de ce ar ține cineva backup pe o matrice RAID și ce avantaje ar avea aceasta VS un HDD formatat normal.
1. Daca iti pica un HDD formatat cum vrei tu, adio date. Cu RAID trebuie sa iti pice minim 2 sau chiar minim 3 ca sa pierzi ceva.
2. Pentru ca in loc de 10.000 de CD-uri sau vreo 1.500 de DVD-uri prefer un singur NAS cu 4 HDD-uri organizate logic in 4-5 volume; e nu numai foarte usor de cautat, dar e si rapid si nu necesita sa schimbi discul, esential cand intri remote de la birou, crasma sau casa de toleranta.
3. Pentru ca in anumite cazuri rare poti face scrub pe tot backup-ul fara sa schimbi de 1500 de ori discul; o face automat.

@AdrianB1: Gresesti. Daca s-a degradat mediul magnetic in zona unui sector, sectorul oricum va trebui realocat fiindca nu poti reface marcajul de sector sau pistele servo (care sunt tot date inregistrate magnetic). Alea se pot rescrie doar la formatarea low-level adevarata, adica la SCSI, nu si la SATA.
Da, gresesc si tu ai dreptate, dar nu despre marcajul de sector sau pistele servo e vorba pentru ca la o rescriere nu te atingi de ele; eu vorbesc pur si simplu despre date. De fiecare data cand rescrii un sector refaci magnetizarea fiecarui bit fizic, date si CRC. Din cate stiu pistele servo aveau si componenta optica la unele discuri si oricum sunt scrise intr-un mod care le facea mult mai rezistente decat datele - sectoarele de date sunt facute sa fie scrise si citite usor, pistele servo erau teoretic read-only.
 
Nu inteleg intrebarea. Ce inseamna la tine desktop, un form factor al carcasei sau un PC cu Windows? ZFS nu merge cu Windows, ci doar cu Solaris sau FreeBSD; Solaris sau FreeBSD se pot instala pe aproape orice desktop, daca daca nu vrei sa te complici pui direct un soft de NAS pe un stick USB si doar configurezi discurile.
Windows :D M-am prins de idee, NAS it is...


1. Daca iti pica un HDD formatat cum vrei tu, adio date. Cu RAID trebuie sa iti pice minim 2 sau chiar minim 3 ca sa pierzi ceva.
2. Pentru ca in loc de 10.000 de CD-uri sau vreo 1.500 de DVD-uri prefer un singur NAS cu 4 HDD-uri organizate logic in 4-5 volume; e nu numai foarte usor de cautat, dar e si rapid si nu necesita sa schimbi discul, esential cand intri remote de la birou, crasma sau casa de toleranta.
3. Pentru ca in anumite cazuri rare poti face scrub pe tot backup-ul fara sa schimbi de 1500 de ori discul; o face automat.
1. Din câte știam SMART nu funcționează cu RAID. Cum poți afla din timp că pică discul 1/2/3? Pentru că, într-adevăr, sunt șanse mici să pice, dar dacă pică...
2. Fair enough, dar portabilitatea datelor depinde de viteza conexiunii la Internet, care aici este sub-mediocră. Plus că-n anumite rețele nici nu pot accesa protocoale gen FTP...
3. Nu prea înțeleg ce înseamnă scrub, practic verifică toate fișierele VS suma de control și apoi "repară"? Sună foarte anevoios la fișiere multe și mici oO
 
În RAID software, ai acces la informațiile SMART fără probleme. În RAID hardware, discul devine „dumb” și toată partea de control este preluată de controllerul RAID; printre altele, acesta menține și tabele de contoare pentru erori ca să identifice discurile defecte, îți dă alerte din timp, chiar și prin SNMP prin rețea etc. SMART face asta poate doar la pornire, sau dacă rulezi tu un utilitar care să monitorizeze parametrii respectivi.
 
2. Fair enough, dar portabilitatea datelor depinde de viteza conexiunii la Internet, care aici este sub-mediocră. Plus că-n anumite rețele nici nu pot accesa protocoale gen FTP...
3. Nu prea înțeleg ce înseamnă scrub, practic verifică toate fișierele VS suma de control și apoi "repară"? Sună foarte anevoios la fișiere multe și mici oO
2. Portabilitate poate fi sa ai nevoie de un singur fisier de 2 MB de care sa ai nevoie, nu sa ai acces complet la orice de oriunde - asta chiar tine de viteza conexiunii, nu de mediul de stocare.
3. Citeste toate datele de pe fiecare volum si repara ce e de reparat. Dureaza enorm, se face in background intr-o zi sau doua, eu personal nu am simtit cand a fost facut si oricum e rar, o data la fix 5 saptamani duminica. Da, citeste datele din fiecare bloc de date si blocul de paritate si daca oricare din ele are probleme le recupereaza (din informatia redundanta) si le rescrie in alta parte. Asta e la nivel mai sus de SMART, adica detecteaza si erori mai soft de care SMART nu se prinde.
 
(Fac cross-post aici cu thread-ul de Blu Ray, l-am văzut pe ăsta prea târziu. Poate e relevant pentru amândouă.)

Eu pot să vă împărtăşesc din experienţa unui amic care fotograf fiind (amator) făcea arhivare pe discuri optice aproape exclusiv, timp de peste o decadă. A început în jur de anul 2000 cu blank-uri CD. S-a interesat de blank-uri de calitate, a folosit un writer de calitate (ştiţi că pe vremea aia erau site-uri şi forumuri dedicate subiectului), a scris la viteze mici. A stocat de la bun început toate CD-urile în mape, nu în borcane. La un moment dat avea ~1000 de CD-uri.

Fiind atât de multe, la un moment dat a început munca de trecere a întregii arhive pe blank-uri DVD. Nu mai ştiu exact la ce distanţă de 2000, dar e relevant, o să mă interesez. Muncă manuală, multă răbdare, copia vreo 6-7 CD-uri pe PC, scria un DVD. A găsit stricate total sau parţial vreo 5 CD-uri din peste 1000. Erau CD-uri folosite relativ des deci bănuiala mea cade pe zgârieturi în timpul manevrării. Dar n-avem de unde şti exact, poate la fel de bine să fi fost deteriorare chimică.

În momentul de faţă a acumulat ~500 de DVD-uri şi este în curs de migrare a arhivei pe discuri Blu Ray (de la el mi-a venit ideea şi tot el mi-a recomandat writerul). Sunt curios şi eu câte va găsi defecte fizic, dar o să mai avem de aşteptat până termină.

PS: Şi CD-urile şi DVD-urile erau scrise în dublu exemplar fiecare, fiecare duplicat provenind dintr-un cake diferit.

LE: Am confirmat datele: undeva prin 1999-2000 a început cu CD-uri şi prin 2004-2005 a făcut trecerea la DVD. Deci ~1000 de discuri, 5 ani, 5 discuri defecte. DVD-urile au ~7-8 ani cele mai vechi, vom vedea care-i rata de fail.
 
Last edited:
Eu am avut vreo 4-5 DVD-uri din ~100 care n-au putut fi citite (bucăți mici din ele) după 5 ani. Discurile erau "curate" (fără zgârieturi/semne) și fără să fie folosite (erau doar backup la pozele pe care oricum le țineam pe HDD). Am avut și câteva sute de CD-uri. Tot așa, câteva n-au putut fi citite. Când m-am apucat să le verific și să le transfer pe DVD-uri mi-am dat seama că am și lucruri mai bune de făcut decât să frec discuri, așa că m-am lăsat și mi-am mai luat HDD-uri.

În ultimii 2 ani nu am mai făcut backup/storage pe discuri optice pentru că:
- timpul de acces fizic este mare (văzut pe ce disc se află ce cauți, localizat discul, băgat în unitate)
- timpul de acces logic este mare și zgomotos (e vorba în principal de fotografii, și o unitate optică e lentă la fișiere mici și multe și face ca trenul comparat cu 2 ventilatoare de 400rpm)
- locul fizic ocupat de discuri e prea mare; în același volum ocupat de un cake de 10 discuri optice încape un HDD de unul-două ordine de mărime mai mari (40GB DVD, 250GB BD, 2-3TB HDD)
- verificarea backup-ului e greoaie

În ultimul an am renunțat complet la orice unitate optică în PC-uri; bay-ul din laptop a fost ocupat de un HDD secundar, cel din desktop de o soluție mai complicată de prindere a HDD-ului de 2TB astfel încât să nu vibreze. Am transferat 90% din DVD-uri pe HDD-uri.

Soluția curentă de stocare:
- NAS cu 2 HDD-uri "green" în mirror (software) pentru chestii mai importante + câteva HDD-uri fără redundanță
- desktop cu un HDD local pentru stocare rapidă (2TB 7200rpm = 150MB/s în medie, ceea ce nu e de neglijat); scheduled backup de pe desktop pe RAID-ul NAS
- HDD pentru backups la RAID-ul de pe NAS (ținut în sertar, băgat în desktop când e nevoie de refresh - șansa să crape 2 surse în paralel e mai mică)
- rețea gigabit între toate
- UPS pentru NAS și desktop

LE: BTW, HDD-urile au coercitivitate destul de mare (~1700-2000 Oersted). Ca să le schimbi magnetizarea îți trebuie un magnet cu coercitivitate mai mare (adică magneți neodymium-iron-boron) și foarte aproape (câmpul magnetic descrește cu cubul distanței). Adică trebuie să ai niște magneți foarte puternici și foarte aproape de HDD ca să-l influențezi în vreun fel. HDD-ul meu de backup stă într-un sertar exact sub o boxă :).
 
Şi io renunţai la CD/DVD. Am vreo 2 TB în RAID 1 şi 5 şi câteva sute de GB fără redundanţă. Alegerea mea pentru backup a fost norul. :) Cu $5 pe lună, am spaţiu nelimitat, aşa că, de câteva luni am început să-mi copiez datele acolo. Cei câteva sute de GB deja s-au copiat, am trecut la restul.

De curiozitate, ce cantităţi de date aveţi după care chiar aţi plânge dacă le-aţi pierde? Io cu greu cred c-aş strânge 100 GB.
 
De curiozitate, ce cantităţi de date aveţi după care chiar aţi plânge dacă le-aţi pierde? Io cu greu cred c-aş strânge 100 GB.
Cam la fel, poze si filme facute de mine sau de ai mei. Aproape toate kiturile de instalare le pot lua de la producator, jocurile sunt marea majoritate pe Steam (am si o copie pe NAS ca sa nu le mai descarc), documentele de serviciu sunt in vreo 5 exemplare si e imposibil sa le pierd pe toate odata - laptopul sta la birou, desktopul acasa, NAS-ul, un HDD extern in dulap si un stick USB criptat in rucsac.
 
Back
Top