RAID scare

Από τα Musings* του Rik Farrow στο ;login: διαβάζω:

“The standard (and vendor) view of this process is based on the Unrecoverable Error Rate (UER), something that Anderson and Whittington discussed in their tutorial. Enterprise drives have a lower UER, 10-16, compared to SATA drives, 10-14. To rebuild one disk in a RAID 5 array composed of 5 500-GB SATA drives, 213 bits must be read successfully, one-fifth the value of the UER for SATA drives. In other words, the odds of encountering a second error while rebuilding this RAID 5 array are 1 in 5. For people who are counting on RAID for reliable access to data, a 20% chance of failure is much too high.”

Όμως ο Rik Farrow δεν σταματάει εκεί. Φέρνει στην προσοχή μας το καταπληκτικό paper της Bianca Schroeder με τίτλο Disk failures in the real world: What does an MTTF of 1,000,000 hours mean too you?*:

“The failure probability of disks depends for example on many factors, such as environmental factors, like temperature, that are shared by all disks in the system. When the temperature in a machine room is far outside nominal values, all disks in the room experience a higher than normal probability of failure.
:
Observation 11: The distribution of time between disk replacements exhibits decreasing hazard rates, that is, the expected remaining time until the next disk was replaced grows with the time it has been since the last disk replacement”

Κοινώς εάν στο RAID σας “σκάσει” δίσκος, η πιθανότητα να σκάσει κολλητά και δεύτερος είναι μεγάλη. Και φυσικά πότε θα σκάσει; Στο rebuild

Backup! Backup! Backup!


[*] – PDF document

3 thoughts on “RAID scare

  1. Αρχίζω και βαριέμαι τα RAID…

    Και αυτό που είπες μου έχει συμβεί, να έχουν σκάσει δυο δίσκους σε RAID 5 (ο αντιπρόσωπος δεν ήθελε να το πιστέψει, με το αποτέλεσμα να έστειλε τεχνικό χωρίς να το πληρώσουμε).

    Μετά είναι και το θέμα να έχεις πρόβλημα με π.χ. το directory structure και να μην δουλεύουν σωστά (ή καθόλου) τα εργαλεία με το RAID driver (εδώ π.χ. το DiskWarrior στο Mac ή κάρτες RAID που απότομα δεν υποστηρίζονται πια από καινούρια έκδοση κάποιου OS).

    Τέλος τέλος το RAID μπορεί να φέρνει λίγο ποιο πολύ σιγουριά, αλλά φέρνει και πιο πολύ complexity (“πολυπλοκότητα”; or what’s the Greek word for *that*? :-) And complexity we hates, my precious!

  2. Αυτό που μου έκανε τη μεγαλύτερη εντύπωση από τα ευρήματα αυτής της μελέτης είναι ότι δεν υπάρχει ισχυρή συσχέτιση μεταξύ θερμοκρασίας περιβάλλοντος και βλαβών δίσκων. Δηλαδή όταν πιάνουν ζέστες δε σημαίνει ότι κατ’ ανάγκη θα αρχίσουν να πεθαίνουν συχνότερα οι δίσκοι. Και ακούγεται τόσο λογικό…

Leave a reply to Vaggelis Cancel reply