Wanneer raak je je data kwijt? MTTDL berekenen

In mijn vorige post beloofde ik het al, ik zou MTTDL bespreken. Mean Time To Data Loss is een formule die je kunt toepassen op de kans dat je data verliest met je huidige opslagomgeving. Het is een vaak over het hoofd geziene berekening die je feitelijk wel met elke aanpassing aan je hardware of inrichting moet uitvoeren, omdat het van belang is om een goed inzicht in je omgeving te hebben.

Voor de MTTDL zijn er een aantal formules die je kunt aanhouden. Ik gebruik de formules zoals Richard Elling (een belangrijk persoon binnen de Solaris wereld) die heeft uitgelegd in zijn presentatie tijdens de LISA ’11 en kun je vinden op pagina 39.

Wanneer je schijven gebruikt als JBOD (Just a Bunch Of Disks) of als RAID-0 (Stripe set), loopt je evenveel risico als de MTBF gedeeld door het aantal schijven dat je gebruikt. Als er iets gebeurd ben je data kwijt. Gebruik bij voorkeur de schijven als JBOD, dan hou je tenminste de andere schijven nog (bij RAID-0 ben je alles kwijt van alle schijven).

Wanneer je gebruikt maakt van een mirror, RAID-10, RAID-Z1 of RAID-5, gebruiken we de volgende formule; MTTDL=MTBF^2/(Aantal schijven*(Aantal schijven-1)*Reparatietijd). Voor de gemiddelde omgeving neem ik een MTTR van 24 uur, omdat er tijd overheen gaat tot detectie, de beheerder actie gaat ondernemen en/of een vervangende schijf ter plaatse is.

Bij een threeway-mirror (drie schijven die elkaar mirroren), tripple-RAID-10 (stripe-set van telkens drie mirror-disks), RAID-Z2 of RAID-6 gebruiken we de volgende formule; MTTDL=MTBF^3/(Aantal schijven*(Aantal schijven-1)*(Aantal schijven-2)*Reparatietijd^2). Zoals je ziet zal de MTTDL hoger worden (en dus je appliance een stuk veiliger) met een RAID-Z2 dan bij een RAID-Z1 of RAID-5.

We kunnen echter nog een stap rigoureuzer gaan, met een fourway-mirror, fourway-RAID-10 of RAID-Z3 (er is bij mijn beste weten nog geen RAID-7 met 3 parity-disks). Hierbij gaat de MTTDL nogmaals exponentieel omhoog met de formule; MTTDL=MTBF^4/(Aantal schijven*(Aantal schijven-1)*(Aantal schijven-2)*(Aantal schijven-3)*Reparatietijd^3).

Als we dit samenvatten in een tabel waar we de MTTDL uitrekenen met een MTBF van 100.000 uur voor een enterprise schijf (schijven halen nooit de geadverteerde MTBF van 1.000.000 uur) en een MTTR komen uit op de volgende tabel;

Met name wanneer je veel schijven gaat gebruiken wordt het erg belangrijk dat je goed kijkt naar de MTTDL. Immers, data is tegenwoordig vaak het meest belangrijke eigendom van een bedrijf, ook al wordt dit vaak als ondergeschoven kindje vergeten ten opzichte van de prijs.

Verder een disclaimer; Een MTTDL van 1.7 miljoen uur bij 16 schijven is absoluut geen garantie dat je dat ook kunt halen. Schijven gaan namelijk vaak tegelijkertijd stuk. Gebruik de MTTDL dus vooral als indicator of oplossing A (met een MTTDL van bijvoorbeeld 1,66E+11 uur) beter en stabieler is als oplossing B (met een MTTDL van bijvoorbeeld 1,3E+11 uur). Dit is puur de theoretische kans dat je haalt, als de fabriakant een redelijke MTBF heeft opgegeven op zijn schijven en ze dit ook redelijkerwijs kunnen halen.

Aan dit blog-item kunnen geen rechten worden ontleend. Gebruik van de formules zijn zoals altijd op eigen risico. De onderstaande rekensheet welke is gebruikt voor het berekenen van de bovenstaande MTTDL-tabel wordt, geheel voor eigen gebruik en zonder enig te ontlenen recht, verstrekt.

MTTDL rekensheet

Meer lezen; http://www.definethecloud.net/redundancy-1-raid-levels

Richard Elling’s slides van LISA ’11; http://www.slideshare.net/relling/zfs-tutorial-lisa-2011

This entry was posted in Algemeen. Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>