MTBF van je storage berekenen?

Menig bedrijf heeft geen idee hoe betrouwbaar hun data is. Daarom is het belangrijk om de wiskundige kant er een beetje van uit te leggen, zodat je wellicht niet de sommen kunt maken, maar wel begrijpt wat de risico’s zijn. We spreken in de ICT vaak over de MTBF (Mean Time Between Failure), de gemiddelde tijd tussen twee storingen in. Dit artikel legt een beetje uit hoe je daarover kan rekenen.

Bij het berekenen van een computer rekenen we met de MTBF van de diverse componenten en bepalen we daarmee de MTBF van de gehele server. Stel een enkele voeding heeft een MTBF van 100.000 uur, dat is 4166 dagen of ongeveer 11,4 jaar. Als we deze schakelen met een tweede voeding zodat bij uitval de server doordraait, dan kunnen we dit berekenen met 1xMTBF + 1/2*MTBF, dus de voedingen samen hebben een MTBF van 150.000 uur.

Deze voedingen schakelen echter niet automatisch over, er zit nog een soort van switching chassis voor. Deze schakelt de voedingen over zodra er een uitvalt. Stel dat deze ook een MTBF heeft van 150.000 uur, gelijk aan de twee voedingen. Dan komt de gezamenlijke MTBF uit op MTBF van de voedingen+MTBF van het switching chassis/2/2 (oftewel MTBF+MTBF/4). We nemen namelijk de gemiddelde MTBF van de twee componenten en delen deze door twee.

Dit zijn twee hele belangrijke formules die we gebruiken. We hebben dus een formule voor paralel (MTBF+1/2MTBF) en voor serie (gemiddelde MTBF/2). Dit kunnen we verder uitbreiden naar drie componenten voor paralel (MTBF+1/2MTBF+1/3MTBF) of voor serie (gemiddelde MTBF/3).

RAID-5 kunnen we als volgt berekenen. We hebben eerst een serie van X schijven en vervolgens als er 1 uitvalt, een serie van X-1 schijven. Stel we nemen een aangenomen MTBF van 10 uur voor een harddisk, waar we een RAID-5 set van 5 schijven van maken. Dan hebben we in het begin een MTBF van 10/5=2 uur. Zodra er een schijf uitvalt, hebben we nog een MTBF van 10/4=2,5 uur. Dit opgeteld levert een MTBF op van 4,5 uur.

Stel nu dat we zouden rekenen met een RAID-6 oplossing, waarbij er nog een extra schijf wordt ingezet. We krijgen dus 6 schijven in serie, waarbij er twee keer een schijf uit mag vallen. In dat geval mag je dus uitgaan van een MTBF van 10/6+10/5+10,4=1,7+2+2,5=6,2 uur.

Een volgende stap is het toevoegen van nog een extra schijf. Dit kan helaas nog niet in hardware RAID oplossingen, maar wel in software RAID van zfs. Dit heet namelijk RAID-Z3 (RAID-Z1 is de equivalent van RAID-5, RAID-Z2 die van RAID-6). Ik reken het even niet voor, dat mag je eventueel zelf doen. Het wordt echter door het toevoegen van een extra schijf nog minder nijpend om naar het datacentrum toe te rennen. Ideaal voor oplossingen die ver weg staan maar cruciaal voor je infrastructuur en/of gebruikers. Denk bijvoorbeeld aan bedrijven met een oplossing in Frankrijk, maar waar de ICT allemaal in Nederland zit. Of met de outsourcing van tegenwoordig, een ICT afdeling in India die voor Nederland beheer doen.

Even belangrijke tip vanuit de praktijk, wanneer schijven tegelijk worden aangekocht en in een grote poel samen werken; Zodra er een faalt, faalt er geheid een tweede en soms zelfs een derde. Zeker tijdens rebuilts waarbij een nieuwe schijf erbij geplaatst wordt ter vervanging van een defecte.

In een volgend artikel zal ik ingaan op de MTTD, de Mean Time To Data loss.

This entry was posted in Algemeen. Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>