virheentorjunnan
Virheentorjunta tarkoittaa järjestelmän kykyä jatkaa toimintaa ja säilyttää palvelujen saatavuus sekä tiedon eheys myös laite- tai ohjelmistovirheiden ilmetessä. Tavoitteena on minimoida käyttökatkokset ja estää yksittäisen virheen johtaminen laajamittaisiin toimintahäiriöihin. Virheentorjunta eroaa yleisestä ohjelmallisesta virheenkäsittelystä siinä, että sen näkökulmana on koko järjestelmän luotettavuus ja saatavuus, ei ainoastaan yksittäisen ohjelman suorituksen virheiden hallintaa.
Keskeisiä keinoja ovat redundanssi, kuten useat komponentit, RAID-tallennus ja klusterointi; sekä nopea virhepalautus (failover) ja kuormituksen
Virheiden havaitsemisessa käytetään virheentunnistusta, kuten tarkistussummia, ECC-muistia sekä heartbeat-viestejä ja muita valvontatyökaluja. Palautusstrategioihin kuuluvat tilan replikaatio,
Virheentorjuntaa mitataan muun muassa käytettävyydellä, MTBF:llä (keskimääräinen aika vikaan) ja MTTR:llä (koraanapit aika), sekä näiden kautta