Home

feilhåndtering

Feilhåndtering er prosessen der feil i systemer og programvare identifiseres, behandles og begrenses for å opprettholde funksjonalitet, tilgjengelighet og sikkerhet. Begrepet inkluderer både programvarefeil, maskinvarefeil, nettverksproblemer og feil i eksterne avhengigheter. Målet er å redusere skadeomfanget, oppdage feil tidlig og gi brukeren meningsfulle tilbakemeldinger.

Hovedprinsippene er forebygging, isolasjon og rask gjenoppretting. Forebygging innebærer defensiv programmering og klare grensesnitt; isolasjon innebærer

Teknikker inkluderer feilhåndtering i koden (unntak), bruk av feilkoder, tidsavbrudd, automatiske forsøk med tilbakekobling (backoff), circuit

Praktisk implementering består av omfattende overvåking, loggføring og distribuerte sporingsverktøy for distribuert system, samt innsamling av

å
hindre
at
en
feil
sprer
seg,
for
eksempel
gjennom
feileffektive
grenser
eller
bulkheads;
rask
gjenoppretting
krever
tydelige
feilmeldinger,
logging
og
mekanismer
for
å
fortsette
å
levere
delvis
funksjonalitet.
breaker
for
å
begrense
belastning,
bulkheads
for
isolasjon
og
fallbacks
eller
failover
til
alternative
tjenester.
Det
er
viktig
at
operasjoner
er
idempotente
og
at
feil
kategoriseres
slik
at
kritiske
funksjoner
prioriteres.
Når
feil
oppstår,
kan
systemet
degraderes
grasiøst
og
opprettholde
viktig
funksjonalitet.
metrikker.
Dokumentasjon,
post-mortems
og
en
kultur
med
læring
(blameless
retrospectives)
er
viktig.
Chaos
engineering
og
regelmessig
testing
av
feilhåndteringssituasjoner
bidrar
til
å
avsløre
svake
punkter
før
de
når
produksjon.