Stabilita a spolehlivost systému, MTBF (mean time between failures), dostupnost systému (uptime), redundance, návrh vysoce robustních systémů.(A0M33PIS)

DRAFT - dokoncim v nedeli odpo

Spolehlivost = schopnost systému nebo součásti vykonávat požadované funkce za daných podmínek po určené časové období

Dostupnost = charakteristika představující úroveň, do které je systém nebo součást funkční a k dispozici v případě, že je vyžádáno její použití. Dostupnost lze považovat za pravděpodobnost, že se systém nebo součást nachází ve stavu, kdy umožňuje provádět požadované funkce za určených podmínek a v daném časovém okamžiku. Dostupnost se vypočítává jako MTBF / (MTBF + MTTR) Příklad: dostupnost 99,99% pro 24x7x365: celkem 8760, TTR = 0,876 hod.

Bezpečnost je schopnost systému bude buďto pracovat správně, nebo ukončit svoji činnost takovým způsobem, že nenaruší činnost jiného systému.

MTBF Střední doba mezi poruchami (MTBF, Mean Time Between Failures) - statistická veličina, sloužící k ohodnocení spolehlivosti systému, u kterého se předpokládá okamžitá oprava. MTBF lze počítat takto:
MTBF = Suma(downtime - uptime) / NumberOfFailures

Pravděpodobnost, že systém bude pracovat bez poruchy po dobu T (spolehlivost systému):
R(T) = e^-(T/MTBF)

Příklad: Systém s MTBF 250.000 hod., plánovaná doba nepřetržitého provozu 5 let (43.800 hod): tj. je pravděpodobnost 83.9%, že systém bude pracovat 5 let bez poruchy (respektive, že 83,9% z provozovaných systémů bude po 5 letech stále pracovat).

MTBF je často chybně interpretována jako předpokládaný počet provozních hodin před selháním systému nebo jako „servisní životnost“.

MTBF jsou založeny na pravděpodobnosti poruch produktu při „běžných podmínkách“ nebo „při standardním provozu“ a předpokládá se, že pravděpodobnost poruchy se s časem nemění a je stejná bez ohledu na dobu provozu. V této fázi životnosti produktu se dosahuje nejnižší (a konstantní) pravděpodobnosti poruchy.

Provoz systému omezuje doba jeho životnosti, která je podstatně kratší než hodnoty MTBF. Je docela možné vyrobit produkt s extrémně vysokou spolehlivostí (MTBF), který však bude mít krátkou očekávanou životnost. Dále se vyskytuje metrika střední doba do poruchy (MTTF, Mean Time to Failure), což je stejně počítaná metrika ovšem pro zařízení, která se neopravují. Charakteristika MTBF se obvykle odhaduje na základě sledování vzorku podobných systémů, který je obvykle analyzován po implementaci dostatečně velkého počtu produktů do provozu.

MDT Střední doba výpadku (MDT, mean down time) - střední doba, po kterou je systém mimo provoz. Zahrnuje veškeré časy opravy, preventivní údržby, odstávky aj.

MTTR Střední doba opravy (obnovy) (MTTR, Mean Time to Repair) - očekávaný časový interval, během kterého dojde k obnovení systému po poruše. Zahrnuje čas pro diagnostiku a celkovou dobu opravy systému.

MTTR je obvykle součástí servisní smlouvy na údržbu IS - „měkká“ podmínka, negarantuje absolutní čas, ale průměrnou trendovou hodnotu. Vhodnější je použít charakteristiku „maximální doba opravy“. Někteří dodavatelé interpretují MTTR jako „mean time to respond“, tj. reakční doba bez garance odstranění poruchy.

Spolehlivostní modely

Samotná spolehlivost nemusí často pokrýt dostatečně hodnocení komplexnějšího systému, proto se vytvářejí celé spolehlivostní modely, které mají za úkol predikovat spolehlivost zejména při návrhu systémů pro kritické aplikace. Ukazatele spolehlivosti jsou počítány z informací o jednotlivých komponentách (blocích) a způsobu použití.

Existuje řada modelů:

Blokové spolehlivostní modely - každá komponenta reprezentována blokem, každý blok popsán spolehlivostními parametry, komponenty jsou vzájemně nezávislé (z hlediska výskytu poruchy), tento model je vlastně orientovaný graf, hrany tvoří orientovanou cestu mezi vstupem a výstupem, každá cesta popisuje jeden provozuschopný stav systému (systém je bezporuchový, jsou-li bezporuchové všechny prvky ležící na alespoň jedné cestě, spojující vstup a výstup).
Sériový model - porucha kterékoliv komponenty systému způsobí poruchu v celém systému.
Paralelní model - porucha celého systému nastane, dojde-li k poruše všech komponent systému.

Sériové modely jsou velmi časté, ale čisté paralelní systémy spolehlivosti jsou velmi ojedinělé. V praxi jsou nejčastěji tzv. kombinované modely, v nichž se vyskytují různé kombinace sériových a paralelních systémů.

Metody Fault Tolerant systémů

Definice názvosloví Chyba → Porucha → Selhání → Havárie
Chyba: neošetřená výjimka v ovladácím programu vodárny
Porucha: systém otevírá ventil
Selhání: vodárna přeteče
Havárie: zaplavená hala

Systém nebyl navržen s ohledem na správnou reakci - není Fault Tolerant

Základní postupy při návrhu FT systémů, kterými eliminujeme (minimalizujeme) vliv chyb na systém:

Použití jak pro hardwarovou, tak i pro softwarou část řešení.

Softwarová redundance – realizace stejného algoritmu různými dodavateli, v odlišném programovacím jazyce, odlišném vývojovém prostředí, pro odlišný operační systém. Není to moc časté a jedná se zejména o kritické softwarové systémy např. pro armádní projekty atp.

statnice/oi_si_pis_stabilita_spolehlivost_systemu.1306686571.txt.gz · Poslední úprava: 2025/01/03 18:19 (upraveno mimo DokuWiki)

Nahoru