Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

statnice:oi_si_pis_stabilita_spolehlivost_systemu [2011/05/29 18:05]
vlk
statnice:oi_si_pis_stabilita_spolehlivost_systemu [2025/01/03 18:23] (aktuální)
Řádek 1: Řádek 1:
 ====== Stabilita a spolehlivost systému, MTBF (mean time between failures), dostupnost systému (uptime), redundance, návrh vysoce robustních systémů.(A0M33PIS) ====== ====== Stabilita a spolehlivost systému, MTBF (mean time between failures), dostupnost systému (uptime), redundance, návrh vysoce robustních systémů.(A0M33PIS) ======
- 
-===== DRAFT - dokoncim v nedeli odpo ===== 
  
 **Spolehlivost** = schopnost systému nebo součásti vykonávat požadované funkce za daných podmínek po určené časové období **Spolehlivost** = schopnost systému nebo součásti vykonávat požadované funkce za daných podmínek po určené časové období
Řádek 7: Řádek 5:
 **Dostupnost** = charakteristika představující úroveň, do které je systém nebo součást funkční a k dispozici v případě, že je vyžádáno její použití. Dostupnost lze považovat za pravděpodobnost,​ že se systém nebo součást nachází ve stavu, kdy umožňuje provádět požadované funkce za určených podmínek a v daném časovém okamžiku. **Dostupnost** = charakteristika představující úroveň, do které je systém nebo součást funkční a k dispozici v případě, že je vyžádáno její použití. Dostupnost lze považovat za pravděpodobnost,​ že se systém nebo součást nachází ve stavu, kdy umožňuje provádět požadované funkce za určených podmínek a v daném časovém okamžiku.
 Dostupnost se vypočítává jako MTBF / (MTBF + MTTR) Dostupnost se vypočítává jako MTBF / (MTBF + MTTR)
-Příklad: dostupnost 99,99% pro 24x7x365: celkem 8760, TTR = 0,876 hod.     +íklad: dostupnost 99,99% pro 24x7x365: celkem 8760, TTR = 0,876 hod.     
  
-Bezpečnost je schopnost systému bude buďto pracovat ​správně, nebo ukončit +Bezpečnost je schopnost systému bude buďto pracovat ​správně, nebo ukončit 
-svoji innost takovým ​způsobem, že nenaruší ​innost jiného systému.+svoji činnost takovým ​způsobem, že nenaruší ​činnost jiného systému.
  
 **MTBF** **MTBF**
-Střední ​doba mezi poruchami (MTBF, Mean Time Between Failures) - statistická veličina, sloužící ​ohodnocení ​spolehlivosti ​systému, u kterého ​se předpokládá okamžitá ​oprava. MTBF lze počítat ​takto: \\ +  * http://​en.wikipedia.org/​wiki/​Mean_time_between_failures 
-''​MTBF = Suma(downtime ​uptime) / NumberOfFailures''​+Střední ​doba mezi poruchami (MTBF, Mean Time Between Failures) - statistická veličina, sloužící ​ohodnocení ​spolehlivosti ​systému, u kterého ​se předpokládá okamžitá ​oprava. MTBF lze počítat ​takto: \\ 
 +''​MTBF = Suma(začátek výpadku ​konec předchozího výpadku) / NumberOfFailures''​
  
-Pravděpodobnost, ​systém ​bude pracovat bez poruchy po dobu T (spolehlivost ​systému): \\+Pravděpodobnost, ​žsystém ​bude pracovat bez poruchy po dobu T (spolehlivost ​systému): \\
 ''​R(T) = e^-(T/​MTBF)''​ ''​R(T) = e^-(T/​MTBF)''​
  
-PříkladSystém ​s MTBF 250.000 hod., plánovaná ​doba nepřetržitého ​provozu 5 let (43.800 hod): +PříkladSystém ​s MTBF 250.000 hod., plánovaná ​doba nepřetržitého ​provozu 5 let (43.800 hod): 
-tj. je pravděpodobnost 83.9%, ​systém ​bude pracovat 5 let bez poruchy (respektive, ​e 83,9% z provozovaných systémů ​bude po 5 letech ​stále ​pracovat).+tj. je pravděpodobnost 83.9%, ​žsystém ​bude pracovat 5 let bez poruchy (respektive, ​že 83,9% z provozovaných systémů ​bude po 5 letech ​stále ​pracovat).
  
-MTBF je asto chybně interpretována ​jako předpokládaný počet provozních ​hodin před selháním systému ​nebo jako „servisní životnost“.+MTBF je často chybně interpretována ​jako předpokládaný počet provozních ​hodin ed selháním systému ​nebo jako „servisní životnost“.
  
-MTBF jsou založeny na pravděpodobnosti poruch produktu ​při „běžných podmínkách“ nebo „přstandardním ​provozu“ a předpokládá ​se, pravděpodobnost poruchy se s asem nemění ​a je stejná ​bez ohledu na dobu provozu. V této fázi životnosti produktu se dosahuje ​nejnižší ​(a konstantnípravděpodobnosti poruchy.+MTBF jsou založeny na pravděpodobnosti poruch produktu ​i „běžných podmínkách“ nebo „standardním ​provozu“ a předpokládá ​se, žpravděpodobnost poruchy se s časem nemění ​a je stejná ​bez ohledu na dobu provozu. V této fázi životnosti produktu se dosahuje ​nejnižší ​(a konstantnípravděpodobnosti poruchy.
  
-Provoz ​systému ​omezuje doba jeho ivotnosti, ​která ​je podstatně kratší než hodnoty MTBF. Je docela ​možné ​vyrobit produkt s extrémně ​vysokou ​spolehlivostí ​(MTBF), ​který však bude mít krátkou očekávanou životnost. Dále se vyskytuje metrika ​střední ​doba do poruchy (MTTF, Mean Time to Failure), což je stejně počítaná metrika ovšem pro zařízeníkterá ​se neopravují. Charakteristika MTBF se obvykle odhaduje na základě sledování ​vzorku ​podobných systémůkterý ​je obvykle ​analyzován ​po implementaci ​dostatečně velkého počtu produktů ​do provozu.+Provoz ​systému ​omezuje doba jeho životnosti, ​která ​je podstatně kratší než hodnoty MTBF. Je docela ​možné ​vyrobit produkt s extrémně ​vysokou ​spolehlivostí ​(MTBF), ​který však bude mít krátkou očekávanou životnost. Dále se vyskytuje metrika ​střední ​doba do poruchy (MTTF, Mean Time to Failure), což je stejně počítaná metrika ovšem pro zařízeníkterá ​se neopravují. Charakteristika MTBF se obvykle odhaduje na základě sledování ​vzorku ​podobných systémůkterý ​je obvykle ​analyzován ​po implementaci ​dostatečně velkého počtu produktů ​do provozu.
  
 **MDT** **MDT**
-Střední ​doba výpadku ​(MDT, mean down time) - střední ​doba, po kterou je systém ​mimo provoz. Zahrnuje ​veškeré časy opravy, ​preventivní údržby, odstávky ​aj.+Střední ​doba výpadku ​(MDT, mean down time) - střední ​doba, po kterou je systém ​mimo provoz. Zahrnuje ​veškeré časy opravy, ​preventivní údržby, odstávky ​aj.
  
 **MTTR** **MTTR**
-Střední ​doba opravy (obnovy) (MTTR, Mean Time to Repair) - očekávaný časový ​interval, ​během kterého ​dojde k obnovení systému ​po poruše. Zahrnuje ​as pro diagnostiku a celkovou dobu opravy ​systému.+Střední ​doba opravy (obnovy) (MTTR, Mean Time to Repair) - očekávaný časový ​interval, ​hem kterého ​dojde k obnovení systému ​po poruše. Zahrnuje ​čas pro diagnostiku a celkovou dobu opravy ​systému.
  
-MTTR je obvykle ​součástí servisní ​smlouvy na údržbu IS - „měkká“ podmínka, negarantuje ​absolutní čas, ale průměrnou trendovou hodnotu. ​Vhodnější ​je použít ​charakteristiku „maximální ​doba opravy“. ​Někteří dodavatelé interpretují ​MTTR jako „mean time to respond“, tj. reakční ​doba bez garance ​odstranění ​poruchy.+MTTR je obvykle ​součástí servisní ​smlouvy na údržbu IS - „měkká“ podmínka, negarantuje ​absolutní čas, ale průměrnou trendovou hodnotu. ​Vhodnější ​je použít ​charakteristiku „maximální ​doba opravy“. ​Někteří dodavatelé interpretují ​MTTR jako „mean time to respond“, tj. reakční ​doba bez garance ​odstranění ​poruchy.
  
 +===== Spolehlivostní modely =====
 +Samotná spolehlivost nemusí často pokrýt dostatečně hodnocení komplexnějšího systému, proto se vytvářejí celé spolehlivostní modely, které mají za úkol predikovat spolehlivost zejména při návrhu systémů pro kritické aplikace. Ukazatele spolehlivosti jsou počítány z informací o jednotlivých komponentách (blocích) a způsobu použití.
 +
 +Existuje řada modelů:
 +  * **Blokové spolehlivostní modely** - každá komponenta reprezentována blokem, každý blok popsán spolehlivostními parametry, komponenty jsou vzájemně nezávislé (z hlediska výskytu poruchy), tento model je vlastně orientovaný graf, hrany tvoří orientovanou cestu mezi vstupem a výstupem, každá cesta popisuje jeden provozuschopný stav systému (systém je bezporuchový,​ jsou-li bezporuchové všechny prvky ležící na alespoň jedné cestě, spojující vstup a výstup).
 +  * **Sériový model** - porucha kterékoliv komponenty systému způsobí poruchu v celém systému.
 +  * **Paralelní model** - porucha celého systému nastane, dojde-li k poruše všech komponent systému.
 +
 +Sériové modely jsou velmi časté, ale čisté paralelní systémy spolehlivosti jsou velmi ojedinělé. V praxi jsou nejčastěji tzv. kombinované modely, v nichž se vyskytují různé kombinace sériových a paralelních systémů.
  
 ===== Metody Fault Tolerant systémů ===== ===== Metody Fault Tolerant systémů =====
-Základní ​postupy ​přnávrhu ​FT systémůkterými ​eliminujeme (minimalizujeme) vliv chyb na systém:+Definice názvosloví Chyba -> Porucha -> Selhání -> Havárie \\ 
 + 
 +''​Příklad:​\\ 
 +Chyba: neošetřená výjimka v ovladácím programu vodárny\\ 
 +Porucha: systém otevírá ventil \\ 
 +Selhání: vodárna přeteče\\ 
 +Havárie: zaplavená hala\\ 
 +Systém nebyl navržen s ohledem na správnou reakci - není Fault Tolerant''​ 
 + 
 +Základní ​postupy ​návrhu ​FT systémůkterými ​eliminujeme (minimalizujeme) vliv chyb na systém:
 {{:​statnice:​si_10_fault_tolerant.png|}} {{:​statnice:​si_10_fault_tolerant.png|}}
  
-Použití ​jak pro hardwarovou,​ tak i pro softwarou ​ást řešení.+Použití ​jak pro hardwarovou,​ tak i pro softwarou ​část řešení. 
 +Některé návrhy systémů v návaznosti na spolehlivostní modely jsou popsány níže. Je tím i pokryto téma redundance. 
 + 
 + 
 +===== Redundance ===== 
 +Výsledná spolehlivost IS je určena současně:  
 +  * **hardwarovou** spolehlivostí,​ tj. spolehlivostí technické infrastruktury,​  
 +  * **softwarovou** spolehlivostí,​ tj. spolehlivostí algoritmizace ​softwarové realizace,  
 +  * **informační** spolehlivostí,​ tj. spolehlivostí přenosu, zpracování a uchovávání informací,  
 +  * spolehlivostí **lidského činitele**. 
 + 
 +Cílem je zabezpečit odolnost proti vytipovaným poruchám s nejkritičtějšími následky. Prostředky jsou: 
 +  * použití redundantního technického vybavení, tzv. hardwarového zálohování,​ 
 +  * použitím softwarové redundance s využíváním návrhu programů s ohledem na spolehlivost,​ tj. 
 +    * začleněním kontrolních funkcí, resp. algoritmů diagnostiky,​ 
 +    * při programové realizaci využíváním jednoduchých programových struktur s vhodnou volbou kontrolních bodů,  
 +    * využíváním analytických metod testování a verifikací navržených programů;  
 +    * opakování téhož výpočtu podle různých algoritmů  
 +    * využívání nadbytečnost informační - použití např. redundantního kódováni 
 + 
 +Pozn.: //​Softwarová redundance//​ – realizace stejného algoritmu různými dodavateli, v odlišném programovacím jazyce, odlišném vývojovém prostředí,​ pro odlišný operační systém. Není to moc časté a jedná se zejména o kritické softwarové systémy např. pro armádní projekty atp. 
 + 
 +=== Systémy M z N === 
 +Generalizace ideálních paralelních systémů. V M z N systému je nutné ke správné činnosti systému jeho M prvků z celkových N prvků. 
 + 
 +=== DMR a TMR systémy === 
 +**DMR** (Dual Modular Redundand) - pouze zdvojení \\ 
 +**TMR** (Triple Modular Redundand) - uspořádání tří prvků tak, aby výpadek jednoho vedl k maskování poruchy v systému. 
 + 
 + 
 +=====Návrh vysoce robustních systémů===== 
 +Toto téma obsahuje výše zmíněnou problematiku redundance, dále se sem hodí další kapitoly: 
 + 
 +==== Zálohování ==== 
 +  * **Substituční zálohování s pohyblivou zálohou** – skupina stejných prvků má jeden nebo několik záložních prvků a v případě poruchy kteréhokoliv z prvků základní skupiny je na jeho místo připojen záložní prvek (resp. jeden ze skupiny záložních prvků). 
 +  * **Zálohování se sdílením zátěže** – při normálním pracovním režimu jsou realizované funkce, resp. zatížení rozloženy např. na dva prvky, které pracují v částečně odlehčeném režimu a jsou dimenzovány tak, že v případě poruchy jednoho z nich přebírá druhý prvek všechny funkce, resp. celé zatížení,​ a pracuje pak s nominálním,​ resp. maximálním zatížením,​ zpravidla navíc při určitém (nevýznamném) omezení rozsahu funkcí systému. 
 +  * **Zálohování s obecnější rekonfigurací struktury** – dynamické zálohování s obnovou prvků po poruše a s rekonfigurací poruchových modelů. Např. z výchozího majoritního zálohování dva ze tří se po poruše libovolného prvku přechází na paralelní systém se dvěma prvky a po eventuální další poruše zbývá neporouchaný pouze základní prvek. Struktura bývá rekonfigurována automaticky s využitím tzv. diagnostického procesoru, na který navazuje činnost rekonfigurační jednotky. 
 + 
 +==== Škálovatelnost (rozšiřitelnost) ==== 
 +Je vlastnost systému, indikující jeho schopnost přizpůsobit se rostoucím požadavkům na kapacitu, výkon, odezvu, dostupnost systému a atd., popřípadě být připraven na rozšíření. Škálovatelnost je často omezena návrhem/​implementací systému. 
 + 
 +Dimenze škálovatelnosti:​ 
 +  * **Load scalability**:​ Schopnost distribuovaných systémů rozšířit/​zúžit využitelné zdroje v závislosti na zátěži. Alternativně,​ schopnost snadné modifikace systému nebo komponenty podle zátěže. 
 +  * **Geographic scalability**:​ Schopnost udržet výkonnost, použitelnost atd. v podmínkách geografického rozšiřování. 
 +  * **Functional scalability**:​ Schopnost rozšiřování systému o nové funkcionality s minimalizací úsilí. 
 + 
 +Kategorie škálovatelnosti  
 +  * **Vertikální škálovatelnost (scale up)** = přidávání zdrojů jednomu uzlu systému (typicky přidání procesoru, rozšíření paměti), včetně rekonfigurace pro využití nových zdrojů (např. zvětšení počtu démonů Apache web serveru) 
 +  * **Horizontální škálovatelnost (scale out)** = přidávání nových uzlů do systému (typicky u distrib.aplikací),​ např. rozšíření z jednoho webserveru na tři, rozšíření gridu, zvýšení počtu procesoru 
 + 
 + 
 +====Zajištění odezvy systému – RT systémy==== 
 +Dvě definice: 
 + 
 +**Systém reálného času** (real-time system) - informační systém, který zpracovává asynchronní vstupy a produkuje odpovědi v pevně stanoveném čase. Doba, kterou má systém k dispozici pro provedení úlohy, je známa předem. Na počtu vstupů a jimi vyvolané pracovní zátěži systému přitom nezáleží. 
 + 
 +**Systém reálného času** - informační systém, který zpracovává asynchronní vstupy a produkuje odpovědi. Potřebný čas může být odvozen ze zátěže systému. Tento čas musí být ohraničený -> nejdelší možná doba odezvy.
  
-Softwarová redundance – realizace stejného algoritmu různými dodavateli, v odlišném programovacím jazyce, odlišném vývojovém prostředí,​ pro odlišný operační systém.+Rozlišujeme:​ 
 +  * **hard RT** - systém vždy musí splnit daný časový termín (např. řízení létajícího prostředkujaderného reaktoru aj.) 
 +  * **soft RT** - konkrétní časové okamžiky mohou být zmeškány. (např. optimalizace spotřeby paliva ​motoru).
  
 +Požadavky pro RTOS (realtime operating system) definuje standard Posix 1003.1b, Real-time extensions (Priority Scheduling, Real-Time Signals, Clocks and Timers, Semaphores, Message Passing, Shared Memory, Asynch and Synch I/O, Memory Locking Interface) – dnes implementováno např. v RTOS Lynx, QNX, VxWork, RTLinux ale i částečně Solaris, Linux, FreeBSD.
statnice/oi_si_pis_stabilita_spolehlivost_systemu.1306685108.txt.gz · Poslední úprava: 2025/01/03 18:19 (upraveno mimo DokuWiki)
Nahoru
chimeric.de = chi`s home Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0