background image

1

Strategie diagnozowania

strategie scentralizowane 

Decyzje

testy

przepływ informacji diagnostycznych

strategia rozproszona 

background image

2

Strategie diagnozowania

Strategia off-line – jest strategią, w której 
jednostki biorące udział w diagnozowaniu
nie uczestniczą w realizacji zadań
użytkowych.

Strategia on-line jest strategią, w której 
stan systemu jest wyznaczany na bieżąco 
bez zawieszania zadań użytkowych.

background image

3

Strategie diagnozowania

Strategia jednokrokowa polega na wykonaniu 
wszystkich dopuszczalnych testów w systemie i 
wyznaczeniu wszystkich uszkodzonych jednostek na 
podstawie otrzymanego syndromu.

Strategia wielokrokowa polega na wzajemnym 
przeplataniu się procesu diagnozowania i obsługiwania 
(naprawy). Przyjmuje się, że na podstawie syndromu 
można określić tylko pewien podzbiór uszkodzonych 
jednostek. Następnie wymienia się je na zdatne i ponawia 
się testowanie. Proces powtarzany jest do momentu 
osiągnięcia poprawnego funkcjonowania wszystkich 
jednostek systemu.

background image

4

Miary diagnozowalności

dla strategii scentralizowanej 

System jednokrokowo m–diagnozowalny – wszystkie 
uszkodzone jednostki mogą być zlokalizowane na 
podstawie jednego syndromu wyników testowania jeśli 
liczba uszkodzonych jednostek nie przekracza m.

System wielokrokowo m–diagnozowalny – co najmniej 
jedna niezdatna jednostka może być zlokalizowana na 
podstawie jednego syndromu wyników testowania jeśli 
liczba uszkodzonych jednostek nie przekracza m.

background image

5

Miary diagnozowalności

dla strategii rozproszonej 

Nie wyróżnia się strategii wielokrokowej, 
ponieważ informacje o wynikach testowania 
powinny być przekazywane przez jednostki zdatne.

System z rozproszoną strategią diagnozowania
jest m-diagnozowalny, jeżeli każda zdatna 
jednostka jest w stanie zlokalizować wszystkie 
niezdatne jednostki jeśli ich liczba nie przekracza 
m.

background image

6

Programy diagnostyczne

Testowanie sprzętowe na ogół nie umożliwia 
zdiagnozowania wszystkich elementów systemów 
cyfrowych.

Testowanie programowe jest dużym ułatwieniem 
w realizacji samotestowania.

Każdy system komputerowy powinien być
wyposażony w zestaw testów diagnostycznych.

Testowanie mieszane HSC

background image

7

Programy diagnostyczne

Dekompozycja pionowa – dekompozycja procedur 
testowania w czasie, określenie zasobów 
testowanych w kolejnych fazach np. najpierw 
zgrubne testy zasobów systemowych niezbędnych 
do wykonania dokładnych testów itd,…

Dekompozycja pozioma – rozproszenie procesów 
testowania w przestrzeni.

Dekompozycja na diagnostykę sprzętową i 
programową. 

background image

8

Systemy tolerujące uszkodzenia

System tolerujący uszkodzenia (fault tolerant system):

wykrywa uszkodzenia

zaprzestaje działania według zadanego algorytmu lub 
maskuje uszkodzenia

użytkownik systemu tolerującego uszkodzenia nie 
powinien zauważyć defektu, co najwyżej odczuje pewne 
pogorszenie jakości usług.

System nazywa się tolerującym uszkodzeń (k fault tolerant), 

jeśli przy uszkodzeniach realizuje zadane funkcje,

background image

9

Systemy tolerujące uszkodzenia

System tolerujący uszkodzenia tworzy się w oparciu o 
zwielokrotnienia sprzętowe i programowe. 

Koszt realizacji mechanizmów zabezpieczeń nie powinien 
przekraczać kosztów wynikających z usunięcia skutków, 
jakie spowodowałyby powstałe i niekontrolowane
uszkodzenia w systemie.

Jednostki systemu powinny posiadać oprócz zadanych 
możliwości użytkowych także określone zdolności do 
oceny poprawności wykonania własnych funkcji i/lub 
funkcji realizowanych przez inne jednostki.

Prawdopodobieństwo wystąpienia uszkodzenia, które 
dezorganizuje pracę systemu, powinno być bardzo małe, 
powinny być to systemy z niezawodnym jądrem. 

background image

10

Systemy tolerujące uszkodzenia

Warunkiem koniecznym tolerowania uszkodzeń jest 

poprawna ich diagnostyka.

Jej jakość ma decydujące znaczenie dla 

przywrócenia zdatności systemu przez:

wymianę uszkodzonych jednostek

odłączenie niezdatnych jednostek i rekonfigurację
zadań (łagodna degradacja systemu).

background image

11

Redundancja sprzętowa 

(układowa)

• Redundancja sprzętowa – powielanie sprzętu w taki 

sposób, aby uzyskać efekt tolerowania lub maskowania 
błędów.

• Może być realizowana na poziomie całego systemu, jego 

modułów lub podzespołów.

• Powielenie całego systemu może mieć charakter skupiony 

lub rozproszony.

background image

12

Redundancja sprzętowa

Redundancja statyczna (bierna) – wszystkie elementy 

nadmiarowe są aktywne przez cały czas (łącznie z 
uszkodzonymi).

Redundancja dynamiczna (aktywna) – moduły uszkodzone 

są zastępowane modułami zapasowymi.

Redundancja hybrydowa – połączenie redundancji 

statycznej i dynamicznej.

background image

13

Redundancja statyczna (bierna)

Bazuje przede wszystkim na układach glosujących NMR

(N modular redundancy).

Toleruje do m<N/2 uszkodzonych modułów (m-liczba 

naturalna).

Najczęstszy przypadek to 3MR

background image

14

Redundancja dynamiczna

• Podstawowy problem – wykrycie błędu.
• Istnieje ryzyko chwilowej niedostępności systemu.
• Bardzo  ważna rola detektora błędów.
• Po wykryciu błędów uszkodzony moduł jest zastępowany 

modułem zapasowym.

• Moduły zapasowe mogą być włączone i równolegle 

realizować funkcje (rezerwa gorąca) lub mogą być
wyłączone (rezerwa zimna).

• Czas  przełączania rezerwy „gorącej” jest krótszy.
• Liczba tolerowanych błędnych modułów wynosi N-1

background image

15

Redundancja sprzętowa

rozwiązania praktyczne

Klastry – zespoły urządzeń (najczęściej komputerów) 

połączone w spójną sieć. Mogą zawierać dodatkowe, 
rezerwowe urządzenie lub nadmiar mocy obliczeniowej.

W przypadku uszkodzenia jednego z serwerów bądź

urządzenia przechowywania danych  jego zadania są, 

przejmowane w sposób niewidoczny dla użytkowników,  

przez inny węzeł klastra. 

Struktury RAID – redundant array of independent discs.

background image

Porównanie poziomów RAID

16

Poziom
RAID

Minimalna liczba

dysków N

Liczba dysków
nadmiarowych

Dostępna

przestrzeń

Odporność na

awarię

RAID 0 

2

0

N

0

RAID 1

2

1

1

1

RAID 2

3

1  lub więcej

N – log N

1

RAID 3 

3

1

N  - 1

1

RAID 4

3

1

N  - 1

1

RAID 5

3

1

N  - 1

1

RAID 6

4

2

N  - 2

2

RAID 01 

4

Zależnie od

konfiguracji

Zależnie od

konfiguracji

Zależnie od

konfiguracji

RAID 10

4

Zależnie od

konfiguracji

Zależnie od

konfiguracji

Zależnie od

konfiguracji