Microsoft PowerPoint - Wykład 9 - diagnozowanie systemów.ppt

Strategie diagnozowania

•

Strategia jednokrokowa polega na wykonaniu
wszystkich dopuszczalnych testów w systemie i
wyznaczeniu wszystkich uszkodzonych jednostek na
podstawie otrzymanego syndromu.

•

Strategia wielokrokowa polega na wzajemnym
przeplataniu się procesu diagnozowania i obsługiwania
(naprawy). Przyjmuje się, że na podstawie syndromu
można określić tylko pewien podzbiór uszkodzonych
jednostek. Następnie wymienia się je na zdatne i ponawia
się testowanie. Proces powtarzany jest do momentu
osiągnięcia poprawnego funkcjonowania wszystkich
jednostek systemu.

Miary diagnozowalności

dla strategii scentralizowanej

•

System jednokrokowo m–diagnozowalny – wszystkie
uszkodzone jednostki mogą być zlokalizowane na
podstawie jednego syndromu wyników testowania jeśli
liczba uszkodzonych jednostek nie przekracza m.

•

System wielokrokowo m–diagnozowalny – co najmniej
jedna niezdatna jednostka może być zlokalizowana na
podstawie jednego syndromu wyników testowania jeśli
liczba uszkodzonych jednostek nie przekracza m.

Miary diagnozowalności

dla strategii rozproszonej

•

Nie wyróżnia się strategii wielokrokowej,
ponieważ informacje o wynikach testowania
powinny być przekazywane przez jednostki zdatne.

•

System z rozproszoną strategią diagnozowania
jest m-diagnozowalny, jeżeli każda zdatna
jednostka jest w stanie zlokalizować wszystkie
niezdatne jednostki jeśli ich liczba nie przekracza
m.

Programy diagnostyczne

•

Testowanie sprzętowe na ogół nie umożliwia
zdiagnozowania wszystkich elementów systemów
cyfrowych.

•

Testowanie programowe jest dużym ułatwieniem
w realizacji samotestowania.

•

Każdy system komputerowy powinien być
wyposażony w zestaw testów diagnostycznych.

•

Testowanie mieszane HSC

Programy diagnostyczne

•

Dekompozycja pionowa – dekompozycja procedur
testowania w czasie, określenie zasobów
testowanych w kolejnych fazach np. najpierw
zgrubne testy zasobów systemowych niezbędnych
do wykonania dokładnych testów itd,…

•

Dekompozycja pozioma – rozproszenie procesów
testowania w przestrzeni.

•

Dekompozycja na diagnostykę sprzętową i
programową.

Systemy tolerujące uszkodzenia

System tolerujący uszkodzenia (fault tolerant system):
•

wykrywa uszkodzenia

•

zaprzestaje działania według zadanego algorytmu lub
maskuje uszkodzenia

•

użytkownik systemu tolerującego uszkodzenia nie
powinien zauważyć defektu, co najwyżej odczuje pewne
pogorszenie jakości usług.

System nazywa się tolerującym k uszkodzeń (k fault tolerant),

jeśli przy k uszkodzeniach realizuje zadane funkcje,

Systemy tolerujące uszkodzenia

•

System tolerujący uszkodzenia tworzy się w oparciu o
zwielokrotnienia sprzętowe i programowe.

•

Koszt realizacji mechanizmów zabezpieczeń nie powinien
przekraczać kosztów wynikających z usunięcia skutków,
jakie spowodowałyby powstałe i niekontrolowane
uszkodzenia w systemie.

•

Jednostki systemu powinny posiadać oprócz zadanych
możliwości użytkowych także określone zdolności do
oceny poprawności wykonania własnych funkcji i/lub
funkcji realizowanych przez inne jednostki.

•

Prawdopodobieństwo wystąpienia uszkodzenia, które
dezorganizuje pracę systemu, powinno być bardzo małe,
powinny być to systemy z niezawodnym jądrem.

Systemy tolerujące uszkodzenia

Warunkiem koniecznym tolerowania uszkodzeń jest

poprawna ich diagnostyka.

Jej jakość ma decydujące znaczenie dla

przywrócenia zdatności systemu przez:

•

wymianę uszkodzonych jednostek

•

odłączenie niezdatnych jednostek i rekonfigurację
zadań (łagodna degradacja systemu).

Redundancja sprzętowa

(układowa)

• Redundancja sprzętowa – powielanie sprzętu w taki

sposób, aby uzyskać efekt tolerowania lub maskowania
błędów.

• Może być realizowana na poziomie całego systemu, jego

modułów lub podzespołów.

• Powielenie całego systemu może mieć charakter skupiony

lub rozproszony.

Redundancja sprzętowa

Redundancja statyczna (bierna) – wszystkie elementy

nadmiarowe są aktywne przez cały czas (łącznie z
uszkodzonymi).

Redundancja dynamiczna (aktywna) – moduły uszkodzone

są zastępowane modułami zapasowymi.

Redundancja hybrydowa – połączenie redundancji

statycznej i dynamicznej.

Redundancja dynamiczna

• Podstawowy problem – wykrycie błędu.
• Istnieje ryzyko chwilowej niedostępności systemu.
• Bardzo ważna rola detektora błędów.
• Po wykryciu błędów uszkodzony moduł jest zastępowany

modułem zapasowym.

• Moduły zapasowe mogą być włączone i równolegle

realizować funkcje (rezerwa gorąca) lub mogą być
wyłączone (rezerwa zimna).

• Czas przełączania rezerwy „gorącej” jest krótszy.
• Liczba tolerowanych błędnych modułów wynosi N-1.

Redundancja sprzętowa

rozwiązania praktyczne

Klastry – zespoły urządzeń (najczęściej komputerów)

połączone w spójną sieć. Mogą zawierać dodatkowe,
rezerwowe urządzenie lub nadmiar mocy obliczeniowej.

W przypadku uszkodzenia jednego z serwerów bądź

urządzenia przechowywania danych jego zadania są,

przejmowane w sposób niewidoczny dla użytkowników,

przez inny węzeł klastra.

Struktury RAID – redundant array of independent discs.

Porównanie poziomów RAID

Poziom
RAID

Minimalna liczba

dysków N

Liczba dysków
nadmiarowych

Dostępna

przestrzeń

Odporność na

awarię

RAID 0

RAID 1

RAID 2

1 lub więcej

N – log N

RAID 3

N - 1

RAID 4

N - 1

RAID 5

N - 1

RAID 6

N - 2

RAID 01

Zależnie od

konfiguracji

Zależnie od

konfiguracji

Zależnie od

konfiguracji

RAID 10

Zależnie od

konfiguracji

Zależnie od

konfiguracji

Zależnie od

konfiguracji