SO2_wyklad_13.sxw

Systemy Operacyjne – semestr drugi

Wyk ad trzynasty

Warstwa operacji blokowych w Linuksie

Blokowe urz dzenia wej cia – wyj cia s bardziej skomplikowane w obs udze ni urz dzenia znakowe. W przeciwie stwie do tych ostatnich pozwalaj one bowiem na

swobodny dost p do zgromadzonych w nich danych. Oznacza to, e umo liwiaj one wyszukiwanie pozycji, gdzie s zgromadzone interesuj ce nas dane, lub gdzie jest

miejsce, w którym te dane chcemy zapisa . Musi wi c istnie jaki mechanizm pozwalaj cy na dwukierunkow zmian po o enia wska nika danych wzgl dem bie

cej

ł ż

żą

pozycji. Wszystkie urz dzenia blokowe s wyposa one w system plików okre lonego typu. Najcz

ciej spotykanymi urz dzeniami blokowymi s oczywi cie dyski twarde,

ęś

ale istniej równie inne urz dzenia, które zaliczamy do tej kategorii (CD, DVD, pami ci flash). Czas dost pu do tych urz dze (w szczególno ci do dysku twardego) jest

jednym z najbardziej znacz cych czynników maj cych wp yw na wydajno

ca ego systemu komputerowego. Z tego wzgl du, a tak e z uwagi na skomplikowanie

ść

zagadnienia, w j drze systemu Linux wyodr bniono osobny podsystem, zajmuj cy si obs ug takich urz dze , który

nazywa si warstw blokowych operacji wej cia –

wyj cia (

ang. block IO layer).

Urz dzenia blokowe przechowuj dane w sektorach, które najcz

ciej maj wielko

512 bajtów (cho nie jest to regu ). Sektor jest równocze nie najmniejsz

ęś

ść

łą

jednostk pami ci urz dzenia blokowego, któr mo na zaadresowa .

ć Pojedyncza operacja wej cia – wyj cia mo e obejmowa jeden lub wi ksz liczb sektorów.

Wi kszo

systemów operacyjnych nie pos uguje si bezpo rednio sektorami, ale

czy je w zazwyczaj wi ksze jednostki zwane blokami

ść

łą

. Blok mo e mie taki sam

rozmiar jak sektor, lub jego rozmiar mo e by

ć wielokrotno ci

ś ą rozmiaru sektora. W systemie Linux przyj to, celem uproszczenia kodu j dra, e bloki b d mia y

ę ą

wielko

mniejsz lub równ jednej stronie, cho to ograniczenie w przysz ych wersjach systemu mo e znikn

. Bloki na dane pochodz ce z odczytu lub zawieraj ce

ść

ąć

dane do zapisu do urz dzenia blokowego s umieszczone w pami ci operacyjnej, w

buforach. Ka dy z takich buforów wyposa ony jest w nag ówek okre lony struktur

typu struct buffer_head, przechowuj cy dane niezb dne do prawid owego zarz dzania takim buforem. Do tych danych nale

mi dzy innymi: stan bufora, który jest

żą

przechowywany w polu b_state tej struktury. Stan ten mo e by okre lony jednym lub kilkoma znacznikami nale

cymi do wyliczenia

żą

bh_state_bits. Znacznik

BH_Uptodate oznacza, e bufor zawiera zsynchronizowane z no nikiem dane,

BH_Dirty – e zawarto

bufora zosta a zmodyfikowana i powinna zosta zapisana na

ść

no niku,

BH_Lock – bufor jest chroniony przed dost pem wspó bie nym na czas realizowanej w a nie operacji wej cia – wyj cia,

ł ś

BH_Req – bufor jest u ywany

w realizowanym zleceniu, BH_Update_Lock – u ywany do oznaczenia pierwszego bufora ze wszystkich znajduj cych si na stronie jako chronionych przed

wspó bie nym dost pem na czas realizacji operacji wej cia-wyj cia,

BH_Mapped – bufor jest poprawnym buforem odwzorowanym w bloku urz dzenia,

BH_New – bufor

zosta przydzielony, ale jeszcze nie by wykorzystywany,

BH_Async_Read – bufor jest u ywany w operacji asynchronicznego odczytu,

BH_Async_Write – bufor jest

u ywany w operacji asynchronicznego zapisu,

BH_Delay – bufor nie zosta jeszcze skojarzony z blokiem urz dzenia.,

BH_Boundary – bufor opisuje blok graniczny

ci g ego obszaru bloków, nast pny blok nie nale y ju do tego obszaru,

ą ł

BH_Write_EIO – wyst pi b d podczas zapisu bufora na no nik,

ą ł

łą

BH_Eopnotsupp – wyst pi

ą ł

b d „nierealizowalna operacja” dla bufora,

łą

BH_Unwritten – zosta o przydzielone miejsce na no niku dla bufora, ale dane z niego nie zosta y jeszcze w tym miejscu

zapisane, BH_Quiet – b dy operacji na buforze nie b d zg aszane. Wyliczenie

łę

ę ą

bh_state_bits zawiera równie dodatkowy znacznik

BH_PrivateStart, który informuje, e

kolejne, starsze od niego bity pola b_state s wykorzystywane przez sterownik

urz dzenia

blokowego do w asnych celów. Kolejne pole tej struktury o

nazwie b_count

jest licznikiem odwo a do bufora. Jego warto jest zwi kszana przy pomocy funkcji

ł ń

ść

get_bh(), a zmniejszana przy pomocy put_bh(). Obie funkcje s funkcjami

inline.

Licznik odwo a powinien by zwi kszany przed wykonaniem ka dej z operacji dotycz cej danego bufora, gdy zapobiega to jego wcze niejszemu zwolnieniu. Pole

ł ń

b_dev

zawiera identyfikator urz dzenia fizycznego na którym znajduje si blok skojarzony z

buforem, a pole b_blocknr zawiera numer tego bloku. Strona na której znajduje

si bufor jest okre lona warto ci pola

ś ą

b_page. Adres, od którego zaczyna si obszar bufora na tej stronie jest umieszczony w polu

b_data. Rozmiar tego bufora jest

okre lony zawarto ci pola

ś ą

b_size.

Nag ówek bufora w wersjach j dra systemu wcze niejszych ni 2.6 przechowywa równie informacje dotycz ce operacji jakie by y wykonywane na buforze. Taka

sytuacja powodowa a nisk efektywno takich operacji, gdy pojedynczy zapis lub odczyt z urz dzenia wymaga pos u enia si kilkoma takimi nag ówkami, dodatkowo

ść

ł ż

rozmiar nag ówka by porównywalny z rozmiarem bufora, który opisywa . W najnowszej serii j dra postanowiono wi c „odchudzi ” nag ówek bufora i stworzy now

struktur , o nazwie

bio, która osobno przechowuje dane zwi zane z operacjami wej cia – wyj cia. Reprezentuje ona takie operacje w trakcie ich trwania za pomoc listy

segmentów

. Segment w tym przypadku jest definiowany jako ci g y fragment bufora. Bufory, których segmenty s zgromadzone na li cie nie musz tworzy ci g ego

ą ł

obszaru. Dodatkowo, dzi ki tej strukturze mo na realizowa kilka operacji wej cia – wyj cia na jednym buforze równocze nie. Najwa niejsze pola struktury

bio to

bi_io_vecs, bi_vcnt oraz bi_idx. Pierwsze z nich zawiera adres tablicy struktur bio_vec, która jest wykorzystywana jako lista poszczególnych segmentów u ywanych

w danej operacji wej cia – wyj cia. Ka dy z elementów tej tablicy jest opisany trójk :

ą <page, offset, len>, (strona, przemieszczenie, d ugo ). Ca a tablica opisuje wi c

ść

sumaryczn przestrze stworzon z segmentów buforów i wyznaczon dla operacji. Drugie pole struktury

bio okre la ile elementów z opisywanej tablicy bierze udzia

w operacji. Bie

c pozycj w tej tablicy reprezentuje ostatnie z wymienionych pól, którego zawarto

jest aktualizowana na bie

co. U ycie tego pola pozwala na

żą ą

ść

żą

podzia struktury

bio, co ma znaczenie w przypadku takich sterowników, jak sterowniki macierzy RAID. Podzia polega na kilkukrotnym skopiowaniu tej struktury

i ustawieniu dla ka dej z tych kopii innej warto ci pola indeksuj cego. Podobnie jak nag ówek bufora równie struktura

bio posiada licznik odwo a . Jego warto jest

ł ń

ść

zwi kszana przy pomocy funkcji

bio_get(), a zmniejszana przy pomocy bio_put(). Pole bi_private mo e by wykorzystywane dla danych twórcy struktury

bio.

Zastosowanie struktury bio przynios o nast puj ce korzy ci:

blokowe operacje wej cia – wyj cia mog w prosty sposób korzysta z wysokiej pami ci, gdy struktura

bio pos uguje si strukturami

page,

struktura bio mo e reprezentowa zarówno zwyk e operacje I/O, jak i równie operacje bezpo rednie, które nie korzystaj z buforów j dra,

u atwiona jest realizacja operacji wej cia – wyj cia, w których dane pochodz z wielu roz cznych stron pami ci (tzw. operacje z rozproszonym ród em),

łą

obs uga takiej struktury jest mniej skomplikowana ni obs uga nag ówków buforów.

Wi kszo

sterowników urz dze blokowych utrzymuje struktury przechowuj ce zlecenia operacji wej cia – wyj cia przeznaczone dla obs ugiwanych przez nie

ść

urz dze . Te struktury s nazywane kolejkami zlece . S one reprezentowane struktur

ą request_queue i zawieraj dwukierunkow list zlece i skojarzonych z nimi

informacji steruj cych. Ka dy z elementów tych kolejek jest opisany struktur

ą struct request i reprezentuje pojedyncze zlecenie. Je li kolejka nie jest pusta, to pierwsze

zlecenie znajduj ce si na niej jest przekazywane przez sterownik do urz dzenia, które je realizuje. Ka de zlecenie mo e zawiera wiele struktur

bio, które opisują

segmenty zaanga owane w dan operacj .

Za szeregowanie zlece w opisywanej kolejce odpowiedzialny jest planista operacji wej cia – wyj cia (

ang. I/O scheduler). Jego zadaniem jest zminimalizowanie liczby

przestawie mechanizmu s u

cego do odczytywania i zapisywania danych w urz dzeniu blokowym (np. g owicy w dysku twardym), co pozwala na osi gni cie

ł żą

maksymalnej redniej przepustowo ci oraz unikanie zag odzenia

da . Planista dokonuje tego wykonuj c operacje scalania i sortowania

żą

. Kiedy nowe

danie trafia

żą

do kolejki, wówczas planista stara si je scali z

daniami, które dotycz przyleg ych sektorów. Je li takowych

da nie ma, to planista stara si umie ci je po ród

żą

ś ć

da , które dotycz sektorów le

cych w pobli u, dzi ki czemu nie b dzie konieczna cz sta zmiana kierunku ruchu g owicy

żą

. W j drach serii 2.6 jest u ywany jeden

z czterech

algorytmów szeregowania

da . Dwa z nich s wzorowane na algorytmie, który by wykorzystywany w wersji 2.4, wi c on jako pierwszy zostanie opisany.

żą

Planista I/O w j drach wersji 2.4 dzia a w oparciu o algorytm nazwany Wind Linusa (

ł ł

ang. Linus Elevator). Algorytm ten stosuje scalanie obustronne. Oznacza to, e

Które nie maj nic wspólnego z segmentami, którymi pos uguj si procesory Intela i pokrewne do adresowania pami ci operacyjnej.

W tym wypadku chodzi tu o dwie odr bne operacje a nie o operacj sortowania przez scalanie.

Podobnie jak w metodzie LOOK omawianej w poprzednim semestrze.

Liczba ta ulega co jaki czas zmianie. W wersjach j dra 3.0 i nowszych s dost pne tylko trzy takie algorytmy.

Systemy Operacyjne – semestr drugi

nowe zlecenie mo e by umieszczone przed istniej cymi ju zleceniami lub za, je li tylko b d one dotyczy y spójnego obszaru sektorów. Pierwszy rodzaj scalania

ę ą

nazywany jest scalaniem frontowym, drugi scalaniem tylnym. Zazwyczaj ten drugi rodzaj wyst puje cz

ciej. Je li nowego zlecenia nie da si scali z innymi, które s

ęś

obecne w kolejce, to nast puje etap sortowania. W tym etapie planista stara si znale

miejsce w kolejce dla nowego zlecenia, takie e otaczaj ce je inne zlecenia b d

źć

ę ą

dotyczy y sektorów znajduj cych si w pobli u. Je li nie znajdzie takiego miejsca, to umieszcza dane zlecenie na ko cu kolejki. Mo e tak post pi jeszcze w jednym

ą ć

przypadku, kiedy podczas przeszukiwania kolejki znajdzie przeterminowane zlecenie. Takie post powanie ma na celu wyeliminowanie g odzenia

da , ale niestety nie

żą

jest skuteczne i algorytm Windy Linusa mo e doprowadzi do g odzenia

da .

żą

W j drze 2.6 postanowiono wi c go zast pi czterema innymi rozwi zaniami. Pierwszym z nich jest planista terminowy (ang.

ą ć

deadline I/O scheduler). Zapobiega on

g odzeniu

da , oraz faworyzuje operacje odczytu przed operacjami zapisu. Okazuje si bowiem, e opó nienia odczytu maj wi kszy wp yw na wydajno ci systemu ni

żą

opó nienia operacji zapisu. Planista terminowy stosuje cztery struktury danych: g ówn kolejk zlece , kolejk zlece odczytu, kolejk zlece zapisu i

kolejk rozdzia u.

Mechanizm ten przydziela ka demu zleceniu termin realizacji. Domy lnie wynosi on 500 ms dla operacji odczytu i 5 s dla operacji zapisu. Nowe zlecenia s wstawiane

równocze nie do kolejki g ównej, gdzie realizowane s operacje scalania i sortowania, oraz w zale no ci od rodzaju zlecenia do kolejki zapisu lub odczytu

. Te dwie

ostatnie kolejki s typowymi kolejkami FIFO. Planista terminowy pracuje w dwóch trybach: w trybie normalnym pobiera pierwsze

danie z kolejki g ównej i

żą

wstawia

je do kolejki rozdzia u, z której trafi ono pó niej bezpo rednio do urz dzenia. Planista prze cza si w drugi tryb je li zbli a si termin realizacji operacji z

łą

kolejek FIFO.

Wówczas do kolejki rozdzia u trafia

danie z której z tych kolejek.

żą

Drugim planist stosowanym w j drach serii 2.6 jest planista przewiduj cy

. W przeciwie stwie do planisty terminowego pozwala on unikn

sytuacji, kiedy ci gi

ąć

operacji zapisu s przerywane przez pojedyncze

dania operacji odczytu. W dzia aniu jest on bardzo podobny do planisty terminowego, ale stosuje tzw. heurystyk

żą

przewidywania. W momencie przekazania zlecenia odczytu do kolejki rozdzia u planista nie wraca od razu do realizacji kolejnych zlece , lecz wstrzymuje swe dzia anie

na 6 ms

. Je li po tym czasie aplikacja wygeneruje

danie odczytu dotycz ce obszaru le

cego w pobli u tego, którego dotyczy o poprzednie

danie, to jest ono

żą

realizowane natychmiast. Aby ten czas oczekiwania nie by czasem straconym, sytuacje takie, jak opisywana powy ej powinny mie cz sto miejsce. Planista

przewiduj cy stara si okre li mo liwo wyst pienia takiej sytuacji prowadz c statystyk dzia a aplikacji i stosuj c heurystyki. Planist przewiduj cego usuni to

ś ć

ść

ł ń

z j dra systemu w wersji 2.6.33.

Planista przewiduj cy by domy lnym planist wej cia-wyj cia do czasu wydania j dra w wersji 2.6.18 (cho w niektórych dystrybucjach przesta nim by ju

wcze niej). Zast pi go planista CFQ (

ą ł

ang. Complete Fair Queuing), który po raz pierwszy pojawi si w wersji 2.6.6 j dra. Jego dzia anie mo na krótko

scharakteryzowa jako po czenie planowania z u yciem kolejek wielopoziomowych, algorytmu rotacyjnego i przewidywania. Ten planista wprowadza równie now

łą

cech procesów u ytkownika: priorytet wej cia-wyj cia. Ka demu z procesów, który wykonuje operacje blokowe przydzielana jest dynamicznie kolejka na zlecenia

synchronicznych operacji wej cia-wyj cia. Zlecenia operacji asynchronicznych trafiaj do wspólnych kolejek, których zazwyczaj jest mniej ni kolejek

da operacji

żą

synchronicznych. Planista przegl da kolejki procesów poczynaj c od kolejek o najwy szym priorytecie, a sko czywszy na kolejkach o najni szym. Z ka dej z tych

kolejek zdejmuje tyle zlece , ile mo e zrealizowa w ci gu okre lonego dla kolejki przedzia u czasu. Kwant czasu i liczba zlece dla kolejki s zdeterminowane przez

priorytet wej cia-wyj cia jej procesu. Dla tych kolejek planista CFQ realizuje równie opcj przewidywania, czyli po opró nieniu danej kolejki zatrzymuje si na krótki

czas, sprawdzaj c, czy nie pojawi si w niej nowe zlecenia. Je li tak si stanie, to s one realizowane natychmiast. Po obs u eniu kolejek operacji synchronicznych

ł ż

planista przechodzi do kolejek operacji asynchronicznych, ale w ich przypadku nie stosuje opcji przewidywania.

Czwarty algorytm szeregowania

da I/O jest bardzo prosty w dzia aniu – realizuje wy cznie operacj scalania. Ten algorytm nosi nazw

żą

łą

ę noop.

Planist operacji wej cia-wyj cia mo na wybra na etapie kompilacji, spo ród czterech (trzech od wersji j dra 2.6.33) opisanych wy ej, lub w czasie wykonania

dokonuj c odpowiednich wpisów do plików w katalogu

/sys. W przypadku urz dze blokowych o

prawdziwie swobodnym dost pie (np.: pami ci flash) najlepszym

planist jest

noop.

Dok adniej: do tych kolejek zapisywany jest wska nik na to zlecenie.

Mo na go te „ adnie” nazwa planist antycypuj cym.

ż ł

Czas ten mo na konfigurowa .