Bazy_danych2

RELACYJNE BAZY DANYCH cd.

Zależności funkcyjne. Sprowadzanie schematów relacji do postaci normalnej.

Zależności funkcyjne

•

Relacja R(U) o schemacie U:={A1, A2,..., An} spełnia zależność funkcyjną

→

(

X Y

⊂

)

gdy w ramach krotek relacji R(U) wartości atrybutów zbioru X determinują jednoznacznie
wartości atrybutów zbioru Y tzn.

(

)

(

( [

]

[

]

[ ]

[ ])

k k

R U

k X

k Y

∈

→ ⇔

∀

→ ⇔

∀

→ ⇔

∀

→ ⇔

∀

⇒

====

Przykład1 Niech U := {ID_PRACOWNIKA, NAZWISKO_PRACOWNIKA, IMIĘ_PRACOWNIKA}

IMIĘ_PRACOWNIKA zależy funkcyjnie od ID_PRACOWNIKA

ID_PRACOWNIKA nie zależy funkcyjnie od IMIĘ_PRACOWNIKA

IMIĘ_PRACOWNIKA nie zależy funkcyjnie od NAZWISKO_PRACOWNIKA

Przykład2. Niech U := {NR_INDEKSU, NAZWISKO_STUDENTA, NR_PRZEDMIOTU,OCENA} i
relacja R(U) określona następująco:

NR_I

NAZ

NR_P

101

102

101

W relacji R(U) spełnione są następujące zależności funkcyjne: I

→

N , IP

→

O. Zauważmy, że dla zbiorów

{P} i {O} warunek z (

∗∗∗∗

) jest również spełniony, ale między tymi zbiorami nie istnieje zależność funkcyjna.

Istotnie, po dodaniu krotki (3, c, 102, 3) warunek z (

∗∗∗∗

) nie będzie spełniony.

Z każdym schematem relacji U wiążemy pewien zbiór zależności funkcyjnych F. Mówimy, że
zależność funkcyjna

→

wynika logicznie z zależności funkcyjnych F jeżeli w każdej

relacji o schemacie U w której spełnione są zależności ze zbioru F spełniona jest również
zależność

→

Przez domknięcie zależności funkcyjnych F (zapis F+) rozumiemy zbór wszystkich zależności
funkcyjnych wynikających logicznie z zależności funkcyjnych F.

Aksjomatyka ARMSTRONGA -- pozwala znaleźć nowe zależności funkcyjne na podstawie już
znalezionych:

Aksjomaty Armstronga. Niech U będzie zbiorem atrybutów i niech

⊂

{ X

→

Y | ( X

⊂

U )

∧∧∧∧

( Y

⊂

U ) }.

Przez F

oznaczmy najmniejszy (ze względu na relację zawierania) zbiór zależności funkcyjnych, który

zawiera zbiór F i dla dowolnych X,Y,Z

⊂

U spełnia następujące aksjomaty:

•

( Y

⊂

X ) ⇒

⇒

⇒ [ (X

→

Y )

∈

(zwrotność);

•

[ (X

→

Y )

∈

] ⇒

⇒

⇒ [ (X

∪

→

∪

Z )

∈

(poszerzalność);

•

[ (X

→

Y )

∈

∧∧∧∧

→

Z )

∈

] ⇒

⇒

⇒ [ (X

→

Z )

∈

(przechodniość).

Zbiór F

nazywamy (najmniejszym) domknięciem zbioru F.

Analizując zależności funkcyjne w schemacie relacyjnym musimy brać pod uwagę wszystkie zależności
funkcyjne obowiązujące w tym schemacie ( a więc te z F

a nie tylko z F)

W tej terminologii pojęcie klucza relacji R(U) o schemacie U:={A1, A2,..., An} i zbiorze zależności
funkcyjnych F można zdefiniować w następujący sposób

Kluczem (właściwym) nazywamy taki zbiór atrybutów X (

⊂

), że

•

++++

→ ∈

•

dla żadnego

X Y

⊂

≠

⊂

≠

⊂

≠

⊂

≠

nie zachodzi

++++

→ ∈

(każdy atrybut i cały schemat zależą funkcyjnie od klucza )

Normalizacja

Redundancja

•

redundancja polega na powtarzaniu

•

wady redundancji: anomalie, konieczność utrzymania spójności kopii, marnowanie miejsca

Anomalie

•

rodzaje:

wstawiania

usuwania

modyfikacji

Przykład: IMIĘ_PRAC NAZWISKO_PRAC NR_DZIAŁU NAZWA_DZIAŁU

Rozkład relacji i normalizacja

•

redundancję usuwa się przez rozkład relacji

•

rozkład ma być odwracalny: można odwrócić przez naturalne złączenie

•

rozkład relacji powinien doprowadzić do tzw. postaci normalnej

•

rozkład relacji nie powinien powodować utraty danych ani zależności funkcyjnych istniejących w
relacji pierwotnej

Pierwsza postać normalna

•

Schemat relacji (U,F) jest w 1PN gdy wszystkie atrybuty są atomowe -- prostych typów

•

1NF jest wymogiem dla rachunku relacyjnego, a więc i języków zapytań

kontrprzykłady:

atrybut tablicowy

zbiór

Uwaga: Dalej będzie mowa jedynie o relacjach spełniających 1PN

Definicje :

•

Zależność funkcyjna

→

nazywa się zależnością częściową, jeśli X jest właściwym

podzbiorem pewnego klucza.

•

Zależność funkcyjna

→

nazywa się zależnością przechodnią jeśli X nie jest ani podzbiorem

ani nadzbiorem żadnego klucza (

→

)

Druga postać normalna

Schemat relacji (U,F) jest w 2PN gdy każdy atrybut niekluczowy (nie należący do klucza właściwego)
jest zależny funkcyjnie od całego klucza właściwego (F

nie zawiera żadnej zależności częściowej)

•

przyczyną braku 2PN jest zwykle błędne połączenie danych

•

kontrprzykład: spis przepustek { ID_PRAC. ID_BUDYNKU. NAZWISKO IMIĘ }

nazwisko zależy funkcyjnie od id prac., czyli od fragmentu klucza

rozkład { ID_PRAC. ID_BUDYNKU.},{ ID_PRAC. NAZWISKO IMIĘ }
doprowadza do 2NF

Trzecia postać normalna

Schemat relacji (U,F) jest w 3PN gdy

jest w 2PN i

każdy atrybut niekluczowy jest bezpośrednio zależny funkcyjnie od całego klucza
właściwego

Inne sformułowanie 3PN :

Schemat relacji (U,F) jest w 3PN gdy dla każdej zależności

U,A

++++

→ ∈

⊆

∈

→ ∈

⊆

∈

→ ∈

⊆

∈

→ ∈

⊆

∈

zachodzi:

•

∈

(zależność jest trywialna) albo

•

X jest nadkluczem, albo

•

A jest atrybutem głównym (jest częścią klucza)

•

możliwe przypadki naruszenia 3PN:

naruszenie 2PN

istnienie zależności tranzytywnej (a więc przechodniej) od klucza właściwego

•

przyczyną braku 3PN jest zwykle błędne połączenie danych

•

3PN jest zazwyczaj wystarczająca dla usunięcia praktycznie ważnych anomalii

•

każdy schemat relacji daje się rozłożyć na sumę schematów relacji w 3PN zachowując:

zależności funkcyjne

odwracalność rozkładu przez złączenie naturalne (zachowując informacje)

Przykład

ID_PRAC. NAZWISKO STANOWISKO PENSJA

•

jest w 2PN bo klucz jest jednoatrybutowy

•

istnieje zależność tranzytywna:

ID PRAC

STANOWISKO

PENSJA

→

(pensja zależy funkcyjnie od stanowiska)

•

rozkład { ID_PRAC, NAZWISKO, STANOWISKO}, {STANOWISKO, PENSJA)
doprowadza do 3PN

Własność:

Każdy schemat relacji daje się rozłożyć na sumę schematów relacji w trzeciej postaci normalnej z
zachowaniem zależności funkcyjnych i informacji.

Metoda rozkładu schematu na sumę schematów w trzeciej postaci normalnej

1) Wyznaczamy minimalne pokrycie G zbioru zależności funkcyjnych F - minimalne i równoważne F

(tzn takie, że

•

ma miejsce równość G

= F

(zbiór G jest równoważny F)

•

prawa strona każdej zależności w G składa się z jednego atrybutu

•

usunięcie dowolnej zależności funkcyjnej z G powoduje, że G

≠≠≠≠

•

dla każdej zależności

→

w G i

U Y

⊂

≠

⊂

≠

⊂

≠

⊂

≠

, jeśli zastąpimy

→

przez

→

otrzymamy zbiór, który nie jest równoważny F)

2) Dla każdej zależności funkcyjnej w minimalnym pokryciu (włączając do nich klucz podstawowy) z jej
atrybutów tworzymy schemat relacji po czym schematy te odpowiednio grupujemy (wg tego samego
klucza).

Przykłady:

U:={D,A,T,C} (z interpretacją odpowiednio Dostawca, Adres, Towar, Cena)

F:={

A DT

→

}

Jedynym kluczem jest DT. Zależność

→

jest zależnością częściową. Schemat ten nie jest w

drugiej postaci normalnej. Rozkład {D, A}, {D,T,C} jest rozkładem na schematy w 3PN.

U:={S,T,D,K} (z interpretacją odpowiednio Sklep, Towar, Dział, Kierownik}

F:={

D SD

→

}

Jedynym kluczem jest TS,

→

jest zależnością przechodnią. Schemat jest w drugiej postaci

normalnej ale nie jest w trzeciej. Rozkład {T,S,D}, {D,S,K} jest rozkładem na schematy w 3PN.

Zadanie. Niech U := { A,B,C,D,E,X,Y } i F := { X

→

C, X

→

D, CD

→

E, CD

→

A, Y

→

B, C

→

A, X

→

A }.

Stosując algorytm dokonać rozkładu U na sumę schematów w 3PN bez utraty danych i utraty zależności
funkcyjnych.

Zbiór G={ X

→

C, X

→

D, CD

→

E, Y

→

B, C

→

A} jest minimalnym pokryciem.

Zbiór K={X,Y} jest kluczem głównym.

Stąd rozkład na schematy {X,Y}, {X,C,D}, {C,D,E}, {C,A} będącej w trzeciej postaci normalnej.

Postać normalna Boyce-Codda

Relacja jest w BCPN gdy każda nie trywialna zależność funkcyjna jest zależnością od klucza
(niekoniecznie właściwego)

Inne sformułowanie BCPN :

Relacja jest w BCPN gdy dla każdej zależności

U,A

++++

→ ∈

⊆

∈

→ ∈

⊆

∈

→ ∈

⊆

∈

→ ∈

⊆

∈

zachodzi:

∈

(zależność jest trywialna) albo X jest nadkluczem

Każdy schemat można rozłożyć na schematy w BCNF z zachowaniem informacji (ale niekoniecznie z
zachowaniem zależności funkcyjnych)

Przykład

{Miasto, Ulica, Kod}

relacja ta jest w 3PN z anomaliami:

istnieją tu klucze: {M,U}, {U,K}
(nazwy ulic mogą się powtarzać w różnych miastach, zakładamy że nazwy miast się nie powtarzają)

występują zależności:

K K

→

schemat jest w 3NF

schemat nie jest w BCNF: K nie jest kluczem

schemat jest nierozkładalny do BCNF (np. {K,U}, {K,M}) bez utraty zależności

→

Najczęściej zależności prowadzące do braku BCNF nie są istotne z punktu widzenia projektu.

Związki między postaciami normalnymi :

BCPN => 3PN => 2PN => 1PN

Zależności wielowartościowe i czwarta postać normalna

Zależności funkcyjne wielowartościowe.
Zbiór atrybutów Y jest zależny wielowartościowo od zbioru X gdy z każdą konfiguracją wartości
atrybutów z X jest związany zbiór konfiguracji wartości z Y niezależnie od wartości pozostałych
atrybutów:

(

)

(

)

(

( [

]

[

])

( [

]

[

]

[ ]

[ ]))

k k

R U

k X

k Y

k Z

∈

→> ⇔

∀

→> ⇔

∀

→> ⇔

∀

→> ⇔

∀

∃

∧

∃

∧

∃

∧

∃

∧

gdzie Z = U \ (X

∪

Zauważmy, że zależności między atrybutami możemy interpretować jako reguły:

•

→

można interpretować jako regułę:

jeśli

∈

〉〉〉〉

〈〈〈〈

oraz

∈

〉〉〉〉

〈〈〈〈

, to

====

•

→>

można interpretować jako regułę:

jeśli

∈

〉〉〉〉

〈〈〈〈

oraz

∈

〉〉〉〉

〈〈〈〈

, to

∈

〉〉〉〉

〈〈〈〈

oraz

∈

〉〉〉〉

〈〈〈〈

najważniejsze własności:

→

→>>>>

Y ⇒

⇒

⇒ X

→

→>>>>

→

Y ⇒

⇒

⇒ X

→

> Y

Uwagi.

•

Relacja R(U) (w powyższej sytuacji) daje się rozłożyć w sposób odwracalny na dwie: R(X

∪

Y) i

R(X

∪

•

Istnieje odpowiednik aksjomatów Armstronga dla zależności wielowartościowych

•

Zależności X

→

→>>>>

U i X

→

→>>>>

∅

spełnione są w każdej relacji R(U). Nazywamy je trywialnymi

zależnościami wielowartościowymi

Aksjomaty Armstronga dla zależności wielowartościowych.

Niech U będzie zbiorem atrybutów i niech

⊂

{ X

→

> Y | ( X

⊂

U )

∧∧∧∧

( Y

⊂

U ) }.

Przez M

oznaczmy najmniejszy (ze względu na relację zawierania) zbiór zależności funkcyjnych

wielowartościowych, który zawiera zbiór M i dla dowolnych X,Y,Z

⊂

U spełnia następujące aksjomaty:

((((

)))) ((((

))))

++++

⊂

⇒

→>

∈

→>

∈

→>

∈

→>

∈

( zwrotność ),

((((

))))

((((

))))

(

)

→>

∈

→>

∈

→>

∈

→>

∈

⇒

→> −

∪

∈

→> −

∪

∈

→> −

∪

∈

→> −

∪

∈

( dopełnialność ),

((((

))))

((((

))))

→>

∈

→>

∈

→>

∈

→>

∈

⇒

∪ →> ∪

∈

∪ →> ∪

∈

∪ →> ∪

∈

∪ →> ∪

∈

( poszerzalność ),

Przykład:

{Zajęcia, Wykładowca, Podręcznik}

podręczniki nie zależą od wykładowców

nie ma zależności funkcyjnych

zachodzą zależności wielowartościowe
Z

→

→>>>>

P i Z

→

→>>>>

W (zawsze para!)

można zamienić części krotek ZP i W

Uwaga. Zależności X

→

→>>>>

U i X

→

→>>>>

∅

spełnione są w każdej relacji R(U). Nazywamy je trywialnymi

zależnościami wielowartościowymi.

Czwarta postać normalna

Relacja jest w 4NF gdy jeżeli każda nietrywialna zależność wielowartościowa jest zależnością od klucza
(niekoniecznie właściwego)

((((

))))

((((

))))

((((

))))

















→>

∈

∧

⊂ −

→>

∈

∧

⊂ −

→>

∈

∧

⊂ −

→>

∈

∧

⊂ −

⇒

→

∈

→

∈

→

∈

→

∈

















Przykład:

{Zajęcia, Wykładowca, Podręcznik }

istnieją zależności Z

→

→>>>>

P i Z

→

→>>>>

nie ma zależności funkcyjnych

jest więc BCPN

występuje nadmiar informacji: powtórzone dane podręczników i wykładowców

schemat ten można rozłożyć na schematy {Z,W}, {Z,P}

Reguła rozkładu (dla zależności wielowartościowych)

Dla każdej zależności wielowartościowej X

→

→>>>>

Y jeśli X

∩

Y=0 oraz X

∪

≠≠≠≠

U oraz X nie jest nadkluczem,

dokonujemy rozkładu U na X

∪

Y oraz U-Y.

Przykład

U:={Nr_studenta, Przedmiot, Sport}

F:={ N

→

→>>>>

P, N

→

→>>>>

X={N}, Y={P}

Stąd U rozkładamy na schematy {N,P}, {N,S}

Związki między postaciami normalnymi

4PN => BCPN => 3PN => 2PN => 1PN