plik

Bayesian Optimization Algorithm (BOA)

zarys

Piotr Lipiński

Sieć bayesowska

Sieć bayesowska to acykliczny graf skierowany, w
którym wierzchołki reprezentują zmienne losowe, a
krawędzie odpowiadają zależnościom między tymi
zmiennymi.

Zwrot krawędzi reprezentuje "kierunek patrzenia" na zależności między
zmiennymi losowymi (zmienna w węźle końcowym zależy od tej w węźle
początkowym). Brak krawędzi między dwoma wierzchołkami oznacza, że
zmienne losowe reprezentowane przez te wierzchołki są niezależne.

Sieć bayesowska

Przez

oznaczmy zbiór "rodziców" wierzchołka X

Wówczas łączny rozkład prawdopodobieństaw wektora
losowego X = (X

, X

, ..., X

n-1

)’ można przedstawić jako

Sieć bayesowska, przykład

Sieci bayesowskie są używane do reprezentowania
zależności między genami w chromosomie.

Rozpatrzmy chromosom X o długości 4.

Wartość każdego genu X

, X

można

traktować jako wartość pewnej zmiennej losowej.

Poniższa sieć bayesowska może więc reprezentować
zależności między genami w takim chromosomie.

Sieć bayesowska, przykład

Interpretacja takiej sieci jest następująca:

- wartość genu X

jest niezależna od wartości

pozostałych genów,

- wartość genu X

zależy od wartości genu X

- wartość genu X

zależy od wartości genu X

i wartości genu X

- wartość genu X

zależy od wartości genu X

Sieć bayesowska, przykład

Łączny rozkład prawdopodobieństwa wektora

losowego X = (X

, X

)’ można więc

przedstawić jako

P( X = x ) = P( X

= x

)

P( X

= x

| X

= x

)

P( X

= x

| X

= x

, X

= x

)

P( X

= x

| X

= x

)

dla x = (x

, x

)’.

Ten wzór można zastosować przy generowaniu

nowych osobników wg modelu zadanego przez sieć

bayesowską.

Sieć bayesowska, przykład

Najpierw zajmujemy się zmienną niezależną.

Znając prawdopodobieństwa P(X

= 0) i P(X

= 1) z

jakimi zmienna niezależna X

przyjmuje odpowiednio

wartości 0 i 1, losujemy wartość genu X

Jeśli byłyby inne zmienne niezależne, postępujemy z
nimi w taki sam sposób. Kolejność rozpatrywania tych
zmiennych jest nieistotna.

Sieć bayesowska, przykład

W kolejnych krokach zajmujemy się zmiennymi,
których rodzice mają już ustalone wartości. Kolejność
rozpatrywania tych zmiennych jest nieistotna.

Znając prawdopodobieństwa P(X

= 0 | X

= 1)

i P(X

= 1 | X

= 1), losujemy wartość genu X

Sieć bayesowska, przykład

Mając ustalone wartości genów X

i X

, możemy

losować wartości genów X

i X

Zajmijmy się najpierw zmienną X

. Znając

prawdopodobieństwa P(X

= 0 | X

= 0)

i P(X

= 1 | X

= 0), losujemy wartość genu X

Na koniec zajmijmy się zmienną X

. Znając

prawdopodobieństwa P(X

= 0 | X

= 1, X

= 0)

i P(X

= 1 | X

= 1, X

= 0), losujemy

wartość genu X

Algorytm BOA

Bayesian Optimization Algorithm:

Algorytm BOA

Wyjaśnienia wymaga krok (3) czyli sposób tworzenia
sieci bayesowskiej oraz estymacji prawdopodobieństw
używanych m.in. przy generowaniu nowej populacji
losowych osobników wg modelu zadanego przez sieć
bayesowską.

Bayesian Dirichlet Metric

Jakość sieci określa się różnymi miarami. Jedną z

najpopularniejszych jest Bayesian Dirichlet Metric:

gdzie

iloczyn po

jest po wszystkich konfiguracjach rodziców wierzchołka X

iloczyn po x

jest po wszystkich wartościach wierzchołka X

zbiór danych (populacja)

B sieć bayesowska

ewentualna dodatkowa informacja

)

liczba osobników w D, w których rodzice wierzchołka X

mają konfigurację

m(x

)

liczba osobników w D, w których wierzchołek X

wartość x

, a jego rodzice mają konfigurację

p(B|

), m’(…) prior information

K2 Metric

W praktyce często używa się prostszej metryki, zwanej
K2 Metric, w której wszystkie parametry m’(

) są

równe 1.

Przykład

Rozpatrzmy dwie zmienne X

i X

tworzące

chromosom oraz populację D = { 00, 00, 00, 11 }

Policzmy K2 dla sieci B

empty

bez żadnych krawędzi:

Ponieważ m’(

) = 1, to m’(

) = 2.

Łatwo wyliczyć, że

Zatem

Przykład

Policzmy K2 dla sieci B

0->1

z krawędzią od X

do X

Ponieważ m’(

) = 1, to m’(

) = 2.

Łatwo wyliczyć, że

Zatem

Konstrukcja sieci bayesowskiej

Naturalne podejście to sprawdzenie wszystkich

możliwych sieci bayesowskich i wybór najlepszej.

Liczba wszystkich możliwych sieci bayesowskich dla

zadanego chromosomu jest bardzo duża.

Nie sposób ocenić ich wszystkich, dlatego ogranicza

się ich liczbę przez wprowadzenie ograniczenia na

maksymalny stopień wierzchołka k.

W praktyce przyjmuje się k = 1 lub k = 2.

W praktyce nie sprawdza się wszystkich możliwych

sieci bayesowskich dla zadanego chromosomu

(nawet przy ograniczeniu maksymalnego stopnia

wierzchołka), lecz używa się heurystycznych metod

konstrukcji sieci optymalnej.

Konstrukcja sieci bayesowskiej

Popularny jest algorytm, który rozpoczyna
działanie z siecią bayesowską bez krawędzi,
a następnie w każdym kroku ewolucji używa
algorytmu zachłannego, który próbuje
poprawić sieć bayesowską przez
wykonywanie następujących operacji:

dodanie losowej krawędzi

usunięcie losowej krawędzi

zmiana kierunku losowej krawędzi

Estymacja prawdopodobieństw

Prawdopodobieństwa używane m.in. przy
generowaniu nowej populacji losowych osobników wg
modelu zadanego przez sieć bayesowską są
estymowane na podstawie aktualnej populacji w
naturalny sposób.

Przykład:

P( X

= 1 | X

= 0, X

= 0 ) = m / M

gdzie
M

liczba osobników, w których X

= 0 oraz X

= 0

liczba osobników, w których X

= 0, X

= 0

oraz X

= 1