Microsoft Word - SZAU

Szeregując wielkości

od największej do najmniejszej i uwzględniając różnice między

kolejnymi wyrazami szeregu wnioskuje się o ich wpływie na wynik końcowy. Jeżeli wyraźnie
widać różnicę między dwoma kolejnymi wyrazami szeregu, z sieci można usunąć wejścia
odpowiadające tym małym wielkościom

3.6.

Sieci neuronowe o radialnych funkcjach bazowych

W najpopularniejszych wielowarstwowych sieciach neuronowych typu perceptronowego

stosuje  się  zazwyczaj  sigmoidalne  funkcje  aktywacji.  Konsekwencją  tego  faktu  jest  to,  że
neuron  pozostaje  aktywny  wówczas,  gdy  suma  jego  sygnałów  wejściowych  jest  większa  od
pewnej  wartości  progowej.  W  rezultacie,  wszystkie  neurony  aktywne  uczestniczą  w
formowaniu  sygnału  wyjściowego  sieci.  Klasyczne  sieci  neuronowe  nazywa  się  czasami
aproksymatorami globalnymi [29].

Podejściem alternatywnym jest aproksymacja lokalna, w której sygnał wyjściowy sieci jest

sumą  odwzorowań  lokalnych.  Neurony  ukryte  stanowią  zbiór  funkcji  bazowych  typu
lokalnego. Poszczególne neurony są aktywne tylko w wąskim obszarze przestrzeni danych. W
opisywany  sposób  działają  sieci  neuronowe  o  radialnych  funkcjach  bazowych  (RBF  –  ang.
Radial  Basis  Function).  Neurony  ukryte  realizują  funkcje  zmieniające  się  radialnie  wokół
centrum c i przyjmujące wartości niezerowe wyłącznie w otoczeniu centrum. Ogólna postać
radialnych funkcji bazowych jest następująca

(

)

−

)

(

(3.76)

Zakładając dla uproszczenia, że sieć ma tylko jedno wyjście, jest ono opisane zależnością

(

)

∑

−

)

(

(3.77)

przy czym K jest liczbą neuronów ukrytych, natomiast wagi sieci oznaczone są przez

(

1 K

). Wektory podawane na wejścia sieci mają, analogicznie jak w sieciach

perceptronowych,

długość

tzn.

[

]

Wektory

[

]

reprezentują centra poszczególnych funkcji bazowych. Ogólna

struktura sieci radialnej została przedstawiona na rys. 3.23. Otrzymana sieć ma strukturę
dwuwarstwową, neurony ukryte o radialnych funkcjach bazowych są oczywiście nieliniowe,
natomiast węzeł wyjściowy (sumator) jest liniowy. Analogicznie jak w sieciach
perceptronowych dodatkowe wejście

jest polaryzacją sieci.

Polaryzacja

Rys. 3.23. Ogólna struktura radialnej sieci neuronowej

Najczęściej używaną funkcją radialną jest funkcja Gaussa

(

)















−

exp

)

(

(3.78)

gdzie parametry

(

1 K

) decydują o szerokości funkcji. Wpływ tego parametru na

kształt funkcji Gaussa przedstawiono na rys. 3.24. Wyjście sieci z radialną funkcją Gaussa
można również zapisać w następujący sposób

∑















−

)

(

exp

)

(

(3.79)

W przeciwieństwie do sieci perceptronowych, które mogą mieć dowolną liczbę warstw, sieć
radialna ma stałą strukturę. Co więcej, wszystkie nieliniowe neurony warstwy ukrytej
stosowane w sieciach perceptronowych mają zazwyczaj taką samą funkcję aktywacji, o takich
samych parametrach (np. tangens hiperboliczny), natomiast parametry

c funkcji radialnych

poszczególnych  neuronów  są,  z  definicji,  inne.  W  przeciwnym  wypadku  wszystkie  neurony
działałyby  lokalnie  wokół  tych  samych  punktów  przestrzeni  wielowymiarowej  wektora
wejściowego.  Parametry

poszczególnych funkcji radialnych też są zazwyczaj różne,

jedynie w uproszczonych przypadkach są one stałe.

Ponieważ rząd poszczególnych składowych wektora wejściowego może być różny, dobrze

jest zastosować skalowanie funkcji aktywacji poszczególnych neuronów. Macierze skalujące
o wymiarowości

oznaczone są przez

Q (

1 K

). Otrzymuje się wówczas

uogólnioną funkcję Gaussa postaci

(

)

(

)













−













−

)

(

)

(

exp

)

(

)

(

exp

)

(

(3.80)

gdzie macierz

pełni rolę skalarnego czynnika

standardowej funkcji

Gaussa  (3.78).  Sieci,  w  których  wykorzystuje  się  macierze  skalujące  nazywane  są  sieciami
HRBF (ang. Hyper Radial Basis Function). Elementy macierzy skalujących są dodatkowymi
parametrami  modelu  neuronowego,  ich  dobór  pozwala  dopasować  sieć  do  rozwiązywanego
problemu. Z drugiej jednak strony, wprowadzenie macierzy skalujących powoduje, że liczba
parametrów  sieci  gwałtownie  wzrasta,  co  ma  duże  znaczenie  podczas  uczenia.  Dlatego  też
największe  praktyczne  znacznie  mają  sieci  HRBF  o  diagonalnych  macierzach  skalujących

)

(

diag

Rys. 3.24. Wykresy funkcji bazowej Gaussa: a)

, b)

, c)

, d)

3.6.1.

Uczenie sieci neuronowych o radialnych funkcjach bazowych

Uczenie, czyli dobór parametrów sieci radialnych można sformułować jako minimalizację

błędu modelu dla wszystkich S próbek

(

)

∑













−

)

(

))

(

)

(

(3.81)

W  wyniku  rozwiązania  powyższego  zadania  optymalizacji  wyznacza  się  wagi  sieci,  centra
funkcji  bazowych  oraz  parametry  określające  kształt  funkcji  bazowych.  W  przypadku
klasycznych  sieci  RBF  będą  to  współczynniki

(

1 K

), dla sieci HRBF będą to

macierze

Q (

1 K

), natomiast dla uproszczonych sieci HRBF będą to diagonalne

macierze

Q .

Uwzględniając wyłącznie wagi sieci, funkcja błędu jest kwadratowa, a więc jeżeli

optymalizacji  podlegają  tylko  wagi,  to  zadanie  optymalizacji  można  bardzo  efektywnie
numerycznie  (bez  iteracji,  znajdując  minimum  globalne)  rozwiązać  metodą  najmniejszych
kwadratów. Spostrzeżenie to jest podstawą algorytmu hybrydowego uczenia radialnych sieci
neuronowych.  Składa  się  on  z  dwóch,  powtarzających  się  etapów.  Struktura  algorytmu  jest
następująca:

Wybór początkowych wartości wag (zwykle w sposób losowy), wybór centrów funkcji

bazowych, wybór parametrów

lub macierzy

Q .

Dobór wag sieci przy wykorzystaniu metody najmniejszych kwadratów.

Optymalizacja parametrów

lub

Q na drodze nieliniowej optymalizacji.

Przejście do kroku 2.

Inicjalizacja parametrów funkcji bazowych ma bardzo duże znaczenie, nawet większe niż

w  przypadku  sieci  perceptronowych.  Jest  to  spowodowane  tym,  że  funkcje  wykładnicze
charakteryzują  się  bardzo  silnymi  nieliniowościami,  prawdopodobieństwo  utknięcia  w
minimum  lokalnym  jest  bardzo  duże.  Dlatego  też  stosuje  się  bardzo  efektywne  algorytmy
samoorganizacji [29].

W drugim kroku algorytmu hybrydowego parametry

lub

Q są zamrożone, wyznacza

się wyłącznie wagi sieci. Dla S próbek uczących można sformułować układ równań





































)

(

)

(

)

(

))

(

))

(

))

(

))

(

))

(

))

(

))

(

))

(

))

(

(3.82)

który można zapisać jako

. Podstawiając w miejsce wektora wyjściowego wzorce

[

]

można wyznaczyć analitycznie optymalny wektor wag

(3.83)

Do obliczenia macierzy pseudoodwrotnej

G można zastosować rozkład SVD.

W trzecim kroku algorytmu hybrydowego wagi zostają zamrożone, optymalizacji

podlegają  jedynie  parametry  mające  nieliniowy  wpływ  na  wyjście  sieci.  Stosuje  się  do  tego
celu  dowolną  procedurę  nieliniowej  optymalizacji,  analogicznie  jak  ma  to  miejsce  w
przypadku  klasycznej  sieci  jednokierunkowej  wielowarstwowej,  np.  procedurę  zmiennej
metryki  lub  gradientów  sprzężonych.  Podczas  obliczeń  składowe  wektora  gradientu  funkcji
kryterialnej  E  względem  parametrów

lub

Q oblicza się w sposób analityczny. Na

przykład, dla klasycznej sieci radialnej pochodne względem parametrów

mają postać

∑















−















−

∂

−

∂

)

(

)

(

exp

))

(

)

(

)

(

))

(

)

(

(3.84)

dla wszystkich

1 K

, oraz

∑





























−

∂

−

∂

)

(

exp

))

(

)

(

)

(

))

(

)

(

(3.85)

dla

1 K

Uczenie sieci radialnych można również zorganizować tak samo jak sieci

perceptronowych, gdzie wszystkie parametry sieci są optymalizowane jednocześnie. Wagi
względem wag dla

oblicza się ze wzoru

∑

−

∂

−

∂

))

(

)

(

)

(

))

(

)

(

(3.86)

natomiast dla

1 K

∑





























−

∂

−

∂

)

(

exp

))

(

)

(

)

(

))

(

)

(

(3.87)

W praktyce jednak najskuteczniejszy okazuje się algorytm hybrydowy.

3.6.2.

Sieci perceptronowe a radialne

Jak już wspomniano na wstępie, klasyczne sieci wielowarstwowe (perceptronowe) są

aproksymatorami  globalnymi,  podczas  gdy  sieci  radialne,  w  których  stosuje  się  funkcje
aktywacji  mające  wartości  niezerowe  jedynie  w  pewnym  otoczeniu  centrów,  są
aproksymatorami lokalnymi. Sieci perceptronowe, ze względu na globalny charakter funkcji
aktywacji,  nie  mają  wbudowanego  mechanizmu  pozwalającego  zidentyfikować  region,  w
którym  aktywność  danego  neuronu  jest  największa.  Bardzo  trudno  jest  powiązać  obszar
aktywności  poszczególnych  neuronów  z  odpowiednim  obszarem  danych  uczących.  Oznacz
to,  że  trudno  jest  wyznaczyć  wartości  początkowe  wag.  Uczenie  sieci  perceptronowej
sprowadza  się  do  nieliniowej  optymalizacji,  w  której  podstawowym  problemem  jest
występowanie minimów lokalnych.

Ponieważ stosowane w sieciach radialnych funkcje aktywacji są funkcjami lokalnymi,

stosunkowo  łatwo  można  powiązać  ich  parametry  z  fizycznym  rozmieszczeniem  danych
uczących. W rezultacie można wyznaczyć wartości początkowe parametrów modelu. Stosując
hybrydowy  algorytm  uczenia  sieci  radialnych  można  oddzielić  etap  doboru  parametrów
funkcji bazowych od etapu dobory wag, co znacznie upraszcza i przyspiesza uczenie. Można
dodatkowo  zastosować  bardzo  skuteczną  metodę  kontroli  liczby  neuronów  ukrytych  –
algorytm  ortogonalizacji  Grahama-Schmidta  [29].  Dzięki  temu,  w  odróżnieniu  od  sieci
perceptronowych  gdzie  architektura  sieci  dobierana  jest  zwykle  na  drodze  eksperymentalną
metodą  prób  i  błędów  (należy  zwykle  nauczyć  wiele  sieci  o  różnej  architekturze),  dla  sieci
radialnych kształtowanie architektury jest integralnym fragmentem procesu uczenia.