WAI

Wykład 3. Sieci neuronowe. Uczenie

Żurada Jacek, Barski Mariusz , Jędruch Wojciech, Sztuczne

sieci neuronowe Wydawnictwo Naukowe PWN, Warszawa,

1996

Literatura:
S. Osowski, Sieci neuronowe w ujęciu algorytmicznym. WNT,
Warszawa 1997.

Perceptron - przypomnienie













Przypomnienie.Jak opisać

perceptron?

Co charakteryzuje perceptron?

• Perceptron jest opisywany

jedno-znacznie przez zbiór wag
w

,...,w

 oraz wartość

progowa  

• Wartości x

,...,x

 to zmienne

pojawiające się na wejściu do
perceptronu

• Funkcja aktywacji:











otherwise



Uczenie perceptronu

Przykład: rozpoznawanie znaków

Siatka 6  6

36 wejść

Wyjście: 1, jeśli na wejściu
pojawia się litera “A”, zaś 0
w p.p.

Zadanie: dobrać wagi wejść i wartość
progową tak, by uzyskać zaplanowany
efekt

Dane treningowe

(znane odpowiedzi)

Dobór wag (uczenie)

Dane testowe

Odpowiedź

Uczenie perceptronu, n=2

• Proces uczenia:

– Inicjujemy wagi losowo
– Dla każdego przykładu,

jeśli odpowiedź jest

nieprawidłowa, to

+ =  x

 – = 

(k+1)= w

(k) + w

+ ,

podobnie dla w

(k+1)= (k) –  – ,
k-krok iteracji, epoka

• Wejście:

– Ciąg przykładów uczących ze znanymi

odpowiedziami

- 

]

gdzie  jest równe różnicy odpowiedzi sieci i prawidłowej

odpowiedzi.

Uczenie perceptronu

• Często  mnoży się dodatkowo

przez niewielki współczynnik
uczenia

• Po wyczerpaniu przykładów,

zaczynamy proces uczenia od
początku, dopóki następują
jakiekolwiek zmiany wag połączeń

• Próg  można traktować jako wagę

dodatkowego wejścia o wartości -1:

 = 3

-4

( = 0)

-4

(zawsze -1)3

Przykład: Uczenie neuronu

• Zbiór punktów na

wykresie jest liniowo

separowalne.













otherwise



Funkcja
aktywacji:

• Otrzymamy

= - 18.8

= - 12.2

 = 3

• Niech

=1, w

=1,  = 1, wsp.

uczenia =1

•Pierwszy przykład jest

dobrze, ale drugi nie,

modyfikujemy zatem

wagi:

+ = (-1 - 1) 9.4

+ = (-1 - 1) 6.4

 – = (-1 - 1)

•Drugi przykład jest

dobry, ale trzeci

nie…

Uczenie perceptronu

• Opisany schemat jest w miarę

przejrzysty tylko dla
pojedynczych perceptronów,
lub niewielkich sieci

• Ciężko jest stosować reguły

tego typu dla
skomplikowanych modeli

– Tymczasem np. do

rozpoznawania wszystkich liter
potrzeba by sieci złożonej z 26
takich perceptronów

Sieci perceptronów

Ograniczenia pojedynczych perceptronów
spowodowały w latach 80-tych wzrost
zainteresowania sieciami wielowarstwowymi i
opracowanie algorytmu ich uczenia (propagacja
wsteczna)

Synapses

Axon

Dendrites

Synapses

(weights)

Nodes

SIECI PERCEPTRONÓW

Potrafią reprezentować dowolną funkcję

boolowską (opartą na rachunku zdań)

 = 2

 = 1

-2

p XOR q

SIECI WIELOWARSTWOWE

• Wyjścia neuronów

należących do
warstwy niższej
połączone są z
wejściami
neuronów
należących do
warstwy wyższej

– np. metodą „każdy z

każdym”

• Działanie sieci polega na liczeniu odpowiedzi

neuronów w kolejnych warstwach

• Nie jest znana ogólna metoda projektowania

optymalnej architektury sieci neuronowej

Funkcje aktywacji

• Progowe

• Sigmoidaln

 













 







0,2

0,4

0,6

0,8

1,2

-15

-10

-5

-0,2

0,2

0,4

0,6

0,8

1,2

-15

-10

-5

FUNKCJE AKTYWACJI (2)

• Unipolarne

• Bipolarne

0,2

0,4

0,6

0,8

1,2

-15

-10

-5

 







-1,5

-1

-0,5

0,5

1,5

-15

-10

-5

 







 s

FUNKCJE AKTYWACJI (3)

0,2

0,4

0,6

0,8

1,2

-15

-10

-5

 









 =
2.0
 =
1.0
 =
0.5

 





















lim



FUNKCJE AKTYWACJI (4)

 

















0,2

0,4

0,6

0,8

1,2

-10

-5







FUNKCJE AKTYWACJI (5)

• Zasady ogólne:

– Ciągłość (zachowanie stabilności

sieci jako modelu rzeczywistego)

– Różniczkowalność (zastosowanie

propagacji wstecznej błędu)

– Monotoniczność (intuicje związane

z aktywacją komórek neuronowych)

– Nieliniowość (możliwości ekspresji)

SIECI NEURONOWE

Potrafią modelować (dowolnie dokładnie

przybliżać) funkcje rzeczywiste

(z tw. Kołmogorowa)

y f w

i i



















 









funkcja aktywacji

0.3

1.1

-2

-0.2

0.4

SIECI NEURONOWE



0.9

-0.5

1.2

0.3

0.9

1.2

-0.4

-0.8

-2

1.2

-0.5

-0.1

-0.4

-0.8

-0.7

SIECI NEURONOWE

SIECI JAKO FUNKCJE ZŁOŻONE (1)

x
1

x
2

w
1

w
2

v1
1

v2
2

v1
2

v2
1





















Network

y 

SIECI JAKO FUNKCJE ZŁOŻONE (2)
































































x
1

x
2

-3

3
-7

SIECI JAKO FUNKCJE ZŁOŻONE (3)

• Jeśli wszystkie poszczególne funkcje

aktywacji są liniowe, to funkcja

Network jest również liniowa

• Architektura wielowarstwowa daje

zatem nowe możliwości tylko w

przypadku stosowania funkcji

nieliniowych

x
1

x
2

w
1

w
2

v1
1

v2
2

v1
2

v2
1

y =

=Network(x1
,x2)

SIECI JAKO FUNKCJE ZŁOŻONE – przypadek

liniowy

• Niech

(x1,x2) = a

*(x1*v

1 + x2*v

2) + b

g(z1,z2) = a*(z1*w1 + z2*w2) + b

• Wtedy

Network(x1,x2) = A1*x1 + A2*x2 + B

• Np.:

A1 = a*(a1*v1*w1 + a2*v2*w2)

x
1

x
2

w
1

w
2

v1
1

v2
2

v1
2

v2
1

PROPAGACJA WSTECZNA BŁĘDU (1)

• Chcemy “wytrenować” wagi połączeń

między kolejnymi warstwami neuronów

• Inicjujemy wagi losowo (na małe wartości)
• Dla danego wektora uczącego obliczamy

odpowiedź sieci (warstwa po warstwie)

• Każdy neuron wyjściowy oblicza swój

błąd, odnoszący się do różnicy pomiędzy

obliczoną odpowiedzią y oraz poprawną

odpowiedzią t

PROPAGACJA WSTECZNA BŁĘDU (2)

dane uczące

odpowiedź

sieci y

właściwa

odpowiedź t

błąd d









Błąd sieci definiowany jest zazwyczaj
jako

PROPAGACJA WSTECZNA BŁĘDU (3)

• Oznaczmy przez:

– f: R



R – funkcję aktywacji w neuronie

– w

,..., w

– wagi połączeń wchodzących

– z

,..., z

– sygnały napływające do

neuronu z poprzedniej warstwy

• Błąd neuronu traktujemy jako funkcję

wag połączeń do niego prowadzących:













...

,...,







PRZYKŁAD (1)

• Rozpatrzmy model, w którym:

– Funkcja aktywacji przyjmuje postać

– Wektor wag połączeń = [1;-3;2]

• Załóżmy, że dla danego przykładu:

– Odpowiedź powinna wynosić t = 0.5
– Z poprzedniej warstwy dochodzą sygnały

[0;1;0.3]





)

(









Zadania sprawdzające:

1. Co charakteryzuje prosty perceptron?
2. Podać inną funkcję logiczną niż XOR,

której nie potrafi obliczyć sieć neuronowa.

3. Jaką własność posiada każda funkcja

aktywacji?

4. Co to jest równanie perceptronowe? Jakie

jest jego znaczenie?

5. Co potrafi zrobić pojedyńczy neuron?

Zadania sprawdzające:

1. Co charakteryzuje prosty perceptron?
2. Podać inną funkcję logiczną niż XOR,

której nie potrafi obliczyć sieć neuronowa.

3. Jaką własność posiada każda funkcja

aktywacji?

4. Co to jest równanie perceptronowe? Jakie

jest jego znaczenie?

5. Co potrafi zrobić pojedyńczy neuron?

PRZYKŁAD (2)

• Liczymy wejściową sumę ważoną:

• Liczymy odpowiedź neuronu:

• Błąd wynosi:





)

(















)

(



























036







IDEA ROZKŁADU BŁĘDU

• Musimy „rozłożyć” otrzymany błąd

na połączenia wprowadzające
sygnały do danego neuronu

• Składową błędu dla każdego j-tego

połączenia określamy jako
pochodną cząstkową błędu
względem j-tej wagi

• Składowych tych będziemy mogli

użyć do zmodyfikowania ustawień
poszczególnych wag połączeń

IDEA ROZKŁADU BŁĘDU (2)

Załóżmy, że mamy neuron z wagami w

=0, w

=2,

=3. Mamy dane wektor wejściowy: [0.3 , 0.7],

przy czym oczekiwana odpowiedź to t=1. Jak
należy zmienić wagi, aby błąd był jak najmniejszy?

y f w

i i



















 







Wagi powinniśmy
zmienić w kierunku
spadku wartości błędu.

-4

-2

-4

-2

0.2

0.4

-4

-2

Możemy błąd przedstawić jako
funkcję w

, w

błąd

wartość błędu
dla wag [2, 3]

KIERUNEK ZMIANY WAG

Jeśli rozważymy większą liczbę przykładów, funkcja

średniego błędu będzie miała bardziej skomplikowany
kształt.

[0.3, 0.7], t=1
[0.2, 0.9], t=0.1
[-0.6, 1], t=0
[0, -0.8], t=0.5
[0.6, 1], t=0.3

-10

-8

-6

-4

-2

-10

-5

Nachylenie wykresu w danym punkcie
(odpowiadającym aktualnym wartościom
wag) dane jest przez gradient, czyli wektor
pochodnych cząstkowych.

Zmiana wag powinna nastąpić w kierunku przeciwnym.

-10

-5

-10

-5

0.25

0.5

0.75

1.25

-10

-5



  





OBLICZANIE POCHODNEJ









,...,





  























...



















...

PROPAGACJA WSTECZNA BŁĘDU

• Idea:

– Wektor wag połączeń powinniśmy przesunąć w kierunku

przeciwnym do wektora gradientu błędu (z pewnym
współczynnikiem uczenia



)

– Możemy to zrobić po każdym przykładzie uczącym, albo

sumując zmiany po kilku przykładach.

• Realizacja:



  













Prosty przykład: wagi w

=1, w

=1, dane wejściowe: [0.5, 0.5], t = 1.

Funkcja sigmoidalna:

więc:

Stąd: s = 0.5 + 0.5 = 1, y = 0.731, zmiana w= (1- 0.731) * 0.19 * 0.5 = 0.026.
A więc nowe wagi to 1.026. Ten sam przykład da tym razem odpowiedź y=0.736.

 







 













PROPAGACJA WSTECZNA BŁĘDU (2)

błąd



błąd



Błędy są następnie propagowane w kierunku
poprzednich warstw.
Wprowadźmy pomocniczo współczynnik błędu



zdefiniowany dla ostatniej warstwy jako:











)

(



czyli neuron w warstwie ukrytej
“zbiera” błąd z neuronów, z którymi
jest połączony.

błąd















)

(



a dla pozostałych warstw:

Zmiana wag połączeń następuje po fazie propagacji
błędu i odbywa się według wzoru:











Oznaczenia: w - waga wejścia neuronu, z - sygnał wchodzący do
neuronu danym wejściem,

 - współczynnik błędu obliczony dla danego

neuronu, s - wartość wzbudzenia (suma wartości wejściowych
pomnożonych przez wagi) dla danego neuronu.

Zadania sprawdzające:

1. Co charakteryzuje prosty perceptron?
2. Podać inną funkcję logiczną niż XOR,

której nie potrafi obliczyć sieć neuronowa.

3. Jaką własność posiada każda funkcja

aktywacji?

4. Co to jest równanie perceptronowe? Jakie

jest jego znaczenie?

5. Co potrafi zrobić pojedyńczy neuron?

Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38

Wyszukiwarka

Podobne podstrony:
2009 10 27 Wstep do SI [w 03 04 Nieznany
2009 10 13 Wstep do SI [w 01]id Nieznany
2009-10-13 Wstęp do SI [w 01], Sztuczna inteligencja
2009-10-13 Wstęp do SI [w 02], Sztuczna inteligencja
2009 10 13 Wstęp do SI [w 01]id 26833 ppt
2009 12 01 Wstep do SI [w 09 10 Nieznany (2)
2009 12 15 Wstęp do SI [w 11 12]id 26842 ppt
2009 10 27
2009 10 27 19 40 Puszcze i bory z legenda 2xA4
Wstęp do pedagogiki, WSTĘP DO PEDAGOGIKI 15.10.2011, WSTĘP DO PEDAGOGIKI
28.10.11, Wstęp do teorii komunikacji
28.10.11, Wstęp do teorii komunikacji
hoff - 30.10 ćw, wstep do religioznawstwa
2009 10 27 Podróż służbowa funkcjonariusza SG ost[1]-1, 2009, rozporzadzenia SG
WstĂŞp do Filozofii wykÂł.III - 20.10.2010, Wstęp do filozofii
WstĂŞp do Filozofii. wykÂł I.6.10.2010, Wstęp do filozofii

więcej podobnych podstron

2009 10 27 Wstęp do SI [w 03 04]

Document Outline