background image

WPROWADZENIE 

DO SZTUCZNEJ INTELIGENCJI

POLITECHNIKA WARSZAWSKA

WYDZIAŁ MECHANICZNY ENERGETYKI I LOTNICTWA

MEL

MEL

NS 586

Dr in

Ŝ

. Franciszek Dul

©  F.A. Dul 2007

background image

20. UCZENIE STATYSTYCZNE

©  F.A. Dul 2007

background image

Uczenie statystyczne

W tym rozdziale zapoznamy si

ę

        

z uczeniem jako form

ą

 wnioskowania 

statystycznego prowadzonego        
na podstawie obserwacji. 

©  F.A. Dul 2007

na podstawie obserwacji. 

background image

Jak uczy

ć

 si

ę

 przy niepewno

ś

ci? 

Omówione wcze

ś

niej metody uczenia                    

nie uwzgl

ę

dniały niepewno

ś

ci realnego 

ś

wiata.

Uwzgl

ę

dnienie niepewno

ś

ci wymaga opracowania 

metod uczenia w postaci wnioskowania 
statystycznego. 

Uczenie w warunkach niepewno

ś

ci mo

Ŝ

e by

ć

 oparte 

na wnioskowaniu Bayesa.  

©

F.A. Dul 2007

na wnioskowaniu Bayesa.  

background image

20.1.  Wprowadzenie

• Uczenie jako wnioskowanie statystyczne

• Uczenie bayesowskie

• Sieci Bayesa w metodach uczenia

• Metody uczenia z pami

ę

taniem i przypominaniem

Sieci neuronowe

• Maszyny j

ą

drowe

Plan rozdziału

©  F.A. Dul 2007

• Maszyny j

ą

drowe

background image

20.1. Sformułowanie statystyczne uczenia 

Uczenie statystyczne oparte jest na 

hipotezach

danych

w postaci 

obserwacji

Obserwacje s

ą

 

realizacjami zmiennej losowej 

opisuj

ą

cej 

wielko

ść

 fizyczn

ą

.

Hipotezy s

ą

 to 

teorie probabilistyczne 

opisuj

ą

ce rozwa

Ŝ

an

ą

 

dziedzin

ę

.

Hipotezy logiczne s

ą

 szczególnymi przypadkami hipotez 

statystycznych.

©  F.A. Dul 2007

statystycznych.

background image

Przykład

20.1.  Sformułowanie statystyczne uczenia

Sprzedawca pakuje dwa rodzaje cukierków do identycznych, 
wielkich, torebek na pi

ęć

 sposobów:

h

1

: 100% 

wi

ś

niowych

,

h

2

: 75% 

wi

ś

niowych

+ 25% 

cytrynowych

,

h

3

: 50% 

wi

ś

niowych

+ 50% 

cytrynowych

,

h

4

: 25% 

wi

ś

niowych

+ 75% 

cytrynowych

,

h

5

: 100% 

cytrynowych

.

Zmienna losowa okre

ś

la typ otrzymanej torby: h

1

,..., h

5

.

©  F.A. Dul 2007

Zmienna losowa okre

ś

la typ otrzymanej torby: h

1

,..., h

5

.

Po otwarciu torby jej zawarto

ść

 staje si

ę

 znana.

Smaki poszczególnych cukierków okre

ś

laj

ą

 zmienne losowe 

D

1

,..., D

, przyjmuj

ą

ce warto

ś

ci 

wi

ś

nia

lub 

cytryna

.

Zadaniem agenta-łasucha jest przewidzenie smaku 
nast

ę

pnego cukierka wyci

ą

gni

ę

tego z torby.

Do rozwi

ą

zania problemu u

Ŝ

yjemy 

uczenia bayesowskiego

.

Polega ono na wyznaczeniu prawdopodobie

ń

stwa ka

Ŝ

dej 

hipotezy na podstawie obserwacji i przewidzenie na tej 
podstawie smaku cukierka. 

background image

Uczenie jest sprowadzone do 

wnioskowania statystycznego

.

Niech 

D

oznacza zbiór wszystkich danych z warto

ś

ciami 

obserwowanymi 

d

. Ze wzoru Bayesa

)

(

)

|

(

)

|

(

i

i

i

h

P

h

P

h

P

d

d

α

=

Je

Ŝ

eli chcemy przewidzie

ć

 warto

ść

 nieznanej wielko

ś

ci 

X

, to

=

=

h

P

h

X

P

h

P

h

X

P

X

P

)

|

(

)

|

(

)

|

(

)

,

|

(

)

|

(

d

d

d

d

gdzie 

P(h

i

) -

prawdopodobie

ń

stwo a priori hipotezy

h

i

za

ś

P(d|h

i

)

-

wiarygodno

ść

danych dla tych hipotez.

20.1.  Sformułowanie statystyczne uczenia

©  F.A. Dul 2007

=

=

i

i

i

i

i

i

h

P

h

X

P

h

P

h

X

P

X

P

)

|

(

)

|

(

)

|

(

)

,

|

(

)

|

(

d

d

d

d

=

j

i

j

i

h

d

P

h

P

)

|

(

)

|

(d

Je

Ŝ

eli np. torba jest typu 

h

5

(same cytrynowe) to pierwszych 

10 cukierków jest cytrynowych, zatem 

P(d|h

3

) = 0.5

10

gdy

Ŝ

 w 

torbie 

h

3

połowa cukierków jest cytrynowa.

Zakładamy, 

Ŝ

e wiarygodno

ść

 danych jest wyznaczona przy 

zało

Ŝ

eniu ich niezale

Ŝ

no

ś

ci oraz identycznego rozkładu, zatem

background image

0.2

0.4

0.6

0.8

1.0

0

P(h

5

|d)

P(h

3

|d)

2

4

6

8

10

P(h

4

|d)

P(h

2

|d)

P(h

1

|d)

d

P

ra

w

d

o

p

o

d

o

b

ie

ń

s

tw

o

 a

 p

o

s

te

rr

io

ri

 h

ip

o

te

z

0.2

0.4

0.6

0.8

1.0

0

2

4

6

8

10

d

P

ra

w

d

o

p

o

d

o

b

ie

ń

s

tw

o

 k

o

le

jn

e

g

o

 

c

y

tr

y

n

o

w

e

g

o

 c

u

k

ie

rk

a

20.1.  Sformułowanie statystyczne uczenia

©  F.A. Dul 2007

Liczba próbek w 

d

Prawdopodobie

ń

stwa a 

posteriori 

P(h

i

|d

1

, d

,... d

N

)

wybrania cukierka cytrynowego 
dla hipotez 

h

i

.

Liczba próbek w 

d

Oszacowanie Bayesa 
prawdopodobie

ń

stwa wybrania 

nast

ę

pnego cukierka 

cytrynowego, 

P(d

N+1

cytrynowy|d

1

, d

,... d

N

)

Ze wzrostem liczby próbek ro

ś

nie prawdopodobie

ń

stwo 

hipotezy 

h

5

, malej

ą

 za

ś

 prawdopodobie

ń

stwa hipotez 

pozostałych.
Hipoteza prawdziwa w ko

ń

cu zdominuje pozostałe.

background image

20.2. Uczenie z danymi kompletnymi

Najprostsz

ą

 metod

ą

 uczenia statystycznego jest 

uczenie 

parametryczne danymi kompletnymi

.

Uczenie parametryczne polega na wyznaczeniu warto

ś

ci 

parametrów modelu statystycznego.

Uczenie parametryczne najwi

ę

kszej wiarygodno

ś

ci ML 

dla modeli dyskretnych
Załó

Ŝ

my, 

Ŝ

e otrzymali

ś

my torb

ę

 cukierków o nieznanej 

proporcji 

θ

[0,1] cukierków wi

ś

niowych i cytrynowych.

©  F.A. Dul 2007

Zmienna losowa Smak przyjmuje 
warto

ś

ci: wi

ś

nia cytryna.

proporcji 

θ

[0,1] cukierków wi

ś

niowych i cytrynowych.

Parametrem uczenia jest 

θ

za

ś

 hipotez

ą

 

ci

ą

ą

h

θ

.

Po rozwini

ę

ciu cukierków 

okazało si

ę

Ŝ

e jest wi

ś

niowych    

N - c cytrynowych.

Smak

P(S=wiśnia)

θ

Sie

ć

 Bayesa dla 

nieznanej proporcji 

θ

cukierków wi

ś

niowych 

i cytrynowych.

background image

20.2.  Uczenie z danymi kompletnymi

Hipoteza ML

h

przewiduje, 

Ŝ

e najbardziej wiarygodna 

Warto

ść

 

θ

maksymalizuj

ą

ca wiarygodno

ść

 wynosi

N

c

c

N

c

c

d

h

dL

=

+

=

=

)

(

0

)

|

(

θ

θ

θ

d

Wiarygodno

ść

 zbioru danych jest równa

)

1

log(

)

(

log

)

|

(

log

)

|

(

log

)

|

(

1

θ

θ

θ

θ

θ

+

=

=

=

=

c

N

c

h

d

P

h

P

h

L

N

j

j

d

d

©  F.A. Dul 2007

Hipoteza ML

h

ML

przewiduje, 

Ŝ

e najbardziej wiarygodna 

proporcja cukierków jest równa proporcji obserwowanej.

Zasad

ę

 ogólna uczenia parametrycznego ML - wyznaczenie 

argumentu maksimum logarytmicznej funkcji wiarygodno

ś

ci. 

Kompletno

ść

 danych prowadzi do 

dekompozycji

zadania 

uczenia parametrycznego maksymalnej wiarygodno

ś

ci           

z sieci

ą

 Bayesa na oddzielne zadania uczenia dla 

poszczególnych parametrów.

background image

Uczenie parametryczne Bayesa
Uczenie bayesowskie zakłada aprioryczny rozkład warto

ś

ci 

parametru ucz

ą

cego a nast

ę

pnie modyfikuje ten rozkład 

wraz z napływem danych.
Niech zmienna losowa 

Θ

odpowiadaj

ą

ca parametrowi 

θ

[0,1]

ma rozkład pocz

ą

tkowy 

P(

Θ

)

który jest ci

ą

gły i niezerowy          

w przedziale [0,1].

20.2.  Uczenie z danymi kompletnymi

Rozkłady aprioryczne dla zbioru parametrów, np. 

P(

Θ

Θ

1

Θ

2

)

dla parametrów 

θ

θ

1

θ

2

wybiera si

ę

 zazwyczaj zakładaj

ą

c, 

Ŝ

s

ą

 one niezale

Ŝ

ne

©  F.A. Dul 2007

)

(

)

(

)

(

)

,

,

(

2

1

2

1

Θ

Θ

Θ

=

Θ

Θ

Θ

P

P

P

P

dla parametrów 

θ

θ

1

θ

2

wybiera si

ę

 zazwyczaj zakładaj

ą

c, 

Ŝ

s

ą

 one niezale

Ŝ

ne

Przy takim zało

Ŝ

eniu ka

Ŝ

dy parametr ma swój własny rozkład 

beta

, który zmienia si

ę

 niezale

Ŝ

nie od pozostałych przy 

dopływie nowych danych.
Rozkład 

P(

Θ

)

mo

Ŝ

e opisany 

dystrybucj

ą

 beta

zdefiniowan

ą

 

za pomoc

ą

 dwóch 

hiperparametrów

b,

1

1

)

1

(

)

](

,

[

=

b

a

b

a

beta

θ

θ

α

θ

background image

Rozkłady beta parametru 

θ

dla ró

Ŝ

nych warto

ś

ci hiperpara-

metrów b.

0.5

1.0

1.5

2.0

2.5

[2,2]

[1,1]

[5,5]

P

(

ΘΘΘΘ

=

θθθθ

)

1.0

2.0

3.0

4.0

5.0

[6,2]

[30,10]

P

(

ΘΘΘΘ

=

θθθθ

)

20.2.  Uczenie z danymi kompletnymi

©  F.A. Dul 2007

0.5

0

0.2

0.4

0.6

0.8

1.0

Parametr 

θ

Rozkład beta parametru 

θ

przy rosn

ą

cych symetrycznie 

warto

ś

ciach hiperparametrów 

b.

Rozkład beta parametru 

θ

przy wyci

ą

ganiu cukierków   

z torby zawieraj

ą

cej 75% 

cukierków wi

ś

niowych d

ąŜ

do w

ą

skiego piku w pobli

Ŝ

prawdziwej warto

ś

ci 

θ

=0.75

1.0

0

[3,1]

0.2

0.4

0.6

0.8

1.0

Parametr 

θ

background image

Skupianie nienadzorowane

jest to problem wyodr

ę

bnienia 

kategorii w zbiorze obiektów. 

20.3. Skupianie nienadzorowane

Przykłady

• Zbiór spektrów gwiazd

.

Istniej

ą

 ró

Ŝ

ne typy gwiazd, np. „czerwone olbrzymy” czy 

„białe karły”, chocia

Ŝ

 gwiazdy nie maj

ą

 etykiet z nazwami. 

• Klasyfikacja organizmów 

Ŝ

ywych

.

Rz

ę

dy, rodzaje, gatunki zwierz

ą

t i ro

ś

lin. Nie maj

ą

 one 

poj

ę

cia, 

Ŝ

e ludzie przypisali im jakie

ś

 nazwy.  

©  F.A. Dul 2007

Istniej

ą

 ró

Ŝ

ne typy gwiazd, np. „czerwone olbrzymy” czy 

„białe karły”, chocia

Ŝ

 gwiazdy nie maj

ą

 etykiet z nazwami. 

0.2

0.4

0.6

0.8

1.0

0

0.2

0.4

0.6

0.8

1.0

G

ę

sto

ść

 spektralna 1

G

ę

s

to

ś

ć

 s

p

e

k

tr

a

ln

a

 2

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

0.2

0.4

0.6

0.8

1.0

0

0.2

0.4

0.6

0.8

1.0

G

ę

sto

ść

 spektralna 1

G

ę

s

to

ś

ć

 s

p

e

k

tr

a

ln

a

 2

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

background image

Zakłada si

ę

Ŝ

e skupienia maj

ą

 

rozkład mieszany

zło

Ŝ

ony  

składników maj

ą

cych niezale

Ŝ

ne rozkłady.

=

=

=

=

k

i

i

C

P

i

C

P

P

1

)

|

(

)

(

)

(

x

x

Rozkłady prawdopodobie

ń

stw składników s

ą

 najcz

ęś

ciej 

rozkładami mieszanymi Gaussa

w których parametrami s

ą

:

Rozkład mieszany zmiennej losowej 

C

maj

ą

cej atrybuty 

x

jest 

równy

• wagi składników   

w

i

= P(C=i),

20.3.  Uczenie skupie

ń

 nienadzorowanych

©  F.A. Dul 2007

• wagi składników   

w

i

= P(C=i),

• warto

ś

ci 

ś

rednie składników 

µ

i

,

• kowariancje składników 

Σ

i

.

Zadanie skupiania nienadzorowanego polega na wyznaczeniu 
parametrów  rozkładu mieszanego na podstawie danych 
ucz

ą

cych. 

background image

20.5 Sieci neuronowe

Sieci neuronowe stanowi

ą

 jedne z najpopularniejszych       

oraz najbardziej efektywnych systemów ucz

ą

cych.

Neuron

jest to komórka mózgowa maj

ą

ca za zadanie 

zbieranie, przetwarzanie i przesyłanie sygnałów elektrycznych.

©  F.A. Dul 2007

www.sirinet.net/~jgjohnso/neuronproject.html

Przekazanie sygnału ma miejsce wówczas, gdy poziom 
kombinacji sygnałów wej

ś

ciowych przekroczy pewien próg.

background image

Model matematyczny neuronu

i

in

i

a

g

i

W

,

0

j

a

i

j

W

,

1

0

=

a

)

(

i

i

in

g

a

=

Poł

ą

czenia 

wej

ś

ciowe

Funkcja 

wej

ś

ciowa

Funkcja 

aktywacji

Wyj

ś

cie

Poł

ą

czenia 

wyj

ś

ciowe

Waga szumu

Wej

ś

cie neuronu 

i

jest sum

ą

 wa

Ŝ

on

ą

 

aktywacji

a

j

wagami

W

, za

ś

 wyj

ś

cie neuronu 

i

jest opisane 

funkcj

ą

aktywacji 

g

20.5.  Sieci neuronowe

©  F.A. Dul 2007

)

(

)

(

0

,

=

=

=

n

j

j

i

j

i

i

a

W

g

in

g

a

j

W

j,i 

, za

ś

 wyj

ś

cie neuronu 

i

jest opisane 

funkcj

ą

aktywacji 

g

działaj

ą

c

ą

 na wej

ś

cie 

in

j

Funkcje aktywacji musz

ą

 by

ć

 nieliniowe, np.

)

(

i

in

g

i

in

1

+

Funkcja progowa

)

(

i

in

g

i

in

1

+

Funkcja sigmoidalna

background image

20.5.  Sieci neuronowe

Istniej

ą

 dwie główne kategorie sieci neuronowych:

Struktury sieci neuronowych

• acykliczne (feed-forward networks), bez sprz

ęŜ

e

ń

 

zwrotnych,

• cykliczne (recurrent networks), ze sprz

ęŜ

eniami  

zwrotnymi, sieci Hopfielda.

Sieci neuronowe acykliczne s

ą

 najcz

ęś

ciej budowane               

w postaci 

warstwowej

- wyj

ś

cia z jednej warstwy s

ą

 wej

ś

ciami 

dla warstwy nast

ę

pnej.

©  F.A. Dul 2007

Uczenie sieci neuronowych

)

(x

W

h

h

=

Sie

ć

 realizuje funkcj

ę

 danych wej

ś

ciowych 

x,

Najefektywniejszym sposobem uczenia sieci neuronowych 
jest 

metoda propagacji wstecznej.

Wagi 

W

= { 

W

j,i

} s

ą

 parametrami sieci.

Uczenie sieci neuronowych dokonuje si

ę

 poprzez dostrojenie 

wag 

za pomoc

ą

 danych ucz

ą

cych.

background image

perceptronie

(sieci neuronowej 

jednowarstwowej) wej

ś

cia s

ą

 poł

ą

czone 

bezpo

ś

rednio z wyj

ś

ciami.

Perceptron - sie

ć

 jednowarstwowa acykliczna

0

0

0

>

>

=

x

W

N

j

j

j

x

W

Klasa funkcji które mog

ą

 by

ć

 reprezentowane 

za pomoc

ą

 perceptronów jest ograniczona, 

20.5.  Sieci neuronowe

tj. mog

ą

 reprezentowa

ć

 tylko funkcje separowalne liniowo.

©  F.A. Dul 2007

tj. mog

ą

 reprezentowa

ć

 tylko funkcje separowalne liniowo.

Perceptron mo

Ŝ

e mie

ć

 tak

Ŝ

e charakter probabilistyczny.

Mimo tego ograniczenia perceptrony s

ą

 szeroko stosowane  

w uczeniu maszynowym.

2

x

1

x

x

and  x

2

1

1

0

0

2

x

1

x

x

1

or  x

2

1

1

0

0

2

x

1

x

x

1

xor  x

2

1

1

0

0

?

background image

Algorytm ucz

ą

cy dla perceptronu

2

2

1

2

2

1

))

(

(

x

W

h

y

Err

E

=

=

Uczenie sieci neuronowej jest sformułowane jako zadanie 
optymalizacji w przestrzeni wagowej ze wska

ź

nikiem jako

ś

ci

j

j

j

x

in

g

Err

W

W

×

×

×

+

)

(

'

α

Parametr 

α

metody wyznacza 

szybko

ść

 uczenia

.

Kolejne przybli

Ŝ

enia współczynników wagowych okre

ś

lone s

ą

 

metod

ą

 gradientow

ą

 nast

ę

puj

ą

co

20.5.  Sieci neuronowe

Porównanie uczenia perceptronu i sieci decyzyjnej dla zada

ń

 

©  F.A. Dul 2007

0.2

0.4

0.6

0.8

1.0

0

20

40

60

80

100

Wymiar zbioru ucz

ą

cego

%

  

p

o

p

ra

w

n

 n

a

 z

b

io

rz

te

st

o

w

ym

Perceptron

Drzewo decyzyjne

0.2

0.4

0.6

0.8

1.0

0

20

40

60

80

100

Wymiar zbioru ucz

ą

cego

P

ro

p

o

rc

je

 p

o

p

ra

w

n

n

a

 z

b

io

rz

te

st

o

w

ym

Perceptron

Drzewo decyzyjne

Porównanie uczenia perceptronu i sieci decyzyjnej dla zada

ń

 

funkcji majoryzuj

ą

cej oraz wyboru restauracji.

background image

Sieci wielowarstwowe acykliczne
U

Ŝ

ycie warstw zło

Ŝ

onych z w

ę

złów ukrytych pozwala 

reprezentowa

ć

 znacznie szersz

ą

 klas

ę

 funkcji.

20.5.  Sieci neuronowe

)

(x

h

h

W

=

Sie

ć

 wielowarstwowa z wieloma wyj

ś

ciami realizuje funkcj

ę

 

wektorow

ą

 

h

danych wej

ś

ciowych 

x

Wska

ź

nikiem jako

ś

ci jest wektor bł

ę

du 

ś

redniokwadratowy 

pomi

ę

dzy wektorem wzorców ucz

ą

cych  

y

a wektorem wyj

ść

 

z sieci wielowarstwowej

©  F.A. Dul 2007

U

Ŝ

ycie pojedy

ń

czej warstwy ukrytej pozwala reprezentowa

ć

 

dowoln

ą

 funkcj

ę

 ci

ą

ą

 wej

ść

 z dowoln

ą

 dokładno

ś

ci

ą

U

Ŝ

ycie dwóch warstw ukrytych pozwala reprezentowa

ć

 nawet 

funkcje nieci

ą

głe. 

Dlatego sieci neuronowe zalicza si

ę

 do klasy 

uniwersalnych 

aproksymatorów

.

z sieci wielowarstwowej

))

(

(

))

(

(

2

1

2

1

x

h

y

x

h

y

Err

Err

W

W

=

=

T

T

E

background image

Porównanie uczenia sieci neuronowej z jedn

ą

 warstw

ą

 ukryt

ą

  

i sieci decyzyjnej dla zadania wyboru restauracji.

3

6

9

12

15

ą

cał

kow

it

n

a z

bi

or

ze

 t

es

tow

ym

P

ropor

cj

e popr

aw

n

n

a z

bi

or

ze

 

te

st

ow

ym

0.2

0.4

0.6

0.8

1.0

Sie

ć

 wielowarstwowa

Drzewo decyzyjne

20.5.  Sieci neuronowe

©  F.A. Dul 2007

Numer epoki

0

100

200

300

400

500

B

łą

cał

kow

it

n

a z

bi

or

ze

 t

es

tow

ym

P

ropor

cj

e popr

aw

n

n

a z

bi

or

ze

 

0

20

40

60

80

100

Wymiar zbioru ucz

ą

cego

Sieci neuronowe pozwalaj

ą

 reprezentowa

ć

 nawet bardzo 

zło

Ŝ

one zadania, ale problem wyboru wła

ś

ciwej struktury 

sieci, odpowiedniej dla danego zadania, nie jest rozwi

ą

zany. 

Corocznie ukazuj

ą

 si

ę

 tysi

ą

ce publikacji dotycz

ą

cych 

zastosowa

ń

 sieci neuronowych w ró

Ŝ

nych dziedzinach nauki  

i techniki.

background image

20.6 Metody j

ą

drowe uczenia

Proste sieci neuronowe ucz

ą

 si

ę

 szybko, ale maj

ą

 ograniczon

ą

 

ekspresj

ę

.

Zło

Ŝ

one sieci neuronowe maj

ą

 wysok

ą

 ekspresj

ę

, ale proces 

ich uczenia jest zazwyczaj długotrwały i czasami zawodny.

Metody zwane 

wspierajacymi maszynami wektorowymi

(support vector machines, SVM) lub 

maszynami j

ą

drowymi

(kernel machines) pozwalaj

ą

 uczy

ć

 wydajnie a jednocze

ś

nie 

cechuj

ą

 si

ę

 wysok

ą

 ekspresj

ą

©  F.A. Dul 2007

Idea SVM - przekształcenie zadania nieseparowalnego 
liniowo do postaci separowalnej. 
Przekształcenia do postaci separowalnej dokonuje si

ę

           

za pomoc

ą

 odpowiednio dobranej funkcji nieliniowej 

F(x)

wektora wej

ść

 

x

.

Funkcja 

F(x)

przekształca przestrze

ń

 danych na 

przestrze

ń

 

własno

ś

ci

.

background image

Przykład

-0.6

-0.2

0.2

0.6

1.0

-1.0

-0.6

-0.2

0.2

0.6

1.0

x

2

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

20.6. Metody j

ą

drowe uczenia

Zbiór nie jest separowalny liniowo. 

W dwuwymiarowym zbiorze danych 

= (x

1

, x

2

)

wzorce pozytywne 

(+1)

znajduj

ą

 si

ę

 w obszarze kołowym.

©  F.A. Dul 2007

0.3

0.7

1.0

1.3

1.7

0

0.3

0.6

1.0

1.3

1.7

f

1

f

2

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

++

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

x

1

2

1

3

2

2

2

2

1

1

2

,

,

x

x

f

x

f

x

f

=

=

=

Funkcja 

F: R

2

R

3

o składowych 

F(x) = ( f

1

(x), f

2

(x, f

3

(x) )

przekształca zbiór wej

ś

ciowy na 

zbiór separowalny liniowo. 

background image

20.7  Zastosowanie - rozpoznawanie pisma   

odr

ę

cznego

Rozpoznawanie pisma odr

ę

cznego jest wa

Ŝ

nym zadaniem 

praktycznym spotykanym np. przy sortowaniu poczty, 
automatycznym odczytywaniu dokumentów, r

ę

cznym 

wpisywaniu danych do komputerów, itp.

Obserwuje si

ę

 szybki post

ę

p w tej dziedzinie, wyra

Ŝ

aj

ą

cy si

ę

 

powstawaniem coraz lepszych algorytmów ucz

ą

cych.

Rol

ę

 stymuluj

ą

c

ą

 pełni baza danych NIST, zawieraj

ą

ca 

60,000 odr

ę

cznie zapisanych cyfr w formacie 400 pikseli, 

©  F.A. Dul 2007

Rol

ę

 stymuluj

ą

c

ą

 pełni baza danych NIST, zawieraj

ą

ca 

60,000 odr

ę

cznie zapisanych cyfr w formacie 400 pikseli, 

które stanowi

ą

 zbiór wzorców ucz

ą

cych.

background image

20.7. Rozpoznawanie pisma odr

ę

cznego

Algorytmy ucz

ą

ce rozpoznawania cyfr napisanych odr

ę

cznie.

Prosty 

klasyfikator trzech najbli

Ŝ

szych s

ą

siadów

nie wymaga wst

ę

pnego uczenia, ale musi przechowywa

ć

 

wszystkie wzorce ucz

ą

ce a czas klasyfikacji jest długi. 

Wska

ź

nik bł

ę

du klasyfikacji wynosi ~2.4%.

Sie

ć

 neuronowa z jedn

ą

 warstw

ą

 ukryt

ą

 

zło

Ŝ

on

ą

 z 300 

w

ę

złów, z 400 wej

ś

ciami (dla ka

Ŝ

dego piksela) i 10 wyj

ś

ciami 

(dla ka

Ŝ

dej cyfry) i 123,000 współczynnikami wagowymi. 

Wska

ź

nik bł

ę

du klasyfikacji wynosi ~1.6%.

©  F.A. Dul 2007

Wska

ź

nik bł

ę

du klasyfikacji wynosi ~1.6%.

Specjalizowane sieci neuronowe LeNet

wykorzystuj

ą

 

informacj

ę

 o postaci wzorca jako tablicy 400 pikseli oraz 

zało

Ŝ

enie o nieistotno

ś

ci małych ró

Ŝ

nic w obrazach cyfr. 

Warstwy ukryte zawieraj

ą

 30-768 w

ę

złów. 

Wska

ź

nik bł

ę

du klasyfikacji wynosi ~0.9%.

Przy

ś

pieszona sie

ć

 neuronowa

zło

Ŝ

ona jest z trzech sieci 

LeNet operuj

ą

cych na ró

Ŝ

nych zbiorach wzorców                         

i wybieraj

ą

cych klasyfikacj

ę

 poprzez głosowanie. 

Wska

ź

nik bł

ę

du klasyfikacji wynosi ~0.7%.

background image

20.7. Rozpoznawanie pisma odr

ę

cznego

Metoda wektorów podtrzymuj

ą

cych

zło

Ŝ

ona z 25,000 

wektorów nie wymaga uczenia wst

ę

pnego i nie wykorzystuje 

informacji o strukturze zadania, a dorównuje metodzie LeNet.
Wska

ź

nik bł

ę

du klasyfikacji wynosi ~1.1%.

Wirtualna metoda wektorów podtrzymuj

ą

cych

działa       

w dwóch etapach: najpierw jak zwykła maszyna wektorowa   
a nast

ę

pnie wykorzystuje informacj

ę

 o postaci wzorca          

w formie j

ą

drowej opartej na pikselach przyległych. 

Wska

ź

nik bł

ę

du klasyfikacji wynosi ~0.56%.     

WINNER!

©  F.A. Dul 2007

Wska

ź

nik bł

ę

du klasyfikacji wynosi ~0.56%.     

WINNER!

Metoda dopasowywania kształtów

polega na porównywaniu 

kształtu cyfry z kształtami wzorców. 
Wyznaczana jest transformacja przekształcaj

ą

ca jeden kształt 

na drugi i okre

ś

laj

ą

c

ą

 miar

ę

 zgodno

ś

ci obu kształtów.

Wska

ź

nik bł

ę

du klasyfikacji wynosi ~0.63%.

Dla porównania -

człowiek osi

ą

ga wska

ź

nik bł

ę

du klasyfikacji 

cyfr odr

ę

cznych rz

ę

du ~0.2%

.

background image

Podsumowanie

• Metody uczenia bayesowskiego maj

ą

 posta

ć

 wnioskowania 

probabilistycznego wykorzystuj

ą

cego poj

ę

cie brzytwy 

Ockhama.

• Uczenie maksymalnego a posteriori (MAP) wyznacza 

najbardziej wiarygodn

ą

 hipotez

ę

 dla istniej

ą

cych danych.

• Sieci neuronowe s

ą

 zło

Ŝ

onymi funkcjami nieliniowymi z 

wieloma parametrami. Mog

ą

 by

ć

 uczone na podstawie 

danych zaszumionych i maj

ą

 szerokie zastosowanie w 

praktyce.

©

F.A. Dul 2007

praktyce.

• Perceptron mo

Ŝ

e reprezentowa

ć

 funkcje separowalne liniowo

• Wielowarstwowe sieci acykliczne pozwalaj

ą

 reprezentowa

ć

 

dowolne funkcje.

• Metoda propagacji wstecznej jest najefektywniejszym 

sposobem uczenia sieci neuronowych.

• Metody funkcji j

ą

dra umo

Ŝ

liwiaj

ą

 wyznaczanie separatorów 

nieliniowych dla zada

ń

 nieseparowalnych liniowo.