AI_20_1

WPROWADZENIE

DO SZTUCZNEJ INTELIGENCJI

POLITECHNIKA WARSZAWSKA

WYDZIAŁ MECHANICZNY ENERGETYKI I LOTNICTWA

MEL

NS 586

Dr in

. Franciszek Dul

© F.A. Dul 2007

20. UCZENIE STATYSTYCZNE

© F.A. Dul 2007

Uczenie statystyczne

W tym rozdziale zapoznamy si

z uczeniem jako form

wnioskowania

statystycznego prowadzonego
na podstawie obserwacji.

© F.A. Dul 2007

na podstawie obserwacji.

Jak uczy

przy niepewno

ci?

Omówione wcze

niej metody uczenia

nie uwzgl

dniały niepewno

ci realnego

wiata.

Uwzgl

dnienie niepewno

ci wymaga opracowania

metod uczenia w postaci wnioskowania
statystycznego.

Uczenie w warunkach niepewno

ci mo

e by

oparte

na wnioskowaniu Bayesa.

F.A. Dul 2007

na wnioskowaniu Bayesa.

20.1. Wprowadzenie

• Uczenie jako wnioskowanie statystyczne

• Uczenie bayesowskie

• Sieci Bayesa w metodach uczenia

• Metody uczenia z pami

taniem i przypominaniem

•

Sieci neuronowe

• Maszyny j

drowe

Plan rozdziału

© F.A. Dul 2007

• Maszyny j

drowe

20.1. Sformułowanie statystyczne uczenia

Uczenie statystyczne oparte jest na

hipotezach

danych

w postaci

obserwacji

Obserwacje s

realizacjami zmiennej losowej

opisuj

cej

wielko

ść

fizyczn

Hipotezy s

teorie probabilistyczne

opisuj

ce rozwa

dziedzin

Hipotezy logiczne s

szczególnymi przypadkami hipotez

statystycznych.

© F.A. Dul 2007

statystycznych.

Przykład

20.1. Sformułowanie statystyczne uczenia

Sprzedawca pakuje dwa rodzaje cukierków do identycznych,
wielkich, torebek na pi

ęć

sposobów:

: 100%

niowych

: 75%

niowych

+ 25%

cytrynowych

: 50%

niowych

+ 50%

cytrynowych

: 25%

niowych

+ 75%

cytrynowych

: 100%

cytrynowych

Zmienna losowa H okre

la typ otrzymanej torby: h

,..., h

© F.A. Dul 2007

Zmienna losowa H okre

la typ otrzymanej torby: h

,..., h

Po otwarciu torby jej zawarto

ść

staje si

znana.

Smaki poszczególnych cukierków okre

laj

zmienne losowe

,..., D

, przyjmuj

ce warto

nia

lub

cytryna

Zadaniem agenta-łasucha jest przewidzenie smaku
nast

pnego cukierka wyci

gni

tego z torby.

Do rozwi

zania problemu u

yjemy

uczenia bayesowskiego

Polega ono na wyznaczeniu prawdopodobie

stwa ka

dej

hipotezy na podstawie obserwacji i przewidzenie na tej
podstawie smaku cukierka.

Uczenie jest sprowadzone do

wnioskowania statystycznego

Niech

oznacza zbiór wszystkich danych z warto

ciami

obserwowanymi

. Ze wzoru Bayesa

)

(

)

(

)

(

eli chcemy przewidzie

warto

ść

nieznanej wielko

, to

∑

)

(

)

(

)

(

)

(

)

(

gdzie

P(h

) -

prawdopodobie

stwo a priori hipotezy

P(d|h

)

wiarygodno

ść

danych dla tych hipotez.

20.1. Sformułowanie statystyczne uczenia

© F.A. Dul 2007

∑

)

(

)

(

)

(

)

(

)

(

∏

)

(

)

eli np. torba jest typu

(same cytrynowe) to pierwszych

10 cukierków jest cytrynowych, zatem

P(d|h

) = 0.5

gdy

torbie

połowa cukierków jest cytrynowa.

Zakładamy,

e wiarygodno

ść

danych jest wyznaczona przy

zało

eniu ich niezale

ci oraz identycznego rozkładu, zatem

0.2

0.4

0.6

0.8

1.0

P(h

|d)

P(h

|d)

P(h

|d)

P(h

|d)

P(h

|d)

0.2

0.4

0.6

0.8

1.0

20.1. Sformułowanie statystyczne uczenia

© F.A. Dul 2007

Liczba próbek w

Prawdopodobie

stwa a

posteriori

P(h

, d

,... d

)

wybrania cukierka cytrynowego
dla hipotez

Liczba próbek w

Oszacowanie Bayesa
prawdopodobie

stwa wybrania

nast

pnego cukierka

cytrynowego,

P(d

N+1

= cytrynowy|d

, d

,... d

)

Ze wzrostem liczby próbek ro

nie prawdopodobie

stwo

hipotezy

, malej

prawdopodobie

stwa hipotez

pozostałych.
Hipoteza prawdziwa w ko

cu zdominuje pozostałe.

20.2. Uczenie z danymi kompletnymi

Najprostsz

metod

uczenia statystycznego jest

uczenie

parametryczne z danymi kompletnymi

Uczenie parametryczne polega na wyznaczeniu warto

parametrów modelu statystycznego.

Uczenie parametryczne najwi

kszej wiarygodno

ci ML

dla modeli dyskretnych
Załó

my,

e otrzymali

my torb

cukierków o nieznanej

proporcji

∈

[0,1] cukierków wi

niowych i cytrynowych.

© F.A. Dul 2007

Zmienna losowa Smak przyjmuje
warto

ci: wi

nia i cytryna.

proporcji

∈

[0,1] cukierków wi

niowych i cytrynowych.

Parametrem uczenia jest

hipotez

gł

Po rozwini

ciu N cukierków

okazało si

e jest c wi

niowych

i N - c cytrynowych.

Smak

P(S=wiśnia)

Sie

Bayesa dla

nieznanej proporcji

cukierków wi

niowych

i cytrynowych.

20.2. Uczenie z danymi kompletnymi

Hipoteza ML,

przewiduje,

e najbardziej wiarygodna

Warto

ść

maksymalizuj

ca wiarygodno

ść

wynosi

−

⇒

)

(

)

(

Wiarygodno

ść

zbioru N danych jest równa

)

log(

)

(

log

)

(

log

)

(

log

)

(

−

∑

© F.A. Dul 2007

Hipoteza ML,

przewiduje,

e najbardziej wiarygodna

proporcja cukierków jest równa proporcji obserwowanej.

Zasad

ogólna uczenia parametrycznego ML - wyznaczenie

argumentu maksimum logarytmicznej funkcji wiarygodno

ci.

Kompletno

ść

danych prowadzi do

dekompozycji

zadania

uczenia parametrycznego maksymalnej wiarygodno

z sieci

Bayesa na oddzielne zadania uczenia dla

poszczególnych parametrów.

Uczenie parametryczne Bayesa
Uczenie bayesowskie zakłada aprioryczny rozkład warto

parametru ucz

cego a nast

pnie modyfikuje ten rozkład

wraz z napływem danych.
Niech zmienna losowa

odpowiadaj

ca parametrowi

∈

[0,1]

ma rozkład pocz

tkowy

)

który jest ci

gły i niezerowy

w przedziale [0,1].

20.2. Uczenie z danymi kompletnymi

Rozkłady aprioryczne dla zbioru parametrów, np.

)

dla parametrów

wybiera si

zazwyczaj zakładaj

one niezale

© F.A. Dul 2007

)

(

)

(

)

(

)

(

dla parametrów

wybiera si

zazwyczaj zakładaj

one niezale

Przy takim zało

eniu ka

dy parametr ma swój własny rozkład

beta

, który zmienia si

niezale

nie od pozostałych przy

dopływie nowych danych.
Rozkład

)

e opisany

dystrybucj

beta

zdefiniowan

za pomoc

dwóch

hiperparametrów

a i b,

)

(

)

](

[

−

beta

Rozkłady beta parametru

dla ró

nych warto

ci hiperpara-

metrów a i b.

0.5

1.0

1.5

2.0

2.5

[2,2]

[1,1]

[5,5]

(

ΘΘΘΘ

θθθθ

)

1.0

2.0

3.0

4.0

5.0

[6,2]

[30,10]

(

ΘΘΘΘ

θθθθ

)

20.2. Uczenie z danymi kompletnymi

© F.A. Dul 2007

0.5

0.2

0.4

0.6

0.8

1.0

Parametr

Rozkład beta parametru

przy rosn

cych symetrycznie

warto

ciach hiperparametrów

a i b.

Rozkład beta parametru

przy wyci

ganiu cukierków

z torby zawieraj

cej 75%

cukierków wi

niowych d

ąŜ

do w

skiego piku w pobli

prawdziwej warto

=0.75

1.0

[3,1]

0.2

0.4

0.6

0.8

1.0

Parametr

Skupianie nienadzorowane

jest to problem wyodr

bnienia

kategorii w zbiorze obiektów.

20.3. Skupianie nienadzorowane

Przykłady

• Zbiór spektrów gwiazd

Istniej

ró

ne typy gwiazd, np. „czerwone olbrzymy” czy

„białe karły”, chocia

gwiazdy nie maj

etykiet z nazwami.

• Klasyfikacja organizmów

ywych

dy, rodzaje, gatunki zwierz

t i ro

lin. Nie maj

one

poj

cia,

e ludzie przypisali im jakie

nazwy.

© F.A. Dul 2007

Istniej

ró

ne typy gwiazd, np. „czerwone olbrzymy” czy

„białe karły”, chocia

gwiazdy nie maj

etykiet z nazwami.

0.2

0.4

0.6

0.8

1.0

0.2

0.4

0.6

0.8

1.0

sto

ść

spektralna 1

0.2

0.4

0.6

0.8

1.0

0.2

0.4

0.6

0.8

1.0

sto

ść

spektralna 1

Zakłada si

e skupienia maj

rozkład mieszany

zło

ony

z k składników maj

cych niezale

ne rozkłady.

∑

)

(

)

(

)

(

Rozkłady prawdopodobie

stw składników s

najcz

ęś

ciej

rozkładami mieszanymi Gaussa

w których parametrami s

Rozkład mieszany zmiennej losowej

maj

cej atrybuty

jest

równy

• wagi składników

= P(C=i),

20.3. Uczenie skupie

nienadzorowanych

© F.A. Dul 2007

• wagi składników

= P(C=i),

• warto

rednie składników

• kowariancje składników

Zadanie skupiania nienadzorowanego polega na wyznaczeniu
parametrów rozkładu mieszanego na podstawie danych
ucz

cych.

20.5 Sieci neuronowe

Sieci neuronowe stanowi

jedne z najpopularniejszych

oraz najbardziej efektywnych systemów ucz

cych.

Neuron

jest to komórka mózgowa maj

ca za zadanie

zbieranie, przetwarzanie i przesyłanie sygnałów elektrycznych.

© F.A. Dul 2007

www.sirinet.net/~jgjohnso/neuronproject.html

Przekazanie sygnału ma miejsce wówczas, gdy poziom
kombinacji sygnałów wej

ciowych przekroczy pewien próg.

Model matematyczny neuronu

∑

−

)

(

Poł

czenia

wej

ciowe

Funkcja

wej

ciowa

Funkcja

aktywacji

Wyj

cie

Poł

czenia

wyj

ciowe

Waga szumu

Wej

cie neuronu

jest sum

aktywacji

wagami

, za

wyj

cie neuronu

jest opisane

funkcj

aktywacji

20.5. Sieci neuronowe

© F.A. Dul 2007

)

(

)

(

∑

j,i

, za

wyj

cie neuronu

jest opisane

funkcj

aktywacji

działaj

na wej

cie

Funkcje aktywacji musz

nieliniowe, np.

)

(

Funkcja progowa

)

(

Funkcja sigmoidalna

20.5. Sieci neuronowe

Istniej

dwie główne kategorie sieci neuronowych:

Struktury sieci neuronowych

• acykliczne (feed-forward networks), bez sprz

ęŜ

zwrotnych,

• cykliczne (recurrent networks), ze sprz

ęŜ

eniami

zwrotnymi, sieci Hopfielda.

Sieci neuronowe acykliczne s

najcz

ęś

ciej budowane

w postaci

warstwowej

- wyj

cia z jednej warstwy s

wej

ciami

dla warstwy nast

pnej.

© F.A. Dul 2007

Uczenie sieci neuronowych

)

Sie

realizuje funkcj

danych wej

ciowych

Najefektywniejszym sposobem uczenia sieci neuronowych
jest

metoda propagacji wstecznej.

Wagi

= {

j,i

} s

parametrami sieci.

Uczenie sieci neuronowych dokonuje si

poprzez dostrojenie

wag

za pomoc

danych ucz

cych.

perceptronie

(sieci neuronowej

jednowarstwowej) wej

cia s

poł

czone

bezpo

rednio z wyj

ciami.

Perceptron - sie

jednowarstwowa acykliczna

⋅

⇒

∑

Klasa funkcji które mog

reprezentowane

za pomoc

perceptronów jest ograniczona,

20.5. Sieci neuronowe

tj. mog

reprezentowa

tylko funkcje separowalne liniowo.

© F.A. Dul 2007

tj. mog

reprezentowa

tylko funkcje separowalne liniowo.

Perceptron mo

e mie

tak

e charakter probabilistyczny.

Mimo tego ograniczenia perceptrony s

szeroko stosowane

w uczeniu maszynowym.

and x

or x

xor x

Algorytm ucz

cy dla perceptronu

))

(

Err

−

Uczenie sieci neuronowej jest sformułowane jako zadanie
optymalizacji w przestrzeni wagowej ze wska

nikiem jako

Err

←

)

(

Parametr

metody wyznacza

szybko

ść

uczenia

Kolejne przybli

enia współczynników wagowych okre

lone s

metod

gradientow

nast

puj

20.5. Sieci neuronowe

Porównanie uczenia perceptronu i sieci decyzyjnej dla zada

© F.A. Dul 2007

0.2

0.4

0.6

0.8

1.0

100

Wymiar zbioru ucz

cego

Perceptron

Drzewo decyzyjne

0.2

0.4

0.6

0.8

1.0

100

Wymiar zbioru ucz

cego

Perceptron

Drzewo decyzyjne

Porównanie uczenia perceptronu i sieci decyzyjnej dla zada

funkcji majoryzuj

cej oraz wyboru restauracji.

Sieci wielowarstwowe acykliczne
U

ycie warstw zło

onych z w

złów ukrytych pozwala

reprezentowa

znacznie szersz

klas

funkcji.

20.5. Sieci neuronowe

)

Sie

wielowarstwowa z wieloma wyj

ciami realizuje funkcj

wektorow

danych wej

ciowych

Wska

nikiem jako

ci jest wektor bł

redniokwadratowy

pomi

dzy wektorem wzorców ucz

cych

a wektorem wyj

ść

z sieci wielowarstwowej

ycie pojedy

czej warstwy ukrytej pozwala reprezentowa

dowoln

funkcj

gł

wej

ść

z dowoln

dokładno

ycie dwóch warstw ukrytych pozwala reprezentowa

nawet

funkcje nieci

głe.

Dlatego sieci neuronowe zalicza si

do klasy

uniwersalnych

aproksymatorów

z sieci wielowarstwowej

))

(

))

(

Err

−

Porównanie uczenia sieci neuronowej z jedn

warstw

ukryt

i sieci decyzyjnej dla zadania wyboru restauracji.

cał

kow

a z

tow

ropor

e popr

a z

0.2

0.4

0.6

0.8

1.0

Sie

wielowarstwowa

Drzewo decyzyjne

20.5. Sieci neuronowe

Numer epoki

100

200

300

400

500

łą

cał

kow

a z

tow

ropor

e popr

a z

100

Wymiar zbioru ucz

cego

Sieci neuronowe pozwalaj

reprezentowa

nawet bardzo

zło

one zadania, ale problem wyboru wła

ciwej struktury

sieci, odpowiedniej dla danego zadania, nie jest rozwi

zany.

Corocznie ukazuj

tysi

ce publikacji dotycz

cych

zastosowa

sieci neuronowych w ró

nych dziedzinach nauki

i techniki.

20.6 Metody j

drowe uczenia

Proste sieci neuronowe ucz

szybko, ale maj

ograniczon

ekspresj

Zło

one sieci neuronowe maj

wysok

ekspresj

, ale proces

ich uczenia jest zazwyczaj długotrwały i czasami zawodny.

Metody zwane

wspierajacymi maszynami wektorowymi

(support vector machines, SVM) lub

maszynami j

drowymi

(kernel machines) pozwalaj

uczy

wydajnie a jednocze

nie

cechuj

wysok

ekspresj

Idea SVM - przekształcenie zadania nieseparowalnego
liniowo do postaci separowalnej.
Przekształcenia do postaci separowalnej dokonuje si

za pomoc

odpowiednio dobranej funkcji nieliniowej

F(x)

wektora wej

ść

Funkcja

F(x)

przekształca przestrze

danych na

przestrze

własno

Przykład

-0.6

-0.2

0.2

0.6

1.0

-1.0

-0.6

-0.2

0.2

0.6

1.0

20.6. Metody j

drowe uczenia

Zbiór nie jest separowalny liniowo.

W dwuwymiarowym zbiorze danych

x = (x

, x

)

wzorce pozytywne

(+1)

znajduj

w obszarze kołowym.

0.3

0.7

1.0

1.3

1.7

0.3

0.6

1.0

1.3

1.7

Funkcja

F: R

→

o składowych

F(x) = ( f

(x), f

(x) , f

(x) )

przekształca zbiór wej

ciowy na

zbiór separowalny liniowo.

20.7 Zastosowanie - rozpoznawanie pisma

odr

cznego

Rozpoznawanie pisma odr

cznego jest wa

nym zadaniem

praktycznym spotykanym np. przy sortowaniu poczty,
automatycznym odczytywaniu dokumentów, r

cznym

wpisywaniu danych do komputerów, itp.

Obserwuje si

szybki post

p w tej dziedzinie, wyra

cy si

powstawaniem coraz lepszych algorytmów ucz

cych.

Rol

stymuluj

pełni baza danych NIST, zawieraj

60,000 odr

cznie zapisanych cyfr w formacie 400 pikseli,

Rol

stymuluj

pełni baza danych NIST, zawieraj

60,000 odr

cznie zapisanych cyfr w formacie 400 pikseli,

które stanowi

zbiór wzorców ucz

cych.

20.7. Rozpoznawanie pisma odr

cznego

Algorytmy ucz

ce rozpoznawania cyfr napisanych odr

cznie.

Prosty

klasyfikator trzech najbli

szych s

siadów

nie wymaga wst

pnego uczenia, ale musi przechowywa

wszystkie wzorce ucz

ce a czas klasyfikacji jest długi.

Wska

nik bł

du klasyfikacji wynosi ~2.4%.

Sie

neuronowa z jedn

warstw

ukryt

zło

z 300

złów, z 400 wej

ciami (dla ka

dego piksela) i 10 wyj

ciami

(dla ka

dej cyfry) i 123,000 współczynnikami wagowymi.

Wska

nik bł

du klasyfikacji wynosi ~1.6%.

Wska

nik bł

du klasyfikacji wynosi ~1.6%.

Specjalizowane sieci neuronowe LeNet

wykorzystuj

informacj

o postaci wzorca jako tablicy 400 pikseli oraz

zało

enie o nieistotno

ci małych ró

nic w obrazach cyfr.

Warstwy ukryte zawieraj

30-768 w

złów.

Wska

nik bł

du klasyfikacji wynosi ~0.9%.

Przy

pieszona sie

neuronowa

zło

ona jest z trzech sieci

LeNet operuj

cych na ró

nych zbiorach wzorców

i wybieraj

cych klasyfikacj

poprzez głosowanie.

Wska

nik bł

du klasyfikacji wynosi ~0.7%.

20.7. Rozpoznawanie pisma odr

cznego

Metoda wektorów podtrzymuj

cych

zło

ona z 25,000

wektorów nie wymaga uczenia wst

pnego i nie wykorzystuje

informacji o strukturze zadania, a dorównuje metodzie LeNet.
Wska

nik bł

du klasyfikacji wynosi ~1.1%.

Wirtualna metoda wektorów podtrzymuj

cych

działa

w dwóch etapach: najpierw jak zwykła maszyna wektorowa
a nast

pnie wykorzystuje informacj

o postaci wzorca

w formie j

drowej opartej na pikselach przyległych.

Wska

nik bł

du klasyfikacji wynosi ~0.56%.

⇐

WINNER!

Wska

nik bł

du klasyfikacji wynosi ~0.56%.

⇐

WINNER!

Metoda dopasowywania kształtów

polega na porównywaniu

kształtu cyfry z kształtami wzorców.
Wyznaczana jest transformacja przekształcaj

ca jeden kształt

na drugi i okre

laj

miar

zgodno

ci obu kształtów.

Wska

nik bł

du klasyfikacji wynosi ~0.63%.

Dla porównania -

człowiek osi

ga wska

nik bł

du klasyfikacji

cyfr odr

cznych rz

du ~0.2%

Podsumowanie

• Metody uczenia bayesowskiego maj

posta

wnioskowania

probabilistycznego wykorzystuj

cego poj

cie brzytwy

Ockhama.

• Uczenie maksymalnego a posteriori (MAP) wyznacza

najbardziej wiarygodn

hipotez

dla istniej

cych danych.

• Sieci neuronowe s

zło

onymi funkcjami nieliniowymi z

wieloma parametrami. Mog

uczone na podstawie

danych zaszumionych i maj

szerokie zastosowanie w

praktyce.

F.A. Dul 2007

praktyce.

• Perceptron mo

e reprezentowa

funkcje separowalne liniowo

• Wielowarstwowe sieci acykliczne pozwalaj

reprezentowa

dowolne funkcje.

• Metoda propagacji wstecznej jest najefektywniejszym

sposobem uczenia sieci neuronowych.

• Metody funkcji j

dra umo

liwiaj

wyznaczanie separatorów

nieliniowych dla zada

nieseparowalnych liniowo.