Uczenie ze wzmocnieniem

Literatura:

• Paweł Cichosz, Systemy uczące się,

Wydawnictwa Naukowo-Techniczne, Warszawa
2000, str. 712-792.

• Richard Sutton, Andrew G. Barto,

Reinforcement Learning: An Introduction,
MIT Press, Cambridge, MA, 1998.

http://www.cs.ualberta.ca/~sutton/book/the-book.html

• Stuart J.Russel, Peter Norvig, Artificial

Intelligence, Prentice-Hall, London, 2003, str.
598-645.

Plan wykładu

• Wieloetapowe procesy decyzyjne - typy procesów i

środowisk

• Programowanie dynamiczne a metoda Monte Carlo
• Uczenie ze wzmocnieniem – podstawowy algorytm
• Eksploatacja a eksploracja
• Metody przyśpieszania zbieżności - ślady

aktywności

• Aproksymacja funkcji wartości stanów
• Metody kodowania stanów
• Agregacja stanów

Środowisko

Cechy środowiska w sztucznych systemach uczących się:

• przydziela nagrody i wyznacza bieżący stan

• jest niezależne od ucznia, czyli oznacza wszystko to, na co

uczeń nie ma wpływu

Typy środowisk:

• stacjonarne / niestacjonarne (zmienne w czasie)

• deterministyczne / niedeterministyczne - taka sama akcja

może spowodować przejście do różnych stanów, a przy
przejściu do takiego samego stanu można uzyskać różne
nagrody z tym, że wartości oczekiwane nagród i
prawdopodobieństwa przejść są stałe

• niedeterministyczne o znanym / nieznanym modelu

• o parametrach ciągłych / dyskretnych

• o pełnej informacji o stanie (własność Markowa) / o

niepełnej informacji o stanie

Wieloetapowe procesy decyzyjne

• Procesy polegające na wielokrotnej interakcji ucznia

(agenta) ze środowiskiem. W wyniku podjęcia jednej
z możliwych akcji a

w danym stanie s

, środowisko

przechodzi do nowego stanu s

t+1

i zwraca nagrodę

t+1

• Celem uczenia jest maksymalizacja nagród

uzyskanych w ciągu całego procesu, niezależnie od
stanu początkowego

• Wniosek: należy szukać optymalnej strategii (policy)

zachowania ucznia (wyboru odpowiedniej akcji w
każdym ze stanów)

t+1

t+2

t+k

...

t+1

t+1,

t+2

t+k-1,

t+k

Ogólny schemat uczenia się w

interakcji ze środowiskiem

UCZEŃ

ŚRODOWISKO

akcja a

t+1

Typy procesów

• Ze względu na środowisko: deterministyczne /

niedeterministyczne, stacjonarne / niestacjonarne

• Ze względu na informacje o stanie: spełniające

własność Markowa / niespełniające własności
Markowa

• Ze względu na ogólną liczbę stanów środowiska: o

skończonej liczbie stanów / o nieskończonej liczbie
stanów

• Ze względu na typ przestrzeni stanów: ciągłe

(nieprzeliczalne)/ dyskretne

• Ze względu na umiejscowienie nagród: tylko w

stanach końcowych (terminalnych) / tylko w stanach
pośrednich / w stanach końcowych oraz pośrednich

• Ze względu na liczbę etapów procesu: nieskończone /

epizodyczne (kończące się po pewnej liczbie kroków)

Metody szukania optymalnej

strategii

• Programowanie dynamiczne

• Metoda Monte Carlo

• Metoda różnic czasowych (TD)

Zadanie optymalizacji w procesach

epizodycznych

]

...

[















Maksymalizacja:

gdzie r

- nagroda w kroku t,



- współczynnik

dyskontowania,
0



1, reguluje ważność krótko i

długoterminowych nagród.

Zastosowanie współczynnika dyskontowania
wynika z pewnych praktycznych spostrzeżeń:
nagrody warto zdobywać jak najszybciej (zadania
do-sukcesu), kary jak najdłużej odwlekać
(zadania do-porażki)

Dobór współczynnika

dyskontowania w zależności od

wartości nagród



























Niech r

oznacza wartość nagrody w stanie końcowym, r

wartość nagrody w pozostałych stanach

Zadania do-sukcesu:

r 







stąd:

Przykład GRID-6

0.5















pozostalyc

dla

)

(

dla

)

(

dla

niedostepn

pole

prowadzi

nie

akcja

gdy

)}

(

),...,

(

{(

{

Przykład GRID-6 – przykładowe

strategie

     




 



 



     

     




 



 





     

     




 



 



     

     




 



 





     



Funkcje wartości











)

(





Funkcja wartości stanu s

przy strategii













)

(





Funkcja wartości pary [stan,akcja]: (s

, a

) przy strategii



))

(

)

(





Przy danej strategii



dla każdego stanu s zachodzi równanie:

Porównanie funkcji V oraz Q

• Użycie funkcji wartości stanu V(s) wymaga

każdorazowej symulacji wykonania jednego
kroku naprzód w celu znalezienia akcji
optymalnej

• Użycie funkcji Q(s,a) wymaga stosowania

większych tablic lub bardziej złożonych
aproksymatorów funkcji

Strategia optymalna

Strategia

’ jest lepsza od strategii  jeśli dla każdego s:

oraz istnieje takie s, że zachodzi:

Strategia jest optymalna, gdy nie ma od niej lepszej.

Zachłanna metoda wyboru akcji:

Zachłanna metoda wyboru akcji względem optymalnej funkcji
wartości lub funkcji wartości akcji jest realizacją strategii
optymalnej

)

(

)

(





)

(

)

(





)

(

max

arg

)

(

))

(

max

arg

)

(















- prawdopodobieństwo przejścia od
stanu s do s’ przy wykonaniu akcji a
- średnia nagroda przy przejściu od s do
s’ dzięki a

Proces decyzyjny Markowa

Proces decyzyjny Markowa można zdefiniować

jako czwórkę (S, A,





• S - skończony zbiór stanów

• A - skończony zbiór akcji





(s,a) - funkcja wzmocnienia - zmienna

losowa o wartościach rzeczywistych
oznaczająca nagrodę po wykonaniu akcji a
w stanie s





(s,a) - funkcja przejść stanów - zmienna

losowa o wartościach ze zbioru S
oznaczająca następny stan po wykonaniu
akcji a w stanie s

W ogólności w każdym kroku t nagroda r

t+1

jest realizacją zmiennej losowej



) a

stan s

t+1

jest realizacją zmiennej losowej



)

Przykład GRAF-5

S = {1,2,3,4,5}, A={0,1}













































lub

dla

)

(

dla

)

(

dla

)

(





pozostalyc

dla

)

(

Nagroda za akcję a w stanie s:

Przykład GRAF-5

Optymalne wartości stanów dla



= 0.9

V(1) V(2) V(3) V(4) V(5)

0.29

0.52

0.76

0.94

Uczenie ze wzmocnieniem - ogólny

algorytm

Zainicjuj Q(s,a) lub V(s)
Repeat (dla kolejnych epizodów):
  Zainicjuj s
  Repeat (dla kolejnych kroków epizodu):
    obserwuj aktualny stan s

;

wybierz akcję a

do wykonania w stanie s

;

wykonaj akcję a

;

obserwuj wzmocnienie r

t+1

i następny stan s

t+1

;

ucz się na podstawie doświadczenia
(s

t+1

);

until s jest stanem końcowym
until spełniony warunek końca

Prawdopodobieństwo przejścia ze stanu s do s’
po wykonaniu akcji a, oraz średnia wartość
nagrody związanej z tym zdarzeniem:

}

{

}

Pr{





)]

(

[

)

(

)

(

)

(











Równania równowagi Bellmana dla reprezentacji [stan]
oraz [stan,akcja] i strategii



, (



(s) - akcja w stanie s

zgodna ze strategią



))]

(

[

)

(













Programowanie dynamiczne

Model
środowisk
a

Przykładowy graf przejść ze stanu s=s

do s’ {s

, s

}, po wykonaniu akcji a:

)]

(

[

)

(

)

(

)

(











Programowanie dynamiczne



))

(

))

(

))

(

)

(









)

(

)

(

)

(







stąd:

Wyprowadzenie równania równowagi dla
funkcji wartości stanu s:

Programowanie dynamiczne

)]

(

[

]

[

)

(

)

(

)

(

)

(

)

(

















































)]

(

[

max

)

(









Równania optymalności Bellmana dla reprezentacji [stan] oraz [stan,akcja]:

)]

(

max

[

)

(









Programowanie dynamiczne

)

(

- wartości odpowiadające strategii
optymalnej

Metody wyznaczania optymalnej strategii:

• Rozwiązanie układu równań o |S| (lub |SA| w

przypadku reprezentacji [stan,akcja])
niewiadomych

• Iteracja strategii - naprzemienne obliczanie

przybliżonych wartości V



(s) dla wszystkich

stanów przy danej (początkowo losowej) strategii
 oraz wyznaczanie lepszej strategii ’ dla V



(s)

do momentu, gdy w kolejnych dwóch iteracjach
strategia

 pozostanie niezmienna

• Iteracja wartości - obliczanie V(s) stosując

zachłanną metodę wyboru akcji do momentu, gdy
wartości V(s) przestaną się zmieniać

Programowanie dynamiczne

Iteracja strategii dla reprezentacji

[stan]

)]

(

[

)

(

)

(

)

(











powtarzaj dla wszystkich s:

mając dane:

, P



, R



aż nastąpi w kroku k











)

(

)

(

max







))

(

max

arg

)

(







obliczanie funkcji wartości stanu dla strategii



dla wszystkich s:

wyznaczanie nowej strategii



’:







Iteracja wartości dla reprezentacji

[stan]

)]

(

[

max

)

(









powtarzaj dla wszystkich s:

mając dane: P



, R



aż nastąpi w kroku k









)

(

)

(

max

Programowanie dynamiczne - wady i

zalety

Wady:

• konieczność znajomości modelu środowiska

(prawdopodobieństw przejść pomiędzy stanami
dla wszystkich możliwych akcji i oczekiwanych
wartości nagród)

• duża złożoność obliczeniowa (brak

ukierunkowania przy obliczeniach - nakład
obliczeń nie zależy od wartości stanu)

Zalety:

• pewność znalezienia rozwiązania w przypadku

metody dokładnej oraz zbieżność metod
iteracyjnych

Metody Monte Carlo

Obliczanie funkcji wartości stanów lub par [stan,
akcja] dla pewnej strategii



metodą uśredniania

nagród z wielu epizodów.

)

(



 









gdzie L - liczba epizodów

Wyznaczanie strategii optymalnej: np. metodą
iteracji strategii

lub metodą iteracji wartości







Metody Monte Carlo - wady i zalety

V = ?

V = -0.8

-1

p =

0.1

nowy stan

Wady:

• Powolna zbieżność - obliczenie funkcji

wartości nowego stanu bez
uwzględnienia wartości stanów
następujących po danym (bootstraping)

Zalety:

• Pewna zbieżność do funkcji wartości

V(s) dla ustalonej strategii przy
odpowiedniej eksploracji

• Nie jest wymagana znajomość modelu

środowiska

Metoda różnic czasowych – TD(0)

)]

(

)

(

[

)

(

)

(













)]

(

)

(

[

)

(

)

(













Aktualizacja wartości stanu - ogólna postać:

)

(







)]

(

[

)

(

)

(









Całkowity dochód uzyskany po wyjściu ze stanu s

Reprezentacja [stan,akcja]:

)

(







Metoda różnic czasowych – TD(0)

Metody uczenia:

• Q-learning (off-policy)

• SARSA (on-policy)

• Actor-Critic (on-policy) (dodatkowy

system wartościowania strategii
przyjętej do uczenia (strategia
działania + eksploracja)

Zalety metod TD:

• nie jest wymagany model środowiska

• możliwość uczenia w czasie rzeczywistym

(online-learning)

• zastosowanie w przypadku niestacjonarnego

środowiska

• duża uniwersalność zastosowań

• dobra zbieżność

Algorytm Q-learning

Algorytm Q-learning z aktualizacją wartości par
[stan,akcja] niezależną od aktualnej strategii wyboru
akcji (off-policy)

Zainicjuj Q(s,a)
Repeat (dla kolejnych epizodów):
  Zainicjuj s
  Repeat (dla kolejnych kroków epizodu):
    Wykonaj akcję a w stanie s zgodnie z wybraną
    strategią(np. ε-zachłanną względem Q(s,a))

until s jest stanem końcowym
until spełniony warunek końca

]

)

(

)

(

max

[

)

(

)

(











s

Algorytm SARSA

Algorytm SARSA z aktualizacją wartości par
[stan,akcja] zgodnie z aktualną strategią np.



zachłanną (on-policy)

Zainicjuj Q(s,a)
Repeat (dla kolejnych epizodów):
  Zainicjuj s
  Wykonaj akcję a w stanie s zgodnie ze strategią
  opartą na Q (np. ε-zachłanną)
  Repeat (dla kolejnych kroków epizodu):
    Wykonaj akcję a’ w stanie s’ zgodnie ze strategią
    wyboru akcji (np.



-zachłanną względem Q(s’,a’))

until s jest stanem końcowym
until spełniony warunek końca

]

)

(

)

(

[

)

(

)

(













• strategia optymalizująca zyski (eksploatacja)
• strategia uczenia (eksploatacja +

eksploracja):

• bieżące zyski nie mają znaczenia w

trakcie uczenia lub mają (np. w
problemie k-rękiego bandyty)

• optymalizacja zysków przy nieznanej

początkowo strategii optymalnej pozwala
na ukierunkowanie poszukiwań

• optymalizacja procesu uczenia dzięki

sprawdzeniu wielu potencjalnie dobrych
akcji w wielu potencjalnie dobrych
stanach

Typy strategii

Przykłady strategii wyboru akcji w

trakcie uczenia:

• maksimum
• losowa




-zachłanna

• softmax

Eksploatacja i eksploracja

Strategia



-zachłanna :

• z prawdopodobieństwem



wybierz akcję losowo

• z prawdopodobieństwem 1-



wybierz akcję:

Strategia softmax - wybór akcji zgodnie z rozkładem

Bolzmanna (prawdopodobieństwo wylosowania
akcji proporcjonalne do jej funkcji wartości):

)

(

max

arg











)

(

)

(

exp

)

(

exp

)

(

Warunki zbieżności:
• tablicowa reprezentacja funkcji Q
• stosowanie ciągu zmiennych

współczynników α

• dostateczna eksploracja

Q-learning - zbieżność





















Różnica pomiędzy algorytmami

SARSA i

Q-learning - przykład

SARSA – zabezpieczenie przed niedeterminizmem
strategii użytej do uczenia np.



-zachłannej

KLIF

Droga bezpieczna

Droga
optymalna Q-
learning

Nauka chodzenia po krawędzi klifu (od S do K): za każdy krok
odbierany jest 1 pkt, za wejście w przepaść odbieranych jest
1000 pkt.

Pytanie: Która droga zostanie wybrana w przypadku

-

zachłannej

strategii uczenia przez system uczony algorytmem

SARSA?

Metoda Actor-Critic - schemat

Schemat ogólny:

Funkcja strategii



(s,a) (actor)

Funkcja wartości

V(s) (critic)

Środowisko

akcja

stan

nagroda

błąd TD - 

)

(

)

(











Algorytm Actor-Critic

Algorytm Actor-Critic z funkcją wartości stanów V(s) i
dodatkową funkcją wyboru akcji

Zainicjuj V(s),



(s,a)

Repeat (dla kolejnych epizodów):
  Zainicjuj s
  Repeat (dla kolejnych kroków epizodu):
    Wykonaj akcję a w stanie s zgodnie ze strategią
    wyboru akcji (np.



-zachłanną względem



(s,a))

until s jest stanem końcowym
until spełniony warunek końca

)

(

)

(

)

(

)

(

)]

(

)

(

[



























Metoda Actor-Critic - zaleta

Zaleta:

• W stosunku do standardowego algorytmu z

reprezentacją stanów (V(s)) wymaga małego nakładu
obliczeniowego przy wyborze akcji

Przybliżenie TD(0)

)]

(

)

(

[

)

(

)

(













)

(







Wartość stanu w danym epizodzie jest
modyfikowana tylko na podstawie wartości
następnego stanu i nagrody:

t+1

r > 0

Inne przybliżenia

)

(

)

(

)

(

)

(

)

(

)

(

















Można wyznaczyć sumę ważoną przybliżeń
przyjmując, że im przybliżenie dalsze, tym mniej
istotne:

)

(

)

(











Ślady aktywności TD() -

wyprowadzenie

)]

(

[

)

(

)]

(

[

)

(

)]

(

[

)

(

)

(

)

(

)

(

)],

(

[

)

(

)

(

















































)]

(

)

(

[

)

(

)]

(

)

(

[

)

(

)]

(

)

(

[

)

(

)

(

)

(









































Sumując elementy w kolumnach i uwzględniając:
otrzymujemy:

)

(



 

















Ślady aktywności TD() -

wyprowadzenie

















































)

(

)]

(

)

(

[

)

(

)]

(

)

(

[

)

(

)]

(

)

(

[

)

(

)]

(

)

(

[

)

(

)]

(

)

(

[

)

(

)]

(

)

(

[

)

(

)

(

)

(

)

(



































)

(

)

(













gdzie

Przesuwamy ostatnią
kolumnę w dół. Wstawiamy
-V(s

) do pierwszego wiersza

Ślady aktywności - algorytm

Zainicjuj V(s)
Repeat (dla kolejnych epizodów):
  Zainicjuj s, e(s)=0 dla wszystkich s
  Repeat (dla kolejnych kroków epizodu):
    Wykonaj akcję a w stanie s zgodnie z



obserwuj nagrodę r i następny stan s’

for all states s

end for

until s jest stanem końcowym
until spełniony warunek końca

)

(

)

(











)

(

)

(



 s

s

)

(

)

(

)

(

)

(

)

(











Ślady aktywności TD() - zalety

• Przyspieszenie uczenia dzięki

równoległemu przypisywaniu zasług
wszystkim stanom lub akcjom, które
poprzedzają otrzymanie nagrody

• Połączenie zalet metod Monte Carlo i TD(0)

przez odpowiedni wybór współczynnika
świeżości



• Znaczne przyspieszenie uczenia w

przypadku nagród znacznie oddalonych

Agregacja, kodowanie,

aproksymacja

Agregacja stanów – przekształcenie wektorów

z pierwotnej przestrzeni stanów s = [s

,..., s

] (np. układu figur na szachownicy)

do przestrzeni cech istotnych dla
określenia wartości stanu:
z wykorzystaniem wiedzy o
problemie

)]

(

),...,

(

[

)

(







Kodowanie stanów – transformacja stanów do

nowej przestrzeni cech, lecz bez
wykorzystania wiedzy o problemie

Aproksymacja funkcji wartości –

przedstawienie funkcji wartości stanów
lub par [stan,akcja] w postaci modelu
parametrycznego funkcji (struktury) o
odpowiednio dobranych (nauczonych)
wartościach parametrów

))

(

),...,

(







Aproksymatory funkcji

Przykłady:

• Aproksymator liniowy
• Wielomiany stopnia > 1
• Sztuczne sieci neuronowe (SNN)
• Sieci o podstawie radialnej (Radial Basis

Functions – RBF)

• Systemy rozmyte

Zalety:
• Oszczędność miejsca przy dużych zbiorach

stanów lub par [stan,akcja]

• Możliwość uogólniania wiedzy dla stanów

pośrednich

• Brak dyskretyzacji w przypadku

rzeczywistoliczbowej reprezentacji stanów lub
akcji

• zamiast pełnej informacji o stanie w postaci wektora s,

można wykorzystać stan uogólniony w postaci wektora cech

• Wektorowi parametrów modelu odpowiada wektor wag sieci
• Gradient funkcji wartości oblicza się metodą propagacji

wstecznej błędu

Aproksymator SSN

...

Q(s,a)

...

V(s)

...

)]

(

),...,

(

[







Aproksymatory funkcji - definicje

))

(

),...,

(







Wektor parametrów:

Kryterium optymalizacji:





)

(

)

(

)

(









MSE









(s) – poszukiwana wartość stanu s dla strategii



V(s) – aktualna wartość stanu s

)

(

)

(







)

(

)

(







Wartości stanów lub par [stan,akcja]
reprezentowane są za pomocą funkcji zależnej
od parametrów



(i):

Gradientowa metoda aproksymacji

funkcji wartości stanów









)

(

)

(

)

(

)

(

)

(



































Przyjmując przybliżenie:

)

(

)

(









Otrzymujemy algorytm aktualizacji wartości stanu:

(następny slajd)















)

(

)

(

)

(

)

(

)

(

)

(

)

(

gradient

gdzie









parametry funkcji
wartości modyfikowane
są w kierunku
maksymalnego spadku
funkcji błędu

Gradientowa metoda aproksymacji

funkcji wartości stanów - TD()

Zainicjuj
Repeat (dla kolejnych epizodów):
  Zainicjuj s,
  Repeat (dla kolejnych kroków epizodu):
    Wybierz i wykonaj akcję a w stanie s zgodnie z

    przyjętą strategią

until s jest stanem końcowym
until spełniony warunek końca

)

(

)

(











)













s

e











]

,...,

[



e

)

(

)

(

)

(







Metody wyznaczania kierunku

modyfikacji wektora parametrów

funkcji wartości

• Metoda spadku gradientu funkcji błędu
• Metoda Newtona
• Metody quasi-Newtonowskie
• Metoda gradientów sprzężonych
• Metoda Levenberga-Marquardta

Metody kodowania stanów w

aproksymacji funkcji wartości

Metody kodowania (obliczania cech):

• Kodowanie metodą pokryć (CMAC, tile coding)

• Kodowanie przybliżone (coarse coding)

• Kodowanie przybliżone rozproszone - np. metodą Kanervy

Kodowanie przybliżone

Przykładowe zastosowanie: aproksymator liniowy z wykorzystaniem zbioru cech:





)

(

)

(

)

(















- wektor cech stanu

Kodowanie przybliżone dla 2-wymiarowej przestrzeni stanów -
każde pole jest związane z jedną cechą binarną, równą 1 jeśli
stan znajduje się wewnątrz pola:

Licząc po kolejnych
wierszach od lewej do
prawej wektor cech:

]

[







gradient funkcji wartości:

)]

(

),...,

(

[

)

(











Kodowanie przybliżone, rozproszone

(kodowanie Kanervy)

Kodowanie przybliżone dla przykładowej 2-wymiarowej
przestrzeni stanów - każdy prototyp stanu jest związany z
jedną cechą binarną, równą 1 jeśli spełnione jest kryterium
odległości (w przypadku kodowania Kanervy jest to odległość
Hamminga):

Licząc po kolejnych
wierszach od lewej do
prawej nowy wektor
cech:

]

[







Prototypowe stany lub pary [stan, akcja] są początkowo
wybierane losowo. Dodatkowo, w bardziej zaawansowanych
metodach mogą być przemieszczane w celu większego ich
skupienia w ważniejszych obszarach przestrzeni stanów

Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Slide 40
Slide 41
Slide 42
Slide 43
Slide 45
Slide 46
Slide 47
Slide 48
Slide 49
Slide 50
Slide 51
Slide 52
Slide 53
Slide 54
Slide 55
Slide 56