background image

WPROWADZENIE 

DO SZTUCZNEJ INTELIGENCJI

POLITECHNIKA WARSZAWSKA

WYDZIAŁ MECHANICZNY ENERGETYKI I LOTNICTWA

MEL

MEL

NS 586

Dr in

Ŝ

. Franciszek Dul

©  F.A. Dul 2007

background image

21. UCZENIE ZE WZMOCNIENIEM

©  F.A. Dul 2007

background image

Uczenie ze wzmocnieniem

W tym rozdziale zobaczymy w jaki 
sposób – przy braku nauczyciela –
agent mo

Ŝ

e uczy

ć

 si

ę

 na podstawie 

kar i nagród otrzymywanych za swoje 

©  F.A. Dul 2007

kar i nagród otrzymywanych za swoje 
działania prowadzone w nieznanym 

ś

rodowisku. 

background image

Jak uczy

ć

 si

ę

 przy braku wzorców? 

Ka

Ŝ

dy rodzaj uczenia wymaga sprz

ęŜ

enia zwrotnego 

informuj

ą

cego agenta o skuteczno

ś

ci nauki.

Uczenie indukcyjne i probabilistyczne wykorzystuje zbiory 
wzorców ucz

ą

cych do dostrajania parametrów modeli.

Uczenie ze wzmocnieniem 

(uczenie z krytykiem

reinforcement learning) wykorzystuje

kary

nagrody

informuj

ą

ce agenta o poprawno

ś

ci jego działa

ń

.   

Celem uczenia ze wzmocnieniem jest wykorzystanie 

©

F.A. Dul 2007

Celem uczenia ze wzmocnieniem jest wykorzystanie 
obserwowanych nagród i kar do znalezienia optymalnej 
strategii działania w danym (nieznanym) 

ś

rodowisku.  

Uczenie ze wzmocnieniem jest niezast

ą

pione w grach  

(np. w szachach), gdzie liczba mo

Ŝ

liwych wzorców jest  

tak du

Ŝ

a, 

Ŝ

e wyklucza to uczenie indukcyjne.

Uczenie ze wzmocnieniem stanowi jedyn

ą

 mo

Ŝ

liwo

ść

 

uczenia w przypadku gdy 

ś

rodowisko jest całkowicie 

nieznane - w zadaniach eksploracji.

background image

20.1.  Wprowadzenie

• Uczenie pasywne ze wzmocnieniem

• Uczenie aktywne ze wzmocnieniem

• Poszukiwania strategii

Zastosowanie – autonomiczne sterowanie 

ś

migłowcem 

Plan rozdziału

©  F.A. Dul 2007

background image

21.2. Uczenie pasywne ze wzmocnieniem 

Uczenie pasywne ze wzmocnieniem 

polega na nauczeniu 

si

ę

 u

Ŝ

yteczno

ś

ci stanów 

U

π

(s

przy danej strategii działania 

π

(s)     

(w stanie 

s

agent wykonuje działanie 

π

(s)

).

Zakłada si

ę

Ŝ

ś

rodowisko jest obserwowalne.

W uczeniu pasywnym agent nie zna modelu przej

ś

cia 

T(s,a,s’)

i funkcji nagrody 

R(s).

Agent wykonuje w 

ś

rodowisku zbiór 

prób

u

Ŝ

ywaj

ą

c strategii 

π

.  

Celem tych prób jest nauczenie si

ę

 funkcji u

Ŝ

yteczno

ś

ci 

U

π

(s)

dla ka

Ŝ

dego stanu 

s,

©  F.A. Dul 2007

+1

-1

+1

-1

0.705

0.762

0.812 0.868 0.918

0.660

0.611 0.388

0.655

P

RZYKŁAD

Strategia 

π

i u

Ŝ

yteczno

ś

ci stanów w 

ś

wiecie 4x3.

dla ka

Ŝ

dego stanu 

s,

=

=

=

s

s

s

R

E

s

U

t

t

t

0

0

,

|

)

(

)

(

π

γ

π

background image

21.2.   Uczenie pasywne ze wzmocnieniem

W adaptacyjnym programowaniu dynamicznym (ADP) agent 
uczy si

ę

 funkcji przej

ś

cia 

T(s,a,s’)

.

Adaptacyjne programowanie dynamiczne

Uczenie metod

ą

 adaptacyjnego programowania dynamicznego 

Uczenie si

ę

 funkcji przej

ś

cia 

T(s,a,s’)

i obserwacje funkcji 

nagrody 

R(s)

pozwalaj

ą

 wykorzysta

ć

 równanie Bellmana

+

=

'

)

'

(

)

'

),

(

,

(

)

(

)

(

s

s

U

s

s

s

T

s

R

s

U

π

π

π

γ

Umo

Ŝ

liwia to uwzglednienie zale

Ŝ

no

ś

ci mi

ę

dzy u

Ŝ

yteczno

ś

cia-

mi stanów i w efekcie lepsze przybli

Ŝ

enie funkcji u

Ŝ

yteczno

ś

ci.

©  F.A. Dul 2007

Uczenie metod

ą

 adaptacyjnego programowania dynamicznego 

jest łatwe, gdy

Ŝ

 odpowiadaj

ą

ce mu równanie Bellmana jest 

liniowe (przy stałej strategii nie ma maksymalizacji).

Liczba prób

0.2

0.4

0.6

0.8

1.0

0

20

40

60

80

100

B

ł

ą

d

 

Wyniki uczenia ADP dla zadania 4x3.

U

Ŝ

y

te

c

z

n

o

ś

c

U

π

(s

)

0.2

0.4

0.6

0.8

1.0

0

20

40

60

80

100

Liczba prób

(4,3)

(3,3)
(1,3)

(1,1)
(3,2)

background image

21.3. Uczenie aktywne ze wzmocnieniem 

W uczeniu pasywnym strategia działa

ń

 agenta jest ustalona.

uczeniu aktywnym 

agent musi 

nauczy

ć

 si

ę

 kompletnego 

modelu 

ś

rodowiska ł

ą

cznie z prawdopodobie

ń

stwami efektów 

wszystkich działa

ń

.

Wybór działa

ń

 optymalnych oraz wyznaczenie funkcji 

u

Ŝ

yteczno

ś

ci 

U

mog

ą

 by

ć

 dokonane poprzez rozwi

ą

zanie 

Mo

Ŝ

na tego dokona

ć

 metodami adaptacyjnego programowania 

dynamicznego.

©  F.A. Dul 2007

W przypadku iteracji strategii działania optymalne s

ą

 otrzymy-

wane bezpo

ś

rednio z równania Bellmana.

u

Ŝ

yteczno

ś

ci 

U

mog

ą

 by

ć

 dokonane poprzez rozwi

ą

zanie 

nieliniowego równania Bellmana

+

=

'

)

'

(

)

'

,

,

(

max

)

(

)

(

s

a

s

U

s

a

s

T

s

R

s

U

γ

background image

21.3.   Aktywne uczenie ze wzmocnieniem

Eksploracja polega na poznawaniu nieznanego 

ś

rodowiska.

Eksploracja

Agent nie posiada modelu 

ś

rodowiska; musi si

ę

 go nauczy

ć

 

na podstawie działa

ń

 i obserwacji.

P

RZYKŁAD

Zadanie 4x3. Sekwencja działa

ń

 

optymalnych (dla modelu 

ś

cisłego)...

Strategia wyznaczona na podstawie modelu wyuczonego 
mo

Ŝ

e jednak nie by

ć

 optymalna.

+1

-1

...oraz wyznaczona na podstawie strategii 

©  F.A. Dul 2007

+1

-1

Agent nie nauczył si

ę

 prawdziwej strategii 

optymalnej; nie nauczył si

ę

 te

Ŝ

 prawdziwych 

warto

ś

ci u

Ŝ

yteczno

ś

ci stanów.

...oraz wyznaczona na podstawie strategii 
optymalnej dla modelu wyuczonego.

Wyznaczona strategia jest 

suboptymalna

Agent wyznaczaj

ą

cy strategie suboptymalne nazywany jest 

agentem zachłannym 

(greedy agent).

Agent zachłanny bardzo rzadko uczy si

ę

 strategii optymalnej.

background image

21.3.   Aktywne uczenie ze wzmocnieniem

Przyczyn

ą

 wyznaczenia strategii suboptymalnych jest 

bezkrytyczne uwzgl

ę

dnianie nagród, bez zwracania uwagi 

na popraw

ę

 jako

ś

ci modelu 

ś

rodowiska. 

Agent powinien zatem d

ąŜ

y

ć

 do kompromisu pomi

ę

dzy 

eksploatacj

ą

ś

rodowiska w celu maksymalizacji nagrody 

eksploracj

ą

ś

rodowiska w celu poprawienia jako

ś

ci modelu.

Metoda 

GLIE

(Greedy in the Limit of Infinite Exploration

polega na próbowaniu wszystkich działa

ń

 we wszystkich 

stanach w celu unikni

ę

cia przeoczenia strategii optymalnej.

©  F.A. Dul 2007

stanach w celu unikni

ę

cia przeoczenia strategii optymalnej.

Metoda GLIE pozwala agentowi nauczy

ć

 si

ę

 modelu 

prawdziwego, ale odbywa si

ę

 to du

Ŝ

ym kosztem.

background image

21.3.   Aktywne uczenie ze wzmocnieniem

Uczenie funkcji działania 

Agent aktywny który nie korzysta z ustalonej strategii mo

Ŝ

u

Ŝ

y

ć

 metody czasowo-ró

Ŝ

nicowej (TD),

Alternatywn

ą

 wersj

ą

 metody czasowo-ró

Ŝ

nicowej jest            

Q-uczenie

, które zamiast u

Ŝ

yteczno

ś

ci u

Ŝ

ywa reprezentacji   

w postaci warto

ś

ci działania, tzw. 

Q-warto

ś

ci

.

Q(a,s)

oznacza warto

ść

 wykonania działania 

a

dla stanu 

s

.

Q-warto

ś

ci zwi

ą

zane s

ą

 z u

Ŝ

yteczno

ś

ci

ą

 nast

ę

puj

ą

co

)

)

(

)

'

(

)

(

(

)

(

)

(

s

U

s

U

s

R

s

U

s

U

π

π

π

π

γ

α

+

+

©  F.A. Dul 2007

Q-warto

ś

ci zwi

ą

zane s

ą

 z u

Ŝ

yteczno

ś

ci

ą

 nast

ę

puj

ą

co

)

,

(

max

)

(

s

a

Q

s

U

a

=

Agent czasowo-ró

Ŝ

nicowy ucz

ą

cy si

ę

 Q-funkcji nie potrzebuje 

modelu 

ś

rodowiska ani do uczenia, ani do wyboru działania.

Q-uczenie wymaga znajomo

ś

ci modelu 

ś

rodowiska.

+

=

'

'

)

'

,

'

(

max

)

'

,

,

(

)

(

)

,

(

s

a

s

a

Q

s

a

s

T

s

R

s

a

Q

γ

Równanie dla Q-warto

ś

ci ma posta

ć

 

background image

21.3.   Aktywne uczenie ze wzmocnieniem

Równanie metody czasowo-ró

Ŝ

nicowej dla Q-uczenia ma 

posta

ć

,

)

)

,

(

)

'

,

'

(

max

)

(

(

)

,

(

)

,

(

'

s

a

Q

s

a

Q

s

R

s

a

Q

s

a

Q

a

+

+

=

γ

α

Efektywno

ść

 metody TD dla Q-uczenia nie jest zadowalaj

ą

ca.

Metody adaptacyjnego programowania dynamicznego (ADP)
u

Ŝ

ywaj

ą

ce (lub ucz

ą

ce si

ę

) modelu 

ś

rodowiska s

ą

 zazwyczaj 

znacznie wydajniejsze.

Co jest zatem lepsze dla agenta:  

©  F.A. Dul 2007

Co jest zatem lepsze dla agenta:  

Badania AI pokazały, 

Ŝ

e podej

ś

cie oparte na wiedzy jest 

zazwyczaj lepsze.

Efektywny agent AI powinien zatem posiada

ć

 modele 

przynajmniej niektórych własno

ś

ci 

ś

rodowiska.

uczenie si

ę

 modelu i funkcji u

Ŝ

yteczno

ś

ci czy te

Ŝ

 uczenie si

ę

 

funkcji działania bez modelu?

Im bardziej zło

Ŝ

one jest 

ś

rodowisko, tym wyra

ź

niej widoczne 

s

ą

 zalety podej

ś

cia opartego na wiedzy.

background image

21.4. Uogólnienia w uczeniu ze wzmocnieniem

Pierwszym zastosowaniem uczenia ze wzmocnieniem było 
opracowanie 

programu do gry w warcaby 

(1959).

Zastosowania uczenia ze wzmocnieniem - gry

Program wykorzystywał aproksymacj

ę

 liniow

ą

 z szesnastoma 

parametrami; nie wykorzystywał w trakcie uczenia nagród!
Program grał na poziomie dobrych graczy w warcaby.
System TD-Gammon opracowany do 

gry w trik-traka 

(1992) 

ukazuje mo

Ŝ

liwo

ś

ci uczenia ze wzmocnieniem.  

Funkcja szacuj

ą

ca była reprezentowana sieci

ą

 neuronow

ą

     

©  F.A. Dul 2007

Funkcja szacuj

ą

ca była reprezentowana sieci

ą

 neuronow

ą

     

z jedn

ą

 warstw

ą

 ukryt

ą

 zło

Ŝ

on

ą

 z czterdziestu w

ę

złów.  

Nagrod

ą

 był tylko ko

ń

cowy wynik gry.  

Uczenie wykorzystywało metod

ę

 TD w wersji parametrycznej.

Uczenie przeprowadzono za pomoc

ą

 200,000 prób (obliczenia 

trwały dwa tygodnie).

ź

niejsza wersja programu zawierała 80 w

ę

złów w warstwie 

ukrytej i była uczona za pomoc

ą

 300,000 prób. 

Poziom gry programu TD-Gammon odpowiadał najlepszym 
graczom w trik-traka na 

ś

wiecie.

background image

21.2. Sformułowanie statystyczne uczenia

Zastosowania uczenia ze wzmocnieniem - robotyka

Przykładem zastosowania uczenia ze wzmocnieniem              
w robotyce jest zadanie sterowania wahadłem odwróconym.
Nale

Ŝ

y tak sterowa

ć

 poło

Ŝ

eniem 

x

wózka aby utrzyma

ć

 wahadło            

w poło

Ŝ

eniu pionowym, 

θ

π

/2

g

θ

x

Poło

Ŝ

enie wózka jest ograniczone, 

x

[0,L].

Zmienne stanu s

ą

 ci

ą

głe. 

©  F.A. Dul 2007

Zadaniu temu po

ś

wi

ę

cono tysi

ą

ce prac z zakresu teorii 

sterowania oraz AI.

Zmienne stanu s

ą

 ci

ą

głe. 

Sterowanie jest typu bang-bang.

Algorytm B

OXES

(1968) pozwalał wyznaczy

ć

 sterowanie         

za pomoc

ą

 uczenia ze wzmocnieniem ju

Ŝ

 po 30 próbach. 

Umo

Ŝ

liwiało to sterowanie realnym urz

ą

dzeniem całymi 

godzinami.
Obecnie algorytmy oparte na uczeniu ze wzmocnieniem 
pozwalaj

ą

 wyznacza

ć

 sterowanie wahadłem potrójnym.

background image

21.5 Poszukiwania strategii

Uczenie ze wzmocnieniem mo

Ŝ

e by

ć

 zastosowane               

do poszukiwania strategii działania agenta.

Strategia jako funkcja odwzorowuj

ą

ca stany na działania 

mo

Ŝ

e by

ć

 reprezentowana w postaci parametrycznej,           

np. jako Q-funkcja liniowa wzgl

ę

dem parametrów,

Poszukiwanie strategii jest w ten sposób sprowadzone         
do dostrojenia parametrów.

)

,

(

ˆ

max

)

(

s

a

Q

s

a

θ

π

=

©  F.A. Dul 2007

do dostrojenia parametrów.

Algorytm P

EGASUS

(2000) wykorzystuje ci

ą

liczb losowych 

do generowania strategii.

Algorytm P

EGASUS

był u

Ŝ

ywany do wyznaczania efektywnych 

strategii w wielu zagadnieniach, np. do 

autonomicznego 

sterowania 

ś

migłowcem

background image

Na podstawie artykułów:

Autonomous helicopter flight via Reinforcement Learning”, 

P

EGASUS:

A policy search method for large MDPs and POMDPs”, 

Andrew Y. Ng, Stanford University, 

H. Jin Kim, Michael I. Jordan, and Shankar Sastry University of California, Berkeley 

(2000). (

www.cs.berkeley.edu

)

Autonomiczne sterowanie 

ś

migłowcem jest zadaniem trudnym, 

gdy

Ŝ

 dynamika ruchu 

ś

migłowca jest wyj

ą

tkowo zło

Ŝ

ona.

21.6 Autonomiczne sterowanie 

ś

migłowcem -

przykład zastosowania uczenia ze wzmocnieniem

©  F.A. Dul 2007

gdy

Ŝ

 dynamika ruchu 

ś

migłowca jest wyj

ą

tkowo zło

Ŝ

ona.

Ze wzgl

ę

du na niesymetrie zjawisk dynamicznych i aerodyna-

micznych oraz sprz

ęŜ

enia pomi

ę

dzy poszczególnymi stopniami 

swobody ruchu nawet proste manewry wymagaj

ą

 precyzyjnego 

sterowania.  
Metody sztucznej inteligencji pozwoliły opracowa

ć

 sterownik 

autonomicznie pilotuj

ą

cy 

ś

migłowiec w trakcie wykonywania 

Ŝ

nych, nawet do

ść

 trudnych, manewrów. 

Sterownik został opracowany przy u

Ŝ

yciu 

algorytmu uczenia 

ze wzmocnieniem P

EGASUS

oraz 

filtracji Kalmana

.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Proces decyzyjny Markowa (MDP) jest opisany poprzez:

Uczenie ze wzmocnieniem: algorytm P

EGASUS

• zbiór stanów 

S

• stan pocz

ą

tkowy 

s

0

S

• przestrze

ń

 działa

ń

 

A

• prawdopodobie

ń

stwa przej

ś

cia stanów 

(s,a)

s’ P

sa

(·)

• funkcja nagrody 

R(s): R

• współczynnik dyskonta 

γ

< 1

,

• rodzina 

Π

Π

Π

Π

strategii 

π

A

.

©  F.A. Dul 2007

gdzie 

s

0

, s

1

, s

2

,... jest trajektori

ą

, czyli ci

ą

giem stanów 

odwiedzonych podczas realizacji strategii 

π

.

]

|

)

(

)

(

)

(

[

)

(

2

2

1

0

π

γ

γ

π

K

+

+

+

=

s

R

s

R

s

R

E

U

Celem uczenia jest wyznaczenie strategii 

π

o najwi

ę

kszej 

u

Ŝ

yteczno

ś

ci,

Uczenie ze wzmocnieniem oparte jest na stochastycznej 
funkcji u

Ŝ

yteczno

ś

ci dla strategii 

π

• rodzina 

Π

Π

Π

Π

strategii 

π

A

.

*).

(

)

(

:

π

π

π

U

U

<

Π

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

U

Ŝ

yteczno

ś

ci 

U(

π

nie mog

ą

 by

ć

 obliczone bezpo

ś

rednio, ale 

mo

Ŝ

na wyznaczy

ć

 ich przybli

Ŝ

enia 

Ū

(

π

metod

ą

 Monte Carlo

.

Potrzebny jest do tego 

stochastyczny model dynamiki obiektu.

Model taki wykorzystuje rozkład prawdopodobie

ń

stwa stanu 

nast

ę

pnego 

s’

P

sa

(s’), 

przy danych: stanie 

i sterowaniu 

a

.

.

)

'

(

:

'

p

s

P

s

p

sa

=

Dla danej warto

ś

ci losowej 

model generuje stan nast

ę

pny 

s’

dla którego 

P

sa

(s’= p,

©  F.A. Dul 2007

*

1

)

'

(

*,

)

'

(

2

1

p

s

P

p

s

P

sa

sa

=

=

Przykład Je

Ŝ

eli dla pary stan-działanie 

(s,a

model mo

Ŝ

e  

generowa

ć

 dwa stany 

s

1

s

2

’ 

z prawdopodobie

ń

stwami: 

to stan nast

ę

pny 

s’

zale

Ŝ

y od warto

ś

ci zmiennej 

nast

ę

puj

ą

co:

s’= s

1

je

Ŝ

eli  

p* ,

s’= s

2

je

Ŝ

eli  

p > p* .

Dla danej losowej warto

ś

ci 

stan nast

ę

pny 

s’

wyznaczany jest 

deterministycznie

.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Model sparametryzowany losowo pozwala uwzgl

ę

dni

ć

 

zaburzenia stanu lub sterowania spowodowane czynnikami 
losowymi (turbulencj

ą

, nierównomierno

ś

ci

ą

 pracy silnika, itp.)

).

,

,

(

'

p

a

s

g

s

=

Model stochastyczny mo

Ŝ

na przedstawi

ć

 w postaci modelu 

deterministycznego 

sparametryzowanego zmienn

ą

 losow

ą

 

p.

Model dynamiki 

mo

Ŝ

e by

ć

 konstruowany w oparciu o prawa 

podstawowe (model przyczynowy) lub te

Ŝ

 poprzez 

©  F.A. Dul 2007

W algorytmie P

EGASUS

sekwencje stanów obliczane s

ą

 przy 

u

Ŝ

yciu modelu 

g

deterministycznie

na podstawie sekwencji 

liczb losowych 

p

.

Ci

ą

gi liczb losowych na podstawie których oblicza si

ę

 

sekwencje stanów mog

ą

 by

ć

 generowane dla ka

Ŝ

dej strategii 

π

w sposób 

powtarzalny

.

podstawowe (model przyczynowy) lub te

Ŝ

 poprzez 

identyfikacj

ę

 na podstawie pomiarów obiektu rzeczywistego.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Wyznaczenie przybli

Ŝ

onych u

Ŝ

yteczno

ś

ci 

Ū

(

π

metod

ą

 Monte 

Carlo przebiega nast

ę

puj

ą

co:

• zakłada si

ę

 liczb

ę

 kroków czasowych 

H

;

• generuje si

ę

 ci

ą

g liczb losowych 

p

1

, p

,..., p

H

;

• dla ka

Ŝ

dej strategii 

π ∈ Π

Π

Π

Π

– generuje si

ę

 losowo 

m

stanów pocz

ą

tkowych 

s

0

(i)

S

czyli tzw. scenariuszy;

– przy u

Ŝ

yciu modelu 

g

dla ka

Ŝ

dego stanu pocz

ą

tkowego 

s

0

(i)

generuje si

ę

 trajektori

ę

 

s

1

(i)

s

2

(i)

, ... , 

s

H

(i)

,

©  F.A. Dul 2007

– wyznacza si

ę

 przybli

Ŝ

on

ą

 u

Ŝ

yteczno

ść

.

1

,...,

0

,

)

),

(

,

(

1

)

(

)

(

)

(

1

=

=

+

+

H

k

p

s

s

g

s

k

i

k

i

k

i

k

π

=

+

+

+

+

=

m

i

i

H

H

i

i

i

s

R

s

R

s

R

s

R

m

U

1

)

(

)

(

2

2

)

(

1

)

(

0

)

(

)

(

)

(

)

(

1

)

(

γ

γ

γ

π

K

U

Ŝ

ycie tego samego ci

ą

gu liczb losowych  

p

1

, p

,..., p

H

dla 

wszystkich strategii 

π∈Π

Π

Π

Π

i wszystkich scenariuszy zapewnia 

porównywalno

ść

 i powtarzalno

ść

 obliczonych u

Ŝ

yteczno

ś

ci 

Ū

(

π

)

.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Przy zało

Ŝ

eniu, 

Ŝ

e liczba scenariuszy 

m

spełnia warunek

Obliczenie zbioru u

Ŝ

yteczno

ś

ci 

Ū

(

π

dla zbioru sekwencji 

stanów pozwala wyznaczy

ć

 najlepsz

ą

 strategi

ę

 

π

jako

0

,

)),

/

1

log(

,

/

1

(

~

>

δ

ε

δ

ε

m

m

.

|

)

(

)

(

|

:

ε

π

π

π

<

Π

U

U

przybli

Ŝ

enie funkcji u

Ŝ

yteczno

ś

ci aproksymuje z prawdopodo-

bie

ń

stwem 1-

δ

warto

ść

 dokładn

ą

©  F.A. Dul 2007

stanów pozwala wyznaczy

ć

 najlepsz

ą

 strategi

ę

 

π

jako

)

(

max

arg

*

π

π

π

U

Π

=

Poniewa

Ŝ

 funkcja u

Ŝ

yteczno

ś

ci jest deterministyczna,              

to wyznaczenie najlepszej strategii 

π

*

mo

Ŝ

e by

ć

 

przeprowadzone dowoln

ą

 metod

ą

 poszukiwa

ń

:                   

metod

ą

 najwi

ę

kszego spadku lub metodami gradientowymi.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Wyposa

Ŝ

enie 

ś

migłowca: 

• komputer nawigacyjny,

Do bada

ń

 u

Ŝ

yto zdalnie sterowanego modelu 

ś

migłowca 

Yamaha R-50

• masa 20 kg,
• długo

ść

 3.6 m,

ś

rednica wirnika 2.8 m,

• warto

ść

 70,000 $.

Dane 

ś

migłowca: 

Ś

migłowiec i jego model

©  F.A. Dul 2007

Komputer nawigacyjny wyznaczał estymacj

ę

 wektora stanu  

na podstawie sygnałów z GPSINS oraz kompasu cyfrowego      
za pomoc

ą

 

filtru Kalmana

.

• komputer nawigacyjny,
• inercyjny system nawigacji (INS) z trzema akcelerometrami   

oraz trzema 

Ŝ

yroskopami,

• ró

Ŝ

nicowy system GPS zapewniaj

ą

cy z wyznaczenie poło

Ŝ

enia  

z rozdzielczo

ś

ci

ą

 cm,

• kompas cyfrowy.

Sygnały wej

ś

ciowe z GPSINS oraz sygnały steruj

ą

ce       

były próbkowane z cz

ę

stotliwo

ś

ci

ą

 50Hz. 

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Stan 

ś

migłowca opisuje dwana

ś

cie zmiennych: 

}

,

,

,

,

,

,

,

,

,

,

,

{

ψ

θ

φ

ψ

θ

φ

&

&

&

&

&

&

z

y

x

z

y

x

s

=

Sterowanie 

ś

migłowcem opisuj

ą

 cztery zmienne: 

• x, y, z

- poło

Ŝ

enie,

φ

θ

ψ

- orientacja (k

ą

ty Eulera),

ψ

θ

φ

&

&

&

,

,

- pr

ę

dko

ś

ci k

ą

towe.

z

y

x

&

&

&

,

,

- pr

ę

dko

ś

ci liniowe,

}

,

,

,

{

a

a

a

a

a

=

©  F.A. Dul 2007

• a

1

- pochylenie wirnika,

• a

2

- przechylenie wirnika,

• a

3

- skok wirnika,

• a

4

- skok 

ś

migła ogonowego.

}

,

,

,

{

4

3

2

1

a

a

a

a

a

=

Model dynamiki ma posta

ć

 niejawn

ą

 („czarna skrzynka”)

...

,

1

,

0

,

12

...,

,

1

,

)

)

(

),

(

(

)

(

)

1

(

=

=

=

+

t

k

t

a

t

s

f

t

s

t

s

k

k

k

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Identyfikacja modelu

Wej

ś

cie 

x

modelu tworz

ą

: stan 

s

b  

zdefiniowany w układzie 

zwi

ą

zanym ze 

ś

migłowcem,

.

8

,

,

1

,

)

,

0

(

2

K

=

+

=

k

x

y

T

k

k

σ

η

β

Przy opracowaniu sterownika nie u

Ŝ

ywano klasycznego 

modelu dynamiki w postaci równa

ń

 p

ę

du i kr

ę

tu, lecz 

model 

typu wej

ś

cie-wyj

ś

cie

z szumem gaussowskim o wariancji 

σ

2

,

}

,

,

,

,

,

,

,

{

ψ

θ

φ

θ

φ

&

&

&

&

&

&

b

b

b

b

z

y

x

s

=

©  F.A. Dul 2007

.

)

(

)

1

(

t

s

t

s

y

b

k

b

k

k

+

=

.

]

,

[

T

b

a

s

x

=

,

}

,

,

,

,

,

,

,

{

ψ

θ

φ

θ

φ

&

&

&

&

&

&

b

b

b

b

z

y

x

s

=

oraz sterowanie 

a

w chwili 

t

,

Wyj

ś

cia 

y

k

tworz

ą

 przyrosty zmiennych stanu dla 

k=1,...,8,

Wektor współczynników 

β

k

jest wyznaczany osobno dla ka

Ŝ

dej 

zmiennej stanu na podstawie 

m

pomiarów wej

ść

 i wyj

ść

 modelu 

w chwilach 

t = 1,...,m.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

.

y

X

)

X

X

(

1

k

T

T

k

W

W

=

β

Współczynniki regresji dla k-tej zmiennej stanu 

s

k

s

ą

 równe

Do identyfikacji modelu u

Ŝ

yto metody lokalnej regresji liniowej, 

któr

ą

 zastosowano do ka

Ŝ

dej zmiennej stanu 

s

, k=1,...,8.

,

X

12

,

2

2

,

2

1

,

2

12

,

1

2

,

1

1

,

1

2

1

=

=

x

x

x

x

x

x

x

x

L

L

.

y

,

2

,

1

=

k

k

y

y

Pomiary wej

ść

 i wyj

ść

 modelu dynamiki dla 

t = 1,...,m

mo

Ŝ

na 

zapisa

ć

 w postaci macierzowej nast

ę

puj

ą

co

©  F.A. Dul 2007

.

)

)

)

(

)

(

exp(

(

1

2

1

i

T

i

x

x

x

x

diag

W

Σ

=

Do identyfikacji modelu wykorzystano sze

ś

ciominutowe 

rejestracje sterowania i stanu 

ś

migłowca sterowanego zdalnie 

przez do

ś

wiadczonego pilota.

,

X

12

,

2

,

1

,

12

,

2

2

,

2

1

,

2

2

=

=

m

m

m

m

x

x

x

x

x

x

x

x

L

M

O

M

M

L

M

.

y

,

,

2

k

=

k

m

k

y

y

M

Macierz 

W

zdefiniowana jest poprzez zapytanie 

x

jako

gdzie 

Σ

jest wektorem wag dla poszczególnych pomiarów.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Wyniki identyfikacji

Przykład przebiegu zmiennej 
stanu 

y’(t)

(

——

) oraz jej predykcji 

(

——

) wraz z odchyleniem 

standardowym bł

ę

du (

- - - -

). 

©  F.A. Dul 2007

Narastanie bł

ę

dów estymacji w czasie

(a) 

x’(t)

bez uwzgl

ę

dnienia 

a

1

(b) 

x’(t)

bez uwzgl

ę

dnienia szumu,

(c) 

x’(t)

dla modelu liniowego,

(d)

θ

(t)

dla modelu liniowego

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Do reprezentacji strategii 
sterowania 

ś

migłowcem        

w zawisie wykorzystano sie

ć

 

neuronow

ą

 acykliczn

ą

Struktura sieci została wybrana 
tak, aby sterowania były 
zwi

ą

zane z odpowiadaj

ą

cym  

im zmiennym stanu.

Uczenie lotu w zawisie

+1

ΣΣΣΣ

err

x

a

1

θ

x&

ΣΣΣΣ

ΣΣΣΣ

err

y

a

2

φ

y&

ΣΣΣΣ

ΣΣΣΣ

err

z

a

3

z&

ΣΣΣΣ

©  F.A. Dul 2007

θ

6

5

4

3

2

1

1

)

tanh(

w

x

w

err

w

w

err

w

w

t

x

x

+

+

+

+

=

&

1

9

1

8

7

1

)

tanh(

t

w

t

w

w

a

+

=

z&

ψ

&

ΣΣΣΣ

err

ψ

a

4

ΣΣΣΣ

ę

dy stanu 

s

wzgl

ę

dem stanu po

Ŝą

danego 

s*

odpowiadaj

ą

-

cego zawisowi s

ą

 równe

*

s

s

err

s

=

Przykładowo, sterowanie pochyleniem wirnika ma posta

ć

Sie

ć

 ma dziesi

ęć

 wej

ść

, jedn

ą

 

warstw

ę

 ukryt

ą

, cztery wyj

ś

cia  

32 współczynniki wagowe 

w

i

.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Funkcje nagrody dla stanu i sterowania maj

ą

 postacie

)

*)

(

*)

(

*)

(

*)

(

(

)

(

2

2

2

2

2

2

2

ψ

ψ

α

α

α

α

α

α

α

ψ

+

+

+

+

+

+

+

=

&

&

&

&

&

&

&

z

y

x

z

z

y

y

x

x

s

R

z

y

x

z

y

x

)

(

)

(

2

4

2

3

2

2

2

1

4

3

2

1

a

a

a

a

a

R

a

a

a

a

α

α

α

α

+

+

+

=

Współczynniki 

α

,..., 

α

a4

zapewniaj

ą

 porównywalne wkłady 

poszczególnych wyrazów do funkcji nagród.

Do wyznaczania przybli

Ŝ

onych u

Ŝ

yteczno

ś

ci strategii 

Ū

(

π

)

zastosowana została metoda P

EGASUS.

©  F.A. Dul 2007

zastosowana została metoda P

EGASUS.

Poniewa

Ŝ

 strategie 

π

s

ą

 gładkimi funkcjami wag sieci, to 

maksymalizacja 

Ū

(

π

)

mo

Ŝ

e by

ć

 przeprowadzona metod

ą

 

najwi

ę

kszego spadku lub metod

ą

 gradientow

ą

.

Najkosztowniejsz

ą

 cz

ęś

ci

ą

 algorytmu 

P

EGASUS

jest wyznaczanie sekwencji 

stanów 

s’

metod

ą

 Monte Carlo.

Pierwszy zawis sterowany autonomicznie

Wyznaczona strategia sterowania 
umo

Ŝ

liwiła autonomiczne pilotowanie 

ś

migłowcem w zawisie.

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Porównanie sterowania 

ś

migłowcem w zawisie:

do

ś

wiadczony pilot,

sterownik neuronowy

• bł

ą

d poło

Ŝ

enia (x-x*,y-y*,z-z*)

©  F.A. Dul 2007

Nauczony sterownik neuronowy jest w stanie utrzymywa

ć

 

zawis 

ś

migłowca 

bardziej precyzyjnie ni

Ŝ

 człowiek

.

• bł

ą

d pr

ę

dko

ś

ci (v

x

,v

y

,v

z

)

background image

21.6.   Autonomiczne sterowanie 

ś

migłowcem

Do reprezentacji strategii 
sterowania 

ś

migłowcem w 

manewrach u

Ŝ

yto sieci 

neuronowej stosowanej dla 
zawisu, uzupełnionej trzema 
poł

ą

czeniami ( 

→

→

→

→

).

Uczenie manewrów

Strategie sterowania dla 
manewrów otrzymuje si

ę

 

poprzez gładkie przej

ś

cie ze 

+1

Σ

err

x

a

1

θ

x&

Σ

Σ

err

y

a

2

φ

y&

Σ

Σ

err

z

a

3

z&

Σ

ψ

&

©  F.A. Dul 2007

Metoda P

EGASUS

pozwoliła wyznaczy

ć

 strategi

ę

 sterowania 

ś

migłowcem dla manewrów  wykonywanych na zawodach 

ś

migłowców sterowanych zdalnie w Klasie III, 

odpowiadaj

ą

cej najwy

Ŝ

szemu poziomowi trudno

ś

ci.

poprzez gładkie przej

ś

cie ze 

stanu dla zawisu 

s*

do stanu 

dla manewru 

s

p

(t),

Funkcje nagrody dla stanu i sterowania s

ą

 zmodyfikowane 

pod k

ą

tem uwzgl

ę

dnienia zmiennej trajektorii.

),

(

*

),

(

*

),

(

*

),

(

*

t

t

z

z

t

y

y

t

x

x

p

p

p

p

ψ

ψ

ψ

&

Σ

err

ψ

a

4

Σ

background image

Trójk

ą

t pionowy 

z obrotem o 180 
stopni

Nos na okr

ę

gu

Prostok

ą

t  pionowy 

z obrotem o 360 
stopni

Manewry 

ś

migłowca wykonywane przez pilotów na zawodach

Manewry wykonywane przez 

ś

migłowiec sterowany 

autonomicznie sterownikiem uczonym algorytmem P

EGASUS.

21.6.   Autonomiczne sterowanie 

ś

migłowcem

©  F.A. Dul 2007

autonomicznie sterownikiem uczonym algorytmem P

EGASUS.

Precyzja manewrów wykonywanych przez 

ś

migłowiec 

sterowany autonomicznie była zadowalaj

ą

ca.

background image

Manewr „nos na okr

ę

gu”

21.6.   Autonomiczne sterowanie 

ś

migłowcem

©  F.A. Dul 2007

Przedstawione rezultaty ilustruj

ą

 potencjalne mo

Ŝ

liwo

ś

ci 

algorytmów uczenia ze wzmocnieniem w dziedzinie 
bezpilotowych pojazdów autonomicznych (UAV).

background image

Podsumowanie

• Uczenie ze wzmocnieniem polega na budowie modelu          

na podstawie nagród i kar otrzymywanych przez agenta.

• Struktura agenta okre

ś

la rodzaj informacji ucz

ą

cej.

• Istniej

ą

 trzy typy struktur agenta uczonego ze wzmocnieniem:

– oparta na modelu 

ś

rodowiska 

T  

i funkcji u

Ŝ

yteczno

ś

ci 

U

,

– oparta n funkcji działania 

Q, 

nie wykorzystuj

ą

ca modelu 

ś

rodowiska,

– refleksowa, u

Ŝ

ywaj

ą

ca zało

Ŝ

on

ą

 strategi

ę

 

π

.

• Istniej

ą

 trzy sposoby uczenia si

ę

 u

Ŝ

yteczno

ś

ci przez agenta:

– bezpo

ś

rednia estymacja u

Ŝ

yteczno

ś

ci,

– adaptacyjne programowanie dynamiczne (ADP),

©

F.A. Dul 2007

– adaptacyjne programowanie dynamiczne (ADP),
– ró

Ŝ

nicowa (TD).

• Uczenie z funkcj

ą

 działania 

Q

nie wymaga modelu 

ś

rodowiska, 

ale mo

Ŝ

e by

ć

 utrudnione w 

ś

rodowisku zło

Ŝ

onym.

• Wybór działania w trakcie uczenia wymaga kompromisu 

pomi

ę

dzy jego skuteczno

ś

ci

ą

 i u

Ŝ

yteczno

ś

ci

ą

 w nauce.

• Poszukiwanie strategii polega na bezpo

ś

redniej reprezentacji 

strategii i jej ulepszaniu na podstawie oceny skuteczno

ś

ci 

działa

ń

.