Koñ, jaki jest, ka¿dy widzi?

nternet i do∏àczone do niego cyfro-
we biblioteki potencjalnie dajà do-
st´p do ogromnej iloÊci informacji.

Skuteczne jej odszukiwanie to zupe∏nie
inna sprawa. PomyÊlmy o archiwach
zdj´ç lub fragmentów filmów. JeÊli chce-
my odnaleêç coÊ tak prostego jak zdj´-
cie konia u wodopoju, to jedyna dziÊ na-
dzieja, ˝e ktoÊ wczeÊniej odpowiednio
je opisa∏.

DoÊwiadczenia wszystkich wa˝niej-

szych archiwów pokazujà, ˝e praktycz-
nie nie da si´ przewidzieç, jakie kryteria
b´dà stosowane przez przeszukujàcych.
Co wi´cej, wprowadzenie ka˝dego no-
wego ˝àdania – na przyk∏ad „Znajdê
wszystkie zdj´cia, na których jest koƒ
i trawa” – wymagaç mo˝e powtórnego
przejrzenia ca∏ej kolekcji.

Po zdj´cia w du˝ych zbiorach si´ga

si´ w rozmaitych celach, a i same kry-
teria wyszukiwania bywajà najró˝niej-

sze. KtoÊ mo˝e na przyk∏ad badaç w ar-
chiwum muzeum sztuki, jak cz´sto u˝y-
wano pewnego odcienia do oddania
barwy skóry na portretach, inny zaÊ –
przeglàdaç zdj´cia satelitarne, aby osza-
cowaç wielkoÊç przysz∏orocznych zbio-
rów kukurydzy. Grafik projektujàcy fol-
der biura turystycznego b´dzie szuka∏
w agencji fotograficznej zachodu s∏oƒca
na ok∏adk´, a meteorolog – studiowa∏
zdj´cia dróg wodnych w Kalifornii, aby
porównaç skutki powodzi w kolejnych
latach.

Wydaje si´, ˝e najbardziej odpowied-

ni do wyszukiwania takich informacji
jest automatyczny system analizy za-
wartoÊci zdj´ç. Pozornie prostym narz´-
dziem by∏by program potrafiàcy rozpo-
znaç, czy na zdj´ciu jest konkretny
obiekt, na przyk∏ad koƒ lub woda. Pro-
gram musia∏by poprawnie zidentyfiko-
waç poszukiwany przedmiot niezale˝-

nie od jego koloru, wielkoÊci, wyglàdu
i fotograficznego uj´cia. Niestety, wspó∏-
czesna wiedza na temat rozpoznawa-
nia obrazów nie potrafi podo∏aç temu
zadaniu. Naukowcy atakujà jednak pro-
blem z wielu stron, a ∏àczenie kilku me-
tod – od widzenia maszynowego po
sztucznà inteligencj´ – w koƒcu umo˝-
liwi zapewne skuteczniejszà analiz´ tre-
Êci zdj´cia.

Komputer mo˝e analizowaç zawar-

toÊç zdj´cia na wiele ró˝nych sposobów.
Niektóre programy starajà si´ znaleêç
obrazy bardzo podobne do wzorca. In-
ne analizujà ich ogólne cechy: szukajà
na przyk∏ad du˝ej liczby ˝ó∏tych pla-
mek (∏àka) albo jasnego czerwonego ob-
szaru poÊrodku (ogieƒ, zachód s∏oƒca
i niektóre samochody sportowe). Jesz-
cze innà mo˝liwoÊcià jest poszukiwa-
nie okreÊlonego obiektu, takiego jak koƒ
lub woda. Mamy wi´c trzy zasadniczo

Koƒ, jaki jest, ka˝dy widzi?

Komputery rozpoznajàce b´dà umia∏y odszukaç

w archiwum zdj´ç obraz osoby, przedmiotu lub miejsca

David Forsyth, Jitendra Malik i Robert Wilensky

ró˝ne podejÊcia do rozpoznawania ob-
razów: szukanie obrazów podobnych
do wzorca, analiza „plam” na obrazie
(obszarów o sta∏ym kolorze lub tekstu-
rze) oraz po prostu identyfikowanie
obiektów – co robià ludzie. [Zagadnienie
porównywania wzorców omówiono
równie˝ w artykule Johna Villasenora
i Williama H. Mangione-Smitha, „Kon-
figurowalne przetwarzanie”, strona 28.]

Proste, ale bezu˝yteczne

PrzydatnoÊç wymienionych metod

jest odwrotnie proporcjonalna do ∏atwo-
Êci ich implementacji. BezpoÊrednie po-
równanie obrazu z wzorcem jest bardzo
prostà technikà, lecz jej zastosowanie
ogranicza si´ do znajdowania obrazów
podobnych powierzchownie. Technika
ta nie jest za bardzo przydatna do wy-
szukiwania obiektów, gdy˝ zmiany u∏o-
˝enia, rozk∏adu lub konfiguracji unie-
mo˝liwiajà wi´kszoÊç porównaƒ: koƒ
z przodu nie jest podobny do konia
z profilu (z tego wzgl´du uwa˝amy, ˝e
proste porównywanie z wzorcem jest
algorytmicznym Êlepym zau∏kiem).

Odnajdywanie obrazów na podsta-

wie plam jest potencjalnie bardziej efek-
tywne, a wiele takich analiz nie stawia
zbyt du˝ych wymagaƒ pod wzgl´dem
obliczeniowym – okreÊlenie procento-
wej zawartoÊci czerwonych, zielonych
i niebieskich punktów (pikseli) w da-
nym obrazie zabiera u∏amek sekundy.

Poniewa˝ obiekty wyst´pujà na obrazie
jako „plamy” (tj. dwuwymiarowe ob-
szary spójne), naturalne jest rozpocz´-
cie przeszukiwania od identyfikacji
plam. Wi´kszoÊç wspó∏czesnych syste-
mów dzia∏a w∏aÊnie w ten sposób.

Najbardziej zapewne znany system

QBIC (Query by Image Content – wy-
szukiwanie na podstawie zawartoÊci
obrazu) opracowany przez zespó∏ IBM,
pozwala na przyk∏ad na okreÊlenie
przez operatora takich cech, jak kolor,
jego rozk∏ad i tzw. tekstura (która mo-
˝e byç prostym przek∏adaƒcem dwu
kolorów, np. pasami zebry, lecz tak˝e
bardziej z∏o˝onym wielokolorowym
wzorem). Na ich podstawie QBIC po-
rzàdkuje obrazy pod wzgl´dem stop-
nia zgodnoÊci z zadanym wzorcem. In-
ny popularny system, Photobook, dzie∏o
zespo∏u Alexa Pentlanda z Massachu-
setts Institute of Technology, w du˝ej
mierze opiera si´ na tym samym mode-
lu obrazu jako kola˝u spójnych, homo-
gennych obszarów, zawiera jednak bar-
dziej z∏o˝one opisy tekstur, a ponadto
potrafi automatycznie podzieliç obraz
na segmenty.

Chocia˝ mo˝liwoÊci tych systemów

sà imponujàce, jesteÊmy przekonani, ˝e
programy analizujàce wy∏àcznie plamy
majà ograniczonà u˝ytecznoÊç. Na przy-
k∏ad wyszukiwanie stosujàce kryterium
proporcji kolorów w rezultacie mo˝e
daç flag´ zarówno brytyjskà, jak i fran-
cuskà. Ogólnie rzecz bioràc, ludzi inte-

PRECYZYJNE WYSZUKIWANIE obra-
zów jest trudne, poniewa˝ ciàgle jesz-
cze w zbyt ma∏ym stopniu poznaliÊmy
mechanizmy rozpoznawania. W celu
znalezienia w bazie danych zdj´ç przed-
stawiajàcych fioletowe kwiaty wydano
prototypowemu programowi polecenie
wyszukania ma∏ych fioletowych kropek.
Niektóre ze wskazanych przez program
obrazów pokazano u góry strony. Nie
wszystkie odpowiadajà oczekiwaniom
u˝ytkownika, kilka jednak tak, ponie-
wa˝ rzeczywiÊcie kwiatki mo˝na z grub-
sza okreÊliç jako niewielkie plamki.
W przypadku bardziej skomplikowa-
nych obiektów, takich jak tygrys, trze-
ba u˝yç równie˝ bardziej skompli-
kowanych algorytmów wyszukujàcych
obszary odpowiednio u∏o˝onych plam
o zbli˝onych kolorze i teksturze. Rezul-
taty poszukiwania tygrysa przedstawio-
no na dole. Algorytm, dzi´ki któremu je
otrzymano, dzia∏a∏ o wiele dok∏adniej
od algorytmów ignorujàcych kszta∏t.
Obydwa programy powsta∏y w Univer-
sity of California w Berkeley.

resujà obiekty; ani podobieƒstwo do
wzorca, ani te˝ analiza plam rozwa˝a-
ne osobno nie sà dostatecznà podstawà
do rozpoznania treÊci obrazów.

W celu zbadania niektórych ze wspo-

mnianych zagadnieƒ stworzyliÊmy w
University of California w Berkeley sys-
tem wyszukiwania obrazów, stanowià-
cy cz´Êç Digital Library Project (projek-
tu biblioteki cyfrowej). System nasz,
którego g∏ównymi twórcami sà Ginger
Ogle i Chad Carson, b´dzie docelowo
zawiera∏ ponad 600 tys. fotografii. Ju˝
dziÊ oko∏o 50 tys. zdj´ç z ró˝nych êró-
de∏, m.in. fotografie lotnicze i satelitar-
ne, jest dost´pnych w witrynie WWW
naszego projektu.

System pozwala na bardzo ró˝ne

zlecenia; u˝ytkownik mo˝e pytaç za-
równo o obiekty, jak i o plamy. Obiekty
jednak trudniej znaleêç, tak wi´c w wie-
lu przypadkach warto zapytaç o obrazy
zawierajàce plamy, z których mo˝na z∏o-
˝yç poszukiwany obiekt. JesteÊmy zda-
nia, ˝e przedstawia si´ obiekty (a wi´c
i pyta o nie) w terminach zestawu plam.
Oznacza to, ˝e najbardziej celowe sà ta-
kie zapytania o plamy, na podstawie
których mo˝na zbudowaç reprezenta-
cj´ obiektu. Tak wi´c interfejs u˝ytkow-
nika powinien oferowaç wiele opcji:
mo˝na by pytaç o obiekty albo – gdy nie
istnieje dostatecznie dobra definicja
obiektu – ˝àdaç wyszukania ró˝nych
kombinacji roz∏o˝enia plam, o których
wiadomo, ˝e b´dà pomocne w rozwià-
zaniu zadania.

Kiedy jeden z twórców systemu chcia∏

znaleêç zdj´cia przedstawiajàce wind-
surfing, za˝àda∏ wyszukania obrazów
zawierajàcych co najmniej 30% koloru
zielonego lub niebieskiego (niebo albo
morze) i choç jednà ˝ó∏tà kropk´ (˝agiel
windsurfera). Bardzo wysoki odsetek
znalezionych przez komputer zdj´ç do-
tyczy∏ windsurfingu. Program wskaza∏
tak˝e zdj´cia nie zwiàzane z tematem,
a przeoczy∏ inne, w∏aÊciwe.

W wyszukiwaniu informacji mamy

z zasady do czynienia z kompromisem
pomi´dzy dok∏adnoÊcià a iloÊcià zna-
lezionej informacji – wybieranie danych
dok∏adnie odpowiadajàcych tematowi
spowoduje, ˝e niektóre po˝àdane in-
formacje nie przejdà przez sito, ∏agod-
niejsze natomiast kryterium sprawi, ˝e
prócz informacji poszukiwanych otrzy-
mamy dodatkowo mas´ innych. Na
przyk∏adzie windsurfingu pokazaliÊmy,
˝e pot´˝ny mechanizm wyszukiwania
na podstawie plam mo˝e byç w niektó-
rych przypadkach zupe∏nie skuteczny.
Przyk∏ad ten daje jednak równie˝ wy-
obra˝enie o intelektualnych wygibasach,
których nale˝y dokonaç, aby znaleêç
obiekt, pos∏ugujàc si´ opisem plam.

48 Â

WIAT

AUKI

Sierpieƒ 1997

W obecnym stadium rozwoju naszego

systemu u˝ytkownik mo˝e specyfiko-
waç tylko ma∏à klas´ obiektów, takich
jak konie, ∏odzie i nadzy ludzie. Aby zde-
finiowaç plam´, mo˝e on podaç procent
ró˝nych kolorów prawdopodobnie obec-
nych na obrazie, a tak˝e liczb´ i wielkoÊç
„kolorowych kleksów”. Mo˝na tak˝e po-
daç inne cechy zwiàzane z treÊcià obra-
zu, na przyk∏ad: czy na obrazie jest wi-
doczna linia horyzontu, jak równie˝
przeszukaç tzw. metadane – dodatko-
wà informacj´ do∏àczonà do obrazu, czy-
li podpis, imi´ i nazwisko autora, dat´
oraz miejsce, gdzie zrobiono zdj´cie, itp.

Zagro˝enia

JeÊli komputer wyposa˝y si´ w odpo-

wiednià wiedz´ – b´dzie potrafi∏ wyde-
dukowaç z plam, które sk∏adajà si´ na
obraz, jakie obiekty si´ na obrazie znaj-
dujà. Problem identyfikacji koni, ludzi
itp. nazywamy rozpoznawaniem obiek-
tów; jest on od dziesi´cioleci wa˝nym
przedmiotem badaƒ widzenia maszy-
nowego, przede wszystkim ze wzgl´du
na zastosowania przemys∏owe i wojsko-
we. Dzisiejsze techniki sprawdzajà si´
tylko w przypadku obrazów zawierajà-
cych niewielkà liczb´ obiektów, których
kszta∏ty sà dok∏adnie znane i które
bywajà zwykle przedstawiane tylko pod
pewnymi kàtami. W∏aÊciwie nie nada-
jà si´ do rozpoznania nawet pojedyn-
czego „zwyk∏ego” obiektu, takiego jak
cz∏owiek lub koƒ. Te bowiem charakte-
ryzujà si´ du˝à zmiennoÊcià rozmiaru,
wagi, znaków szczególnych, co wpro-

wadza w b∏àd programy komputero-
we, choç przecie˝ cz∏owiek pozostaje
cz∏owiekiem niezale˝nie od ubioru czy
fryzury.

Co wi´cej, musimy odró˝niaç obiek-

ty od t∏a. W pewnych przypadkach jest
to trudne nawet dla ludzi. Rozwa˝my
obraz lamparta na tle mieniàcej si´ Êwia-
t∏em d˝ungli. Aby cokolwiek rozpoznaç,
musimy wiedzieç, które cz´Êci obrazu
tworzà ca∏oÊç – czyli odró˝niç plamki
b´dàce c´tkami lamparta od refleksów
Êwietlnych t∏a. Innymi s∏owy, program
musi umieç przyporzàdkowywaç pla-
my obiektom.

To tzw. grupowanie percepcyjne by-

∏o przedmiotem intensywnych badaƒ
psychologów szko∏y Gestalt. Wskazali
oni wiele czynników, którymi mo˝na
by pos∏u˝yç si´ do stwierdzenia, kiedy
ró˝ne cz´Êci obrazu nale˝à do jednego
obiektu. Bardzo silnym kryterium jest
podobieƒstwo koloru lub tekstury: lu-
dzie ∏atwo asocjujà cz´Êci obrazu w tym
samym kolorze (np. spójny czerwony
obszar) lub o tej samej teksturze (szkoc-
ka krata). Na poziomie bardziej abstrak-
cyjnym obszary, które sà symetryczne
wzgl´dem jakiejÊ osi, mogà byç klasy-
fikowane jako rzuty przedmiotów trój-
wymiarowych o symetrii obrotowej, na
przyk∏ad wazonu.

SpecjaliÊci od widzenia maszynowe-

go od lat usi∏ujà przekszta∏ciç takie ja-
koÊciowe, empiryczne regu∏y w dzia∏a-
jàce algorytmy. Serge Belongie, Carson,
Hayit Greenspan i jeden z nas (Malik)
opracowali system, który mimo ˝e jego
umiej´tnoÊç percepcyjnego grupowania

Poszukiwanie konia kawa∏ek po kawa∏ku

lgorytmy rozpoznawania obiektów grupujà elementy obrazu w coraz to wi´ksze,
bardziej z∏o˝one obszary i wysuwajà hipotezy, co te obszary mogà przedstawiaç. Pro-

gram rozpoznajàcy czworonogi, takie jak konie, zaczyna analiz´ obrazu (a) od znalezie-
nia plam w kolorze przypominajàcym barwy koƒskiej sierÊci (b) i majàcych kszta∏t przed-
nich i tylnych koƒczyn, aby zdefiniowaç kontury tych plam (c), a nast´pnie sprawdziç
relacje przestrzenne pomi´dzy obszarami o kszta∏tach przypominajàcych cia∏o konia,
(korpus konia i jego nogi sà w przybli˝eniu walcami) (d) i wyeliminowaç niemo˝liwe ze

Zdj´cie

Plamy koloru koƒskiej sierÊci

przedmiotów wypada ˝a∏oÊnie blado
w porównaniu z ludzkà, potrafi doko-
naç u˝ytecznego rozk∏adu obrazu na
ma∏y zestaw obszarów o zgodnym ko-
lorze lub teksturze. Ka˝demu takiemu
„kleksowi” sà przypisywane atrybuty
okreÊlajàce jego po∏o˝enie, kszta∏t, ko-
lor i tekstur´. Zdefiniowane kleksy od-
zwierciedlajà najwa˝niejsze cechy kom-
pozycyjne obrazu.

Dzi´ki takim danym mo˝emy odna-

leêç zdj´cia samolotów na tle nieba, szu-
kajàc po prostu niebieskich kleksów
z szarà plamà w Êrodku. Zdj´cia tygry-
sów wyselekcjonujemy na podstawie
kleksów w kolorze i o teksturze odpo-
wiadajàcej skórze tygrysa oraz w kolo-
rze i o teksturze trawy rosnàcej w Êrodo-
wisku, w którym ˝yjà te drapie˝niki.
U˝ytkownik mo˝e okreÊliç, z jakà do-
k∏adnoÊcià kolor i tekstura ka˝dego
z kleksów ma byç wyspecyfikowana.

Jest rzeczà interesujàcà, ˝e ta repre-

zentacja obiektów jako zbioru obszarów
w okreÊlonym kolorze i teksturze z ∏a-
twoÊcià poddaje si´ uczeniu maszyno-
wemu. Cz∏owiek nie musi wymyÊlaç
najbardziej charakterystycznych cech
kleksów opisujàcych samoloty czy te˝
tygrysy – mo˝na do tego celu u˝yç sta-
tystycznych metod uczenia si´ maszy-
nowego. Na wejÊcie programu zwanego
klasyfikatorem statystycznym (statisti-
cal classifier) wprowadziliÊmy zdj´cia
przyk∏adowe (takie jak zdj´cia samolo-
tów i tygrysów) i nauczyliÊmy go rozpo-
znawania tych obiektów na fotografiach
mu nie znanych. Obecnie nasze progra-
my klasyfikujà obrazy tylko na podsta-

wie koloru i tekstury; po dodaniu od-
powiedniej informacji o kszta∏tach ob-
szarów powinnny umieç rozró˝niaç,
które z kolekcji kleksów sà cz´Êcià jed-
nego obiektu, a które nie. Dzi´ki uczeniu
algorytmów otrzymujemy naturalny
sposób radzenia sobie z nieistotnà
zmiennoÊcià obiektów jednej kategorii,
poniewa˝ program mo˝e si´ sam wy-
regulowaç i nie zwracaç uwagi na nie-
istotne odchylenia (niebo miewa ró˝ne
odcienie b∏´kitu, kszta∏ty chmur sà nie-
skoƒczenie ró˝norodne itd.).

Gdzie jest Waldo?*

Takeo Kanade i jego wspó∏pracowni-

cy z Carnegie Mellon University opraco-
wali programowy modu∏ rozpoznajàcy
twarze, który jest dobrym przyk∏adem
zastosowania uczenia si´ maszynowe-
go. Inni badacze mieli du˝e trudnoÊci
z identyfikacjà ust, oczu i nosa konkret-
nych osób. Zespó∏ Kanade natomiast na-
uczy∏ sieç neuronowà wykrywania
wszystkich tych elementów twarzy ∏àcz-
nie, jeÊli wyst´pujà one we w∏aÊciwej
konfiguracji. Bada∏ on tak˝e mo˝liwoÊç
powiàzania w analizie scen filmowych
obrazu z dêwi´kiem. Komputer rozpo-
znawa∏by na przyk∏ad brzmienie nazwi-
ska znanej osoby na Êcie˝ce dêwi´ko-
wej wiadomoÊci telewizyjnych i koja-
rzy∏by jà z obrazem twarzy na Êcie˝ce
wizyjnej.

Kolor i tekstura sà pomocne w iden-

tyfikacji obszarów obrazu. Kilka dodat-
kowych wskazówek pomaga w z∏o˝e-
niu obszarów w obraz obiektu. Przede

wszystkim wiele przedmiotów sk∏ada
si´ z cz´Êci, które majà proste trójwy-
miarowe kszta∏ty. Tak˝e relacje pomi´-
dzy cz´Êciami sà zwykle nieskompliko-
wane. Co wi´cej, proste formy zajmujà
na obrazach proste w kszta∏cie obszary.
Na przyk∏ad walec na zdj´ciu prawie
zawsze jest obszarem z liniowymi, pra-
wie równoleg∏ymi bokami. Program po-
trafi stosunkowo ∏atwo identyfikowaç
tego typu kszta∏ty.

Podobnie jeÊli wzajemne usytuowa-

nie ró˝nych cz´Êci nie mo˝e byç dowol-
ne – na przyk∏ad stawy ∏àczàce koÊci
ograniczajà mo˝liwe pozycje cz´Êci cia∏a
ludzi i zwierzàt – cz´sto jest ∏atwo roz-
strzygnàç, czy obszary nale˝àce pozor-
nie do jednego obiektu rzeczywiÊcie two-
rzà ca∏oÊç. Mówiàc skrótowo, ka˝dy
obszar obrazu stanowi êród∏o hipotez
dotyczàcych jego treÊci; hipotezy te z ko-
lei sugerujà strategie dalszej identyfika-
cji wi´kszych i bardziej zró˝nicowanych
grup obszarów obrazu. Teoria uczenia
si´ statystycznego dostarcza mechani-
zmów, dzi´ki którym mo˝na zadecydo-
waç o przyj´ciu lub odrzuceniu danej hi-
potezy. Post´pujàc w ten sposób, w chwi-
li identyfikacji dostatecznie du˝ego ob-
szaru uznajemy obiekt za rozpoznany.

Margaret Fleck z University of Iowa

i jeden z autorów tego artyku∏u (For-
syth) na podstawie tych obserwacji
stworzyli dwa systemy, które mogà roz-
poznawaç specyficzne obiekty w du-
˝ym zbiorze obrazów. Pierwszy wyszu-
kuje obszary, na których sà ludzie.
Nasza obecna wersja dzia∏a tylko w
przypadku zdj´ç osób skàpo ubranych

WIAT

AUKI

Sierpieƒ 1997 49

wzgl´dów anatomicznych kombinacje koƒczyn (no-
gi i tu∏ów powinny byç do siebie prostopad∏e). Koƒ-
cowej klasyfikacji mo˝na czasami dokonaç tylko
na podstawie szczegó∏owej znajomoÊci koloru lub
tekstury; nawet cz∏owiek móg∏by mieç k∏opot z od-
ró˝nieniem sylwetek s∏onia z podwini´tà tràbà (u
góry z lewej) i niedêwiedzia (u góry z prawej).

Segmenty tworzàce schemat budowy konia

Kontury plam

Wszystkie mo˝liwe segmenty

DAVID FORSYTH i MARGARET FLECK

lub wr´cz nagich; kolor i tekstura skóry
sà zaskakujàco ma∏o zmienne w porów-
naniu z ubraniami. Program zaczyna od
wydzielenia z obrazu obszarów odpo-
wiadajàcych skórze ludzkiej (mo˝na to
doÊç dok∏adnie zrobiç) i eliminuje zdj´-
cia, na których nie ma obrazów ludzkiej
skóry lub jest jej ma∏o. Po po∏àczeniu
rozpoznanych obszarów w grupy przy-
pominajàce kszta∏tem walce (reprezen-

tujàce cz´Êci cia∏a) program sprawdza
relacje geometryczne pomi´dzy tymi
grupami, aby znaleêç zestawy, które
mogà odpowiadaç koƒczynom. Na ko-
niec bada zwiàzki mi´dzy ewentualnie
zidentyfikowanymi cz∏onkami, ustalajàc
rejony odpowiadajàce bardziej z∏o˝o-
nym uk∏adom.

Poniewa˝ nasz model cz∏owieka opie-

ra si´ g∏ównie na wzajemnym usytu-
owaniu ró˝nych cz´Êci cia∏a, jest mo˝-
liwa taka zmiana programu, aby
wyszukiwa∏ inne obiekty o strukturze
podobnej do cia∏a ludzkiego. Nasz dru-

gi system znajduje zdj´cia koni, bada-
jàc relacje pomi´dzy segmentami obra-
zu, w kolorze i o teksturze koƒskiej
sierÊci. „Wyszukiwacz” osób przete-
stowaliÊmy na prawie 5000 zdj´ç
z bardzo ró˝nych êróde∏; prawid∏owo
zidentyfikowa∏ ludzi w 40% przypad-
ków, a mylnie w 4%. Program rozpo-
znajàcy konie wykry∏ je tylko na 10%
w∏aÊciwych zdj´ç, za to „zobaczy∏” ko-
nie tam, gdzie ich nie by∏o, zaledwie na
0.4% fotografii. Nie wiemy jeszcze, jak

50 Â

WIAT

AUKI

Sierpieƒ 1997

Algorytmy

rozpoznawania twarzy

aukowcy z Carnegie Mellon Universi-
ty zamiast definiowaç explicite cechy,

które determinujà twarz ludzkà, „trenowa-
li” program – sieç neuronowà – na du˝ym
zbiorze zdj´ç, których cz´Êç przedstawia-
∏a twarze. Program „nauczy∏ si´” w koƒcu
rozró˝niaç oczy, nos i usta. Interfejs do-
st´pny w WWW umo˝liwia ch´tnym przed-
stawienie programowi dowolnego zdj´cia
z zapytaniem, czy zawiera ono obraz twa-
rzy. Kilka z setek zdj´ç, które komputer
uzna∏ za zawierajàce obraz twarzy, za-
mieszczono obok.

RÓ˚NE UJ¢CIA TEGO SAMEGO OBIEKTU program rozpoznajàcy mo˝e odbieraç jako zupe∏nie odmienne obiekty, niektóre natomiast
nies∏usznie uzna za podobne. Oprogramowanie opracowane przez jednego z autorów tego artyku∏u pozwala czasem okreÊliç, czy na zdj´-
ciu znajduje si´ koƒ (lub osoba) niezale˝nie od uj´cia i t∏a.

efektywnie dokonywaç podobnych
analiz w przypadku obrazów zawie-
rajàcych wiele ró˝nych obiektów do
rozpoznania.

Wydaje si´ nam, ˝e te ograniczone

mo˝liwoÊci odpowiadajà stanowi dzi-
siejszej techniki w dziedzinie „obiekto-
wego” wyszukiwania obrazów w du-
˝ych bazach danych. SkutecznoÊci
takich automatycznych systemów nie
nale˝y porównywaç z efektywnoÊcià
idealnego systemu, gdy˝ taki po prostu
nie istnieje.

Nawet najlepsze programy szukajà-

ce w doskonale zindeksowanych bazach
danych rzadko znajdujà wi´cej ni˝ 50%
˝àdanych informacji bez jednoczesne-
go dostarczenia du˝ej liczby zupe∏nie
niepotrzebnych. Dodajmy, ˝e nawet w
przypadku przeglàdania obrazów przez
ludzi spory procent zdj´ç zostaje prze-

oczony, a koszt takiej operacji jest prze-
cie˝ ogromny.

Mimo ˝e skupiliÊmy si´ tu na proble-

mie wyszukiwania zdj´ç w du˝ych ba-
zach danych, oczywiste jest, ˝e te za-
gadnienia dotyczà równie˝ innych
zastosowaƒ zwiàzanych z obrazami, na
przyk∏ad filtrowania informacji w Inter-
necie. Zeskanowane zdj´cia lub filmy w
Sieci stajà si´ coraz bardziej powszech-
ne – zarówno w postaci du˝ych baz
danych, jak i bardziej ulotnej: na elek-
tronicznych listach i na stronach domo-
wych WWW.

¸àczàc obszary podobne pod wzgl´-

dem tekstury i przestrzennego roz-
mieszczenia plam, poczyniliÊmy znacz-

ne post´py. Aby jednak zwi´k-
szyç odsetek poprawnie wyszu-
kiwanych zdj´ç, dzi´ki czemu
system sta∏by si´ naprawd´ u˝y-

teczny, potrzeba nowych rozwiàzaƒ. Ce-
lem jest odnajdywanie, na przyk∏ad ata-
kujàcego lamparta, po wpisaniu do
formularza okreÊleƒ: „c´tkowany”, „bu-
dowa cia∏a kocia”, „skaczàcy”. Nie jest
to cel niemo˝liwy do osiàgni´cia i war-
to do niego dà˝yç, poniewa˝ obrazów
w archiwach poszukuje wielu ludzi. Po-
nadto sukces b´dzie oznacza∏, ˝e zro-
zumieliÊmy w pe∏ni skomplikowane
mechanizmy rozpoznawania.

T∏umaczy∏

Aleksy Bartnik

* Nawiàzanie do serii dzieci´cych ksià˝ek, w któ-
rych na prze∏adowanych szczegó∏ami obrazkach
trzeba znaleêç tytu∏owego bohatera – Waldo. Wca-
le nie jest to ∏atwe (przyp. red.).

WIAT

AUKI

Sierpieƒ 1997 51

Informacje o autorach

DAVID FORSYTH, JITENDRA MALIK i ROBERT WI-

LENSKY pracujà na Wydziale Informatyki University

of California w Berkeley i wspó∏pracujà z Digital Li-

brary Project. Forsyth, specjalista od widzenia maszy-

nowego, uzyska∏ tytu∏ licencjata i magistra na Wydzia-

le Elektrycznym University of the Witwatersrand,

a doktora w University of Oxford. W Berkeley pracuje

od 1994 roku. Malik zajmuje si´ widzeniem maszyno-

wym i komputerowym modelowaniem widzenia ludz-

kiego. Pracuje w Berkeley od 1986 roku. Studia magister-

skie ukoƒczy∏ w Indian Institute of Technology

w Kanpur, prac´ doktorskà natomiast obroni∏ w Stan-

ford University. Wilensky kieruje Digital Library Pro-

ject i jest dziekanem Wydzia∏u Informatyki w Berke-

ley; zajmowa∏ si´ wieloma dziedzinami sztucznej

inteligencji; tytu∏ magistra i doktora otrzyma∏ w Yale

University.

Literatura uzupe∏niajàca

DESCRIPTION AND RECOGNITION OF CURVED OBJECTS

. R. Nevatia i T. O. Binford, Artificial

Intelligence, vol. 8, ss. 77-98, 1977.

COLOR: WHY THE WORLD ISN’T GREY

. Hazel Rossotti; Priceton University Press, 1983.

THE LEGACY OF GESTALT PSYCHOLOGY

. I. Rock i S. Palmer, Scientific American, vol. 263,

nr 6, ss. 48-61, XII/1990.

QUERY BY IMAGE AND VIDEO CONTENT–THE QBIC SYSTEM

. M. Flickner i in., Computer, vol.

28, nr 9, ss. 23-32, IX/1995.

OBJECT REPRESENTATION IN COMPUTER VISION–II

. J. Ponce, A. Zisserman i M. Hebert;

Springer LNCS, nr 1144, 1996.

PHOTOBOOK–CONTENT BASED MANIPULATION OF IMAGE DATABASES

. A. Pentland, R. W.

Picard i S. Sclaroff, International Journal of Computer Vision, vol. 18, nr 3, ss. 233-254,

VI/1996.

OBJECT-BASED NAVIGATION: AN INTUITIVE NAVIGATION SYTLE FOR CONTENT-ORIENTED INTE-

GRATION ENVIRONMENT

. K. Hirata i in. Materia∏y z ACM Hypertext Conference,

Southampton, U.K., IV/1997.

University of California at Berkeley Digital Library Project jest dost´pny w WWW

pod adresem http://elib.cs.berkeley.edu

Poczynajàc od górnego lewego kolejno

: HARRI PULLI; KARINA MOELLER;

KLAUS-PETER ZAUNER; PAUL QUALTROUGH; DA VINCI; KLAUS-PETER ZAUNER; SARITA J. BROWN;

MICHAEL LOCKE; CARNEGIE MELLON UNIVERSITY; HIROYUKI KONISHI KONISHI