mat-am-9

Podstawy automatycznego rozpoznawania mowy

Podstawy segmentacji sygnału mowy:

1. alfabet bazowy - dla mowy polskiej 37 fonemów
2. segmenty fonetyczne

- odcinki o jednorodnej strukturze fonetycznej decydującej o

przynaleŜności do określonego fonemu
3. segmentacja stała

- odcinki o stałej długości - kwazistacjonarne

- "implicit segmentation" - mikrofonemy

4. segmentacja zmienna

- segmenty zdefiniowane przez transkrypcję fonetyczną

- "explicit segmentation" - dłuŜsze niŜ poprzednio

5. rodzaje segmentów dla sygnału mowy:
stacjonarne, transjentowe, krótkie, pauza.
6. granice segmentów:

dźwięcznych - płynne przejścia formantów

dźwięczny i bezdźwięczny - połączenie struktur formantowych i

szumowych

fonem i cisza - niepełna realizacja struktury widmowej

Wymagania:

- algorytm segmentacji powinien generować funkcję czasu, na podstawie której
moŜna oznaczyć granice segmentów
- wybór metod parametryzacji
- kryteria podziału i wybór desygnatów znaczeniowych

Fonetyczna funkcja mowy :

Fonetyczna funkcja mowy jest funkcją czasu, na podstawie której moŜna
wyznaczyć granice segmentów:

gdzie: R(t,p) – wektor parametrów w oknie czasowym (t, t+

∆

t),

∆

t – długość okna czasowego,

– waga p-tego parametru,

P – liczba parametrów,

– przesunięcie czasowe, krok analizy .

( )

(

)

( )

∑













⋅

Porównanie wyników analizy sonograficznej z wynikami segmentacji

dla róŜnych długości P wektora parametrów

Analiza  jest  wykonywana  na  odcinku  czasowym  o  długości  około  40ms,  czyli  obejmuje
pojedyncze  mikrofonemy.  Odbywa  się  porównanie  pomiędzy  kolejnymi  mikrofonemami  w
oparciu  o  obrany  system  parametrów,  małe  róŜnice  wskazują  na  to,  Ŝe  oba  mikrofonemy
wchodzą  w  skład  tego  samego  fonemu,  duźe  róŜnice  wskazują  na  zmianę  sygnału,  czyli  na
granicę między fonemami.

Funkcje bloku segmentacji fonematycznej:

- parametryzacja (dla mikrofonemów)
- obliczenie fonetycznej funkcji mowy
- detekcja granic segmentów (na podstawie maksimów ffm)

Problemy:

- nie kaŜde lokalne maksimum jest granicą segmentu (stosuje się filtry

wygładzające, algorytmy eksperckie, itp.),

- dobór wag dla poszczególnych parametrów,

- dobór systemu parametryzacyjnego

Fonetyczna funkcja mowy dla P=1

-0,5

0,5

1,5

2,5

Fonetyczna funkcja mowy dla P=2

-1

Fonetyczna funkcja mowy dla P=3

-1

METRYKI STOSOWANE W PRZESTRZENI PARAMETRÓW:

Przestrzeń metryczna to zbiór z wprowadzonym uogólnieniem pojęcia odległości
dla jego elementów.

Euklidesa:

gdzie:
x

, y

– wartość p-tego parametru dla porównywanych obiektów,

P – liczba parametrów,

Hamminga (uliczna):

Charakteryzuje się prostotą obliczeń.

Minkowskiego:

Uwaga:
szczególne przypadki metryki Minkowskiego to: metryka Euklidesa dla r=2
i metryka Hamminga dla r=1

Euklidesa znormalizowana:

gdzie: S

– odchylenie standardowe parametru p populacji referencyjnej (X lub Y)

Potrzeba normalizacji metryk wynika z silnego wpływu róŜnic rzędów wartości poszczególnych
składowych  wektora  cech  –  róŜne  typy  mogą  przyjmować  wartości  z  róŜnych  zakresów.  Za
współczynnik  normalizujący  przyjmuje  się  zazwyczaj  odwrotność  wariancji  (kwadrat
odchylenia  standardowego).  Ponadto  róŜne  parametry  mogą  reprezentować  róŜne  cechy
fizyczne  opisywanych  obiektów,  obok  siebie  mogą  występować  parametry  o  róŜnych
wymiarach fizycznych, których dodawanie nie ma sensu. Normalizacja powoduje, Ŝe składniki
są bezwymiarowe.

( )

(

)

∑

−

( )

∑

−

( )

∑

−

( )

(

)

∑

−

⋅

Camberra:

Jest to metryka samonormalizująca

Czebyszewa:

Mahalanobisa:

gdzie:

– macierz kowariancji

Metryka  Mahalanobisa  jest  związana  tzw.  regułą  optymalną.  Metryka  Mahalanobisa
uwzględnia  stopień  skorelowania  pomiędzy  parametrami,  jeśli  zaś  parametry  są
nieskorelowane  zamienia  się  w  zwykłą  waŜoną  metrykę  Euklidesa  (macierz

staje się

diagonalna). Przy obliczaniu odległości pomiędzy populacjami wymaga się, aby zachodziła
równość ich macierzy kowariancji (test statystyczny Boxa). Przypadek jednowymiarowy dla
tej metryki to w istocie rzeczy zmodyfikowana statystyka Behrensa-Fishera, z tym
wyjątkiem, Ŝe nie jest wymagana równość odchyleń standardowych.

FUNKCJE BLISKOŚCI:

Kosinus kierunkowy:

Tanimoto:

( )

∑

−

( )

−

max

( )

−

⋅

−

( )

⋅

( )

−

Przykład jednowymiarowego optymalnego systemu dyskryminacji

Przy

wyrównanym

prawdopodobieństwie

apriorycznym

wartość

dyskryminacyjna d

powinna spełniać zaleŜność:

(

) (

)

czyli:

(

)

(

)

∫

∞

−

∞















−

⋅















−

⋅

exp

zatem wartość dyskryminacyjna:

⋅

zapewniająca regułę o najmniejszym prawdopodobieństwie popełnienia błędu,
pod warunkiem, Ŝe załoŜenie o kształtach funkcji gęstości prawdopodobieństwa
(gaussowskie) są spełnione

Schemat ogólny przetwarzania sygnału mowy w procesie rozpoznawania

Ilustracja liniowej normalizacji czasowej

T(t

, t

,… t

)

, r

,…
r

)

Procedura dynamicznego dopasowania czasowego polega na segmentacji stałej i
parametryzacji  mikrofonematycznej.  UmoŜliwia  dopasowanie  dwóch  róŜnych
wypowiedzi  róŜniących  się  czasem  trwania  i  tempem  poszczególnych
elementów.  Parametry  sygnału  referencyjnego  znajdują  się  w  bazie  danych  (m
wektorów), zaś sygnału przeznaczonego do identyfikacji są obliczane na bieŜąco
(n  wektorów).  Następnie  obliczane  są  odległości  pomiędzy  wszystkimi
wektorami  parametrów  tworząc  tablicę  o  wymiarach  m

n. Kolejnym krokiem

jest  znalezienie  drogi  łączącej  przeciwległe  naroŜniki  tej  tablicy  zgodnie  z
zasadą mającą na celu minimalizację sumy odległości z napotykanych komórek
tablicy. Tak obliczona suma nosi nazwę odległości skumulowanej. Warunkiem
uzyskania  poprawnego  wyniku  jest  właściwe  zaznaczenie  początku  i  końca
wypowiedzi.  Po  zastosowaniu  procedury  „time-warping”  wobec  wszystkich
danych z bazy moŜna podjąć decyzję o klasyfikacji badanego sygnału.

Tablica odległości pomiędzy wektorami parametrów dwóch wyrazów (oś y

– referencyjny, oś x - rozpoznawany) w procedurze nieliniowej normalizacji

czasowej (dynamic time warping). Liczby segmentów obu wyrazów nie są

sobie równe (m=9, n=11). Lewy dolny naroŜnik odpowiada początkom

wypowiedzi. Zaznaczona jest ścieŜka ustalająca sposób obliczania odległości

skumulowanej.

Klasyfikatory parametryczne i nieparametryczne:

Wynikiem  klasyfikacji  jest  prawdopodobieństwo  przynaleŜności  do  danej  klasy  (w
pierwszym przypadku) albo wskazanie klasy (w drugim przypadku).
W  pierwszym  przypadku  potrzebna  jest  znajomość  funkcji  (parametrów  statystycznych)
gęstości  prawdopodobieństwa  dla  wartości  parametrów  obiektów  wchodzących  w  skład
wszystkich klas, w drugim przypadku istnieje potrzeba stworzenia modelu (lub modeli) dla
kaŜdej  klasy  na  podstawie  pewnej  liczby  przykładów  (obiektów)  tzw.  ciągu  uczącego
(treningowego).
Do klasyfikatory nieparametrycznych naleŜą  klasyfikatory minimalnoodległościowe, np.:
NN, k-NN, NM, VQ.

Algorytm „najbliŜszy sąsiad” (NN - ang. Nearest Neighbour)
Podczas  procesu  uczenia  zapamiętywany  jest  cały  ciąg  uczący  (zbiór  odniesienia).
Procedura  algorytmu  NN  oblicza  funkcję  podobieństwa  (w  sensie  ustalonej  miary
odległości)  pomiędzy  wszystkimi  obiektami  ciągu  uczącego,  a  nieznanym  obiektem.  Po
obliczeniu  wszystkich  wartości  odległości,  wyszukiwana  jest  najmniejsza  z  nich.
Klasyfikator  podejmuje  decyzję  o  przydziale  nazwy,  kodu  lub  numeru  klasy,  do  której
naleŜał obiekt ciągu uczącego, który okazał się najbliŜszy do obiektu rozpoznawanego.
Zalety  algorytmu  NN  to:  skrajna  prostota,  brak  fazy  uczenia  (o  ile  pominie  się  selekcję
cech),  moŜliwość  redukcji  zbioru  odniesienia  w  celu  przyspieszenia  klasyfikacji,
zazwyczaj dość wysoka jakość klasyfikacji.
Wady  algorytmu  NN:  wolna  klasyfikacja,  konieczność  przechowywania  całego  zbioru
odniesienia w pamięci, duŜa wraŜliwość na zbędne cechy i na szum.

Algorytm „k - najbliŜszych sąsiadów” (k–NN)
Algorytm ten jest modyfikacją algorytmu NN. Pozwala on zmniejszyć wraŜliwość systemu
rozpoznawania  w  stosunku  do  ciągu  uczącego.  Procedura  algorytmu  k-NN  dokonuje
obliczeń  odległości  pomiędzy  obrazem  rozpoznawanym,  a  wszystkimi  obrazami  ciągu
uczącego i porządkuje te odległości w kolejności rosnącej. Następnie rozpatrywanych jest
k  pierwszych  wartości  odległości,  dla  których  określa  się,  ile  z  nich  odpowiada
poszczególnym  klasom.  Klasyfikator  wybiera  tą  klasę,  która  najczęściej  pojawiała  się
wśród k pierwszych odległości. Podkreślić naleŜy, Ŝe kolejność k najbliŜszych sąsiadów (w
sensie ich odległości od próbki testowej) nie ma wpływu na wynik klasyfikacji.
Zalety  algorytmu  k-NN:  prostota  koncepcji/implementacji  i  łatwość  wprowadzania
modyfikacji,  moŜliwość  estymacji  błędu  na  etapie  uczenia  przy  pomocy  metody  minus
jednego elementu (leave-one-out), w praktyce na ogół wysoka jakość klasyfikacji;
stosunkowo szybkie uczenie (wybór k) i selekcja cech;
Wady  algorytmu  k-NN:  wolna  klasyfikacja  (nieco  wolniejsza  niŜ  1-NN),  konieczność
przechowywania  całego  zbioru  odniesienia  w  pamięci,  duŜa,  w  porównaniu  z  wieloma
innych klasyfikatorami, wraŜliwość na zbędne cechy.
Modyfikacje algorytmu k-NN:

- odmiana waŜona (ang. weighted k-NN), w której waga sąsiada zadanej próbki q

uzaleŜniona jest od jego odległości od q.

- wprowadzenie progu k’ oznaczającego minimalną liczbę sąsiadów z danej klasy

potrzebną do przypisania danej próbki do tej klasy.

- rozmyta reguła k-NN (ang. fuzzy k-NN) poszerza przestrzeń poszukiwań poprzez

zastąpienie „twardych” etykiet (ang. hard labels, crisp labels) próbek zbioru uczącego
etykietami rozmytymi o stopniach przynaleŜności do poszczególnych klas, które w
pewnym sensie oddają charakter sąsiedztwa danej próbki.

- „k dyplomatycznych najbliŜszych sąsiadów” (k Diplomatic Nearest Neighbors, k-

DNN), reguła ta szuka k sąsiadów z kaŜdej klasy osobno, a następnie wybiera tę klasę,
dla której średnia odległość opisanych sąsiadów do testowej próbki jest najmniejsza.

Przykład obrazujący działanie algorytmu k-NN dla k=3. Nieznany obiekt q

zostaje sklasyfikowany jako element klasy oznaczonej kółkami, gdyŜ

spośród trzech najbliŜszych obiektów danych treningowych dwa pochodzą z

tej klasy. NaleŜy zauwaŜyć, Ŝe dla k=1 decyzja będzie odmienna.

Algorytm „najbliŜsza średnia” (NM - ang. Nearest Mean)
W  algorytmie  NM  wzorcem  klasy  rozpoznawanych  obiektów  jest  wartość  średnia  lub
modalna  (centroid).  Podobnie teŜ,  jak  w  algorytmie  NN,  obliczane są  odległości obiektu
rozpoznawanego  od  wszystkich  obiektów  wzorcowych  (średnich)  i  wybierana  jest
najmniejsza z nich.
Podstawowe  zalety  algorytmu  NM  w  stosunku  do  k-NN  to  mniejsza  ilość  obliczeń  oraz
brak  konieczności  pamiętania  wszystkich  obiektów  ciągu  uczącego.  Do  wad  naleŜy
zaliczyć  niepoprawne  działanie  algorytmu  w  przypadku  rozkładów  wielomodalnych  lub
opisanych  funkcjami  o  kształtach  odmiennych  od  gaussowskich.  Wówczas  obliczona
ś

rednia moŜe leŜeć z dala od obszaru zajmowanego przez obiekty treningowe.

Algorytm kwantyzacji wektorowej (VQ - ang. Vector Quantization)
W  tej  technice  klasa  jest  reprezentowana  przez  zbiór  kilku  (lub  więcej,  zwykle  <  100)
wektorów, zwanych kodowymi, które moŜliwie najdokładniej odzwierciedlają cechy całej
klasy (wielomodalność i rozmieszczenie w przestrzeni parametrów). Zbiór ten tworzy tzw.
ksiąŜkę  kodową.  Podobnie  jak  dla  metody  NN,  w  trakcie  rozpoznawania  dla  kaŜdego
wektora  testowego  jest  znajdowany  jego  najbliŜszy  sąsiad  z  ksiąŜki  kodowej  i  jest
obliczana odległość pomiędzy nimi, która jest podstawą do podjęcia decyzji o rozpoznaniu.
ZłoŜoność  obliczeniowa  rozpoznawania  na  podstawie  kwantyzacji  wektorowej  jest
znacznie mniejsza w porównaniu z algorytmami NN i k-NN.
Problemem  jest  jednak  algorytm  tworzenia  ksiąŜki  kodowej  na  podstawie  sekwencji
treningowej.  Jedną  z  dróg  rozwiązania  tego  problemu  jest  zastosowanie  standardowych
algorytmów k-średnich lub LBG. Idea polega na znalezieniu takich wektorów kodowych,
które  minimalizują  błąd  kwantyzacji,  czyli  sumaryczną  odległość  pomiędzy  sekwencją
treningową a danym modelem.
Inną  metodą  prowadzącą  do  stworzenia  ksiąŜki  kodowej  jest  analiza  skupień  obiektów
danej klasy. Przy zastosowaniu metod klasteryzacji dla zbioru obiektów klasy wydzielane
są  skupienia.  Z  kaŜdego  znalezionego  skupienia  wyznaczany  jest  wzorzec  (centroid)
wpisywany  następnie  do  ksiąŜki  kodowej.  Algorytm  ten  nosi  takŜe  nazwę:  „najbliŜsze
skupienie” (NTuple - ang. Nearest Tuple).

Klasyfikator Support Vector Machine:
Jest  moŜliwy  do  zastosowania  w  przypadku  2  klas  (weryfikacja  typu:  „klasa-  klasa”  lub
„klasa-reszta”).
Składa się z 2 etapów:
1. nieliniowe przekształcenie hiperprzestrzeni
2. wyznaczenie hiperplaszczyzny dyskryminacyjnej (klasyfikacja metoda klasa-reszta lub
klasa-klasa)
Etap  1  ma  na  celu  zapewnienie  takiej  konfiguracji  parametrów,  aby  po  etapie  2
wyznaczona  hiperplaszczyzna  była  podstawa  do  optymalnego  systemu  decyzyjnego
(minimalne prawdopodobienstwo popełnienia bledu).
W  etapie  1  stosuje  sie  róŜne  funkcje  nieliniowe  (wielomianowa,  gaussowska  i  inne)
dobierając odpowiednio ich współczynniki (zagadnienie Lagrange'a) - to jest etap treningu
systemu, bo opiera sie na zgromadzonych danych.
Zastosowana funkcja nazywa się kernel.
Do  etapu  2  parametry  dochodzą  juŜ  przekształcone,  dając  moŜliwość  wyznaczenia
hiperpłaszczyzny  na  podstawie  wektora  wspierającego  (prostopadłego  do  tej
hiperpłaszczyzny,  opartego  na  obiektach  znajdujących  się  w  sąsiedztwie  regionu
granicznego).
Samo  rozpoznawanie  nieznanych  obiektów  to  przekształcenie  wg  kernela  i  nastepnie
określenie po której stronie hiperplaszczyzny ten nieznany obiekt się znajduje.

Podział systemów rozpoznawania mówców

1. podział ze względu na cel rozpoznawania

- weryfikacja mówcy – potwierdzenie deklarowanej przez mówcę toŜsamości

- identyfikacja mówcy – określenie, który z mówców się wypowiada, na podstawie

zbioru modeli odniesienia, przy załoŜeniu, Ŝe mówca ma swój model głosu w bazie danych

- autentyzacja mówcy – określenie, czy głos mówcy naleŜy do posiadanego zbioru

modeli

2. podział ze względu na zaleŜność od tekstu

- niezaleŜne od treści – skuteczne dla dowolnej wypowiedzi, wykorzystywane gdy nie

moŜna liczyć na współpracę mówcy

- zaleŜne od treści – skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy

moŜna  się  spodziewać,  Ŝe  mówca  wymówi  hasło,  numer  identyfikacyjny  lub
podpowiedziany przez system tekst

3. podział identyfikacji mówcy ze względu na charakter zbioru modeli mówców

- z zamkniętym zbiorem – kaŜdemu mówcy musi odpowiadać jakiś model

odniesienia, wybierany jest najbliŜszy spośród wszystkich modeli mówców

- z otwartym zbiorem – moŜliwe jest uznanie, Ŝe Ŝaden z modeli odniesienia nie jest

wystarczająco podobny do danej wypowiedzi, wybierany jest najbliŜszy spośród
wszystkich modeli, pod warunkiem, Ŝe jego podobieństwo przekracza określony próg