background image

Podstawy automatycznego rozpoznawania mowy 

 

Podstawy segmentacji sygnału mowy: 
 

1. alfabet bazowy - dla mowy polskiej 37 fonemów 
2. segmenty fonetyczne 
 

 - odcinki o jednorodnej strukturze fonetycznej decydującej o 

przynaleŜności do określonego fonemu  
3. segmentacja stała 
 

- odcinki o stałej długości - kwazistacjonarne 

 

- "implicit segmentation" - mikrofonemy 

4. segmentacja zmienna 
 

- segmenty zdefiniowane przez transkrypcję fonetyczną 

 

- "explicit segmentation" - dłuŜsze niŜ poprzednio 

5. rodzaje segmentów dla sygnału mowy: 
stacjonarne, transjentowe, krótkie, pauza. 
6. granice segmentów: 
 

dźwięcznych - płynne przejścia formantów 

 

dźwięczny i bezdźwięczny  - połączenie struktur formantowych i 

szumowych  
 

fonem i cisza - niepełna realizacja struktury widmowej 

 
Wymagania:

    

 
- algorytm segmentacji powinien generować funkcję czasu, na podstawie której 
moŜna oznaczyć granice segmentów  
- wybór metod parametryzacji 
- kryteria podziału i wybór desygnatów znaczeniowych 
 

Fonetyczna funkcja mowy : 

Fonetyczna  funkcja  mowy  jest  funkcją  czasu,  na  podstawie  której  moŜna 
wyznaczyć granice segmentów: 

 

gdzie: R(t,p) – wektor parametrów w oknie czasowym (t, t+

t)

 

t – długość okna czasowego, 

 

a

p

 – waga p-tego parametru, 

 

P – liczba parametrów, 

 

τ

 – przesunięcie czasowe, krok analizy . 

( )

(

)

( )

=

+

=

P

p

p

p

t

R

p

t

R

P

t

P

1

2

,

,

ln

1

τ

α

background image

 

Porównanie wyników analizy sonograficznej z wynikami segmentacji 

dla róŜnych długości P wektora parametrów 

 

Analiza  jest  wykonywana  na  odcinku  czasowym  o  długości  około  40ms,  czyli  obejmuje 
pojedyncze  mikrofonemy.  Odbywa  się  porównanie  pomiędzy  kolejnymi  mikrofonemami  w 
oparciu  o  obrany  system  parametrów,  małe  róŜnice  wskazują  na  to,  Ŝe  oba  mikrofonemy 
wchodzą  w  skład  tego  samego  fonemu,  duźe  róŜnice  wskazują  na  zmianę  sygnału,  czyli  na 
granicę między fonemami. 

 
Funkcje bloku segmentacji fonematycznej:

    

- parametryzacja (dla mikrofonemów) 
- obliczenie fonetycznej funkcji mowy 
- detekcja granic segmentów (na podstawie maksimów ffm
 

Problemy: 

-  nie  kaŜde  lokalne  maksimum  jest  granicą  segmentu  (stosuje  się  filtry 

wygładzające, algorytmy eksperckie, itp.), 

-  dobór  wag  dla  poszczególnych  parametrów,

  - dobór systemu parametryzacyjnego 

 

Fonetyczna funkcja mowy dla P=1

-0,5

0

0,5

1

1,5

2

2,5

3

1

5

9

1

3

1

7

2

1

2

5

2

9

3

3

3

7

4

1

4

5

Fonetyczna funkcja mowy dla P=2

-1

0

1

2

3

4

5

1

5

9

1

3

1

7

2

1

2

5

2

9

3

3

3

7

4

1

4

5

Fonetyczna funkcja mowy dla P=3

-1

0

1

2

3

4

5

1

5

9

1

3

1

7

2

1

2

5

2

9

3

3

3

7

4

1

4

5

background image

METRYKI STOSOWANE W PRZESTRZENI PARAMETRÓW: 

 

Przestrzeń metryczna to zbiór z wprowadzonym uogólnieniem pojęcia odległości 
dla jego elementów. 
 
Euklidesa: 

gdzie: 
x

p

 , y

p

 – wartość p-tego parametru dla porównywanych obiektów, 

P – liczba parametrów, 
 
Hamminga (uliczna): 

Charakteryzuje się prostotą obliczeń. 
 
Minkowskiego: 

Uwaga: 
szczególne przypadki metryki Minkowskiego to: metryka Euklidesa dla r=2 
i metryka Hamminga dla r=1 
 
Euklidesa znormalizowana: 

 

gdzie: S

P

 – odchylenie standardowe parametru p populacji referencyjnej (X lub Y

 

Potrzeba normalizacji metryk wynika z silnego wpływu róŜnic rzędów wartości poszczególnych 
składowych  wektora  cech  –  róŜne  typy  mogą  przyjmować  wartości  z  róŜnych  zakresów.  Za 
współczynnik  normalizujący  przyjmuje  się  zazwyczaj  odwrotność  wariancji  (kwadrat 
odchylenia  standardowego).  Ponadto  róŜne  parametry  mogą  reprezentować  róŜne  cechy 
fizyczne  opisywanych  obiektów,  obok  siebie  mogą  występować  parametry  o  róŜnych 
wymiarach fizycznych, których dodawanie nie ma sensu. Normalizacja powoduje, Ŝe składniki 
są bezwymiarowe.  

( )

(

)

=

=

P

p

p

p

y

x

y

x

D

1

2

,

( )

r

P

p

r

p

p

y

x

y

x

D

=

=

1

,

( )

=

=

P

p

p

p

y

x

y

x

D

1

,

( )

(

)

=

=

P

p

p

p

p

y

x

S

y

x

D

1

2

2

1

,

background image

Camberra: 

Jest to metryka samonormalizująca 
 
 
Czebyszewa

 
Mahalanobisa: 

 
gdzie: 

C

 – macierz kowariancji 

 

Metryka  Mahalanobisa  jest  związana  tzw.  regułą  optymalną.  Metryka  Mahalanobisa 
uwzględnia  stopień  skorelowania  pomiędzy  parametrami,  jeśli  zaś  parametry  są 
nieskorelowane  zamienia  się  w  zwykłą  waŜoną  metrykę  Euklidesa  (macierz 

C

  staje  się 

diagonalna). Przy obliczaniu odległości pomiędzy populacjami wymaga się, aby zachodziła 
równość ich macierzy kowariancji (test statystyczny Boxa). Przypadek jednowymiarowy dla 
tej  metryki  to  w  istocie  rzeczy  zmodyfikowana  statystyka  Behrensa-Fishera,  z  tym 
wyjątkiem, Ŝe nie jest wymagana równość odchyleń standardowych. 

 
 

FUNKCJE BLISKOŚCI: 

 
Kosinus kierunkowy: 

 
Tanimoto: 

 
 
 
 

( )

=

+

=

P

p

p

p

p

p

y

x

y

x

y

x

D

1

,

( )

p

p

p

y

x

y

x

D

=

max

,

( )

( )

( )

y

x

C

y

x

y

x

D

T

=

1

,

( )

y

x

y

x

y

x

B

T

=

,

( )

y

x

y

y

x

x

y

x

y

x

B

T

T

T

T

+

=

,

background image

Przykład jednowymiarowego optymalnego systemu dyskryminacji 
 
 

 

  

 

 

X

   

 

   

d

xy

 

 

   

Y

 

 
Przy 

wyrównanym 

prawdopodobieństwie 

apriorycznym 

wartość 

dyskryminacyjna d

xy

 powinna spełniać zaleŜność: 

 

(

) (

)

xy

xy

d

y

P

d

x

P

<

=

>

 

czyli: 

(

)

(

)

+



=



xy

xy

d

d

dx

x

dx

x

2

2

2

2

2

2

1

2

1

1

2

exp

2

1

2

exp

2

1

σ

µ

π

σ

σ

µ

π

σ

 

 
zatem wartość dyskryminacyjna: 

2

1

1

2

S

S

S

Y

S

X

d

xy

+

+

=

,  

 
zapewniająca regułę o najmniejszym prawdopodobieństwie popełnienia błędu, 
pod  warunkiem, Ŝe załoŜenie o kształtach funkcji gęstości prawdopodobieństwa 
(gaussowskie) są spełnione 

 
 
 
 
 

background image

 
 

 

Schemat ogólny przetwarzania sygnału mowy w procesie rozpoznawania 

 
 
 

 

 

 

Ilustracja liniowej normalizacji czasowej 

 
 

 

 

1

T(t

1

, t

2

,… t

N

R

(r

1

, r

2

,…
 r

M

background image

 

 

Porównanie obwiedni sygnału mowy dla czterech róŜnych wypowiedzi tego 

samego zdania ("zdzisiek patrzy na świecące liście") przez dwóch mówców. 

Pomimo zastosowania liniowej normalizacji czasowej widoczne są róŜnice 

zaleŜne od zmiennego tempa wypowiedzi. 

 

 
 
 

 

 

Ilustracja nieliniowej normalizacji czasowej (dynamic time warping) 

 

background image

Procedura dynamicznego dopasowania czasowego polega na segmentacji stałej i 
parametryzacji  mikrofonematycznej.  UmoŜliwia  dopasowanie  dwóch  róŜnych 
wypowiedzi  róŜniących  się  czasem  trwania  i  tempem  poszczególnych 
elementów.  Parametry  sygnału  referencyjnego  znajdują  się  w  bazie  danych  (m 
wektorów), zaś sygnału przeznaczonego do identyfikacji są obliczane na bieŜąco 
(n  wektorów).  Następnie  obliczane  są  odległości  pomiędzy  wszystkimi 
wektorami  parametrów  tworząc  tablicę  o  wymiarach  m

.

n.  Kolejnym  krokiem 

jest  znalezienie  drogi  łączącej  przeciwległe  naroŜniki  tej  tablicy  zgodnie  z 
zasadą mającą na celu minimalizację sumy odległości z napotykanych komórek 
tablicy. Tak obliczona suma nosi nazwę odległości skumulowanej. Warunkiem 
uzyskania  poprawnego  wyniku  jest  właściwe  zaznaczenie  początku  i  końca 
wypowiedzi.  Po  zastosowaniu  procedury  „time-warping”  wobec  wszystkich 
danych z bazy moŜna podjąć decyzję o klasyfikacji badanego sygnału. 
 
 

 

Tablica odległości pomiędzy wektorami parametrów dwóch wyrazów (oś y 

– referencyjny, oś x - rozpoznawany) w procedurze nieliniowej normalizacji 

czasowej (dynamic time warping). Liczby segmentów obu wyrazów nie są 

sobie równe (m=9, n=11). Lewy dolny naroŜnik odpowiada początkom 

wypowiedzi. Zaznaczona jest ścieŜka ustalająca sposób obliczania odległości 

skumulowanej.  

 
 
 
 
 
 
 
 
 
 
 
 

background image

Klasyfikatory parametryczne i nieparametryczne: 

 

Wynikiem  klasyfikacji  jest  prawdopodobieństwo  przynaleŜności  do  danej  klasy  (w 
pierwszym przypadku) albo wskazanie klasy (w drugim przypadku). 
W  pierwszym  przypadku  potrzebna  jest  znajomość  funkcji  (parametrów  statystycznych) 
gęstości  prawdopodobieństwa  dla  wartości  parametrów  obiektów  wchodzących  w  skład 
wszystkich klas, w drugim przypadku istnieje potrzeba stworzenia modelu (lub modeli) dla 
kaŜdej  klasy  na  podstawie  pewnej  liczby  przykładów  (obiektów)  tzw.  ciągu  uczącego 
(treningowego). 
Do klasyfikatory nieparametrycznych naleŜą  klasyfikatory minimalnoodległościowe, np.: 
NN, k-NN, NM, VQ. 
 
Algorytm „najbliŜszy sąsiad” (NN - ang. Nearest Neighbour) 
Podczas  procesu  uczenia  zapamiętywany  jest  cały  ciąg  uczący  (zbiór  odniesienia). 
Procedura  algorytmu  NN  oblicza  funkcję  podobieństwa  (w  sensie  ustalonej  miary 
odległości)  pomiędzy  wszystkimi  obiektami  ciągu  uczącego,  a  nieznanym  obiektem.  Po 
obliczeniu  wszystkich  wartości  odległości,  wyszukiwana  jest  najmniejsza  z  nich. 
Klasyfikator  podejmuje  decyzję  o  przydziale  nazwy,  kodu  lub  numeru  klasy,  do  której 
naleŜał obiekt ciągu uczącego, który okazał się najbliŜszy do obiektu rozpoznawanego. 
Zalety  algorytmu  NN  to:  skrajna  prostota,  brak  fazy  uczenia  (o  ile  pominie  się  selekcję 
cech),  moŜliwość  redukcji  zbioru  odniesienia  w  celu  przyspieszenia  klasyfikacji, 
zazwyczaj dość wysoka jakość klasyfikacji. 
Wady  algorytmu  NN:  wolna  klasyfikacja,  konieczność  przechowywania  całego  zbioru 
odniesienia w pamięci, duŜa wraŜliwość na zbędne cechy i na szum. 
 
Algorytm „k - najbliŜszych sąsiadów” (k–NN) 
Algorytm ten jest modyfikacją algorytmu NN. Pozwala on zmniejszyć wraŜliwość systemu 
rozpoznawania  w  stosunku  do  ciągu  uczącego.  Procedura  algorytmu  k-NN  dokonuje 
obliczeń  odległości  pomiędzy  obrazem  rozpoznawanym,  a  wszystkimi  obrazami  ciągu 
uczącego i porządkuje te odległości w kolejności rosnącej. Następnie rozpatrywanych jest 
k  pierwszych  wartości  odległości,  dla  których  określa  się,  ile  z  nich  odpowiada 
poszczególnym  klasom.  Klasyfikator  wybiera  tą  klasę,  która  najczęściej  pojawiała  się 
wśród k pierwszych odległości. Podkreślić naleŜy, Ŝe kolejność k najbliŜszych sąsiadów (w 
sensie ich odległości od próbki testowej) nie ma wpływu na wynik klasyfikacji. 
Zalety  algorytmu  k-NN:  prostota  koncepcji/implementacji  i  łatwość  wprowadzania 
modyfikacji,  moŜliwość  estymacji  błędu  na  etapie  uczenia  przy  pomocy  metody  minus 
jednego elementu (leave-one-out), w praktyce na ogół wysoka jakość klasyfikacji; 
stosunkowo szybkie uczenie (wybór k) i selekcja cech; 
Wady  algorytmu  k-NN:  wolna  klasyfikacja  (nieco  wolniejsza  niŜ  1-NN),  konieczność 
przechowywania  całego  zbioru  odniesienia  w  pamięci,  duŜa,  w  porównaniu  z  wieloma 
innych klasyfikatorami, wraŜliwość na zbędne cechy. 
Modyfikacje algorytmu k-NN: 

-  odmiana  waŜona  (ang.  weighted  k-NN),  w  której  waga  sąsiada  zadanej  próbki  q 

uzaleŜniona jest od jego odległości od q. 

background image

-  wprowadzenie  progu  k’  oznaczającego  minimalną  liczbę  sąsiadów  z  danej  klasy 

potrzebną do przypisania danej próbki do tej klasy. 

-  rozmyta  reguła  k-NN  (ang.  fuzzy  k-NN)  poszerza  przestrzeń  poszukiwań  poprzez 

zastąpienie „twardych” etykiet (ang. hard labels, crisp labels) próbek zbioru uczącego 
etykietami  rozmytymi  o  stopniach  przynaleŜności  do  poszczególnych  klas,  które  w 
pewnym sensie oddają charakter sąsiedztwa danej próbki. 

-  „k  dyplomatycznych  najbliŜszych  sąsiadów”  (k  Diplomatic  Nearest  Neighbors,  k-

DNN), reguła ta szuka k sąsiadów z kaŜdej klasy osobno, a następnie wybiera tę klasę, 
dla której średnia odległość opisanych sąsiadów do testowej próbki jest najmniejsza. 

 
 
 
 
 
 
 
 
 
 
 

 
 
 

 
 
 
 

Przykład obrazujący działanie algorytmu k-NN dla k=3. Nieznany obiekt q 

zostaje sklasyfikowany jako element klasy oznaczonej kółkami, gdyŜ 

spośród trzech najbliŜszych obiektów danych treningowych dwa pochodzą z 

tej klasy. NaleŜy zauwaŜyć, Ŝe dla k=1 decyzja będzie odmienna. 

 
 

Algorytm „najbliŜsza średnia” (NM - ang. Nearest Mean) 
W  algorytmie  NM  wzorcem  klasy  rozpoznawanych  obiektów  jest  wartość  średnia  lub 
modalna  (centroid).  Podobnie teŜ,  jak  w  algorytmie  NN,  obliczane są  odległości obiektu 
rozpoznawanego  od  wszystkich  obiektów  wzorcowych  (średnich)  i  wybierana  jest 
najmniejsza z nich. 
Podstawowe  zalety  algorytmu  NM  w  stosunku  do  k-NN  to  mniejsza  ilość  obliczeń  oraz 
brak  konieczności  pamiętania  wszystkich  obiektów  ciągu  uczącego.  Do  wad  naleŜy 
zaliczyć  niepoprawne  działanie  algorytmu  w  przypadku  rozkładów  wielomodalnych  lub 
opisanych  funkcjami  o  kształtach  odmiennych  od  gaussowskich.  Wówczas  obliczona 
ś

rednia moŜe leŜeć z dala od obszaru zajmowanego przez obiekty treningowe. 

 
 

background image

Algorytm kwantyzacji wektorowej (VQ - ang. Vector Quantization) 
W  tej  technice  klasa  jest  reprezentowana  przez  zbiór  kilku  (lub  więcej,  zwykle  <  100) 
wektorów, zwanych kodowymi, które moŜliwie najdokładniej odzwierciedlają cechy całej 
klasy (wielomodalność i rozmieszczenie w przestrzeni parametrów). Zbiór ten tworzy tzw. 
ksiąŜkę  kodową.  Podobnie  jak  dla  metody  NN,  w  trakcie  rozpoznawania  dla  kaŜdego 
wektora  testowego  jest  znajdowany  jego  najbliŜszy  sąsiad  z  ksiąŜki  kodowej  i  jest 
obliczana odległość pomiędzy nimi, która jest podstawą do podjęcia decyzji o rozpoznaniu. 
ZłoŜoność  obliczeniowa  rozpoznawania  na  podstawie  kwantyzacji  wektorowej  jest 
znacznie mniejsza w porównaniu z algorytmami NN i k-NN. 
Problemem  jest  jednak  algorytm  tworzenia  ksiąŜki  kodowej  na  podstawie  sekwencji 
treningowej.  Jedną  z  dróg  rozwiązania  tego  problemu  jest  zastosowanie  standardowych 
algorytmów k-średnich lub LBG. Idea polega na znalezieniu takich wektorów kodowych, 
które  minimalizują  błąd  kwantyzacji,  czyli  sumaryczną  odległość  pomiędzy  sekwencją 
treningową a danym modelem. 
Inną  metodą  prowadzącą  do  stworzenia  ksiąŜki  kodowej  jest  analiza  skupień  obiektów 
danej klasy. Przy zastosowaniu metod klasteryzacji dla zbioru obiektów klasy wydzielane 
są  skupienia.  Z  kaŜdego  znalezionego  skupienia  wyznaczany  jest  wzorzec  (centroid) 
wpisywany  następnie  do  ksiąŜki  kodowej.  Algorytm  ten  nosi  takŜe  nazwę:  „najbliŜsze 
skupienie” (NTuple - ang. Nearest Tuple). 
 
 
Klasyfikator Support Vector Machine: 
Jest  moŜliwy  do  zastosowania  w  przypadku  2  klas  (weryfikacja  typu:  „klasa-  klasa”  lub 
„klasa-reszta”). 
Składa się z 2 etapów: 
1. nieliniowe przekształcenie hiperprzestrzeni 
2. wyznaczenie hiperplaszczyzny dyskryminacyjnej (klasyfikacja metoda klasa-reszta lub 
klasa-klasa) 
Etap  1  ma  na  celu  zapewnienie  takiej  konfiguracji  parametrów,  aby  po  etapie  2 
wyznaczona  hiperplaszczyzna  była  podstawa  do  optymalnego  systemu  decyzyjnego 
(minimalne prawdopodobienstwo popełnienia bledu). 
W  etapie  1  stosuje  sie  róŜne  funkcje  nieliniowe  (wielomianowa,  gaussowska  i  inne) 
dobierając odpowiednio ich współczynniki (zagadnienie Lagrange'a) - to jest etap treningu 
systemu, bo opiera sie na zgromadzonych danych. 
Zastosowana funkcja nazywa się kernel. 
Do  etapu  2  parametry  dochodzą  juŜ  przekształcone,  dając  moŜliwość  wyznaczenia 
hiperpłaszczyzny  na  podstawie  wektora  wspierającego  (prostopadłego  do  tej 
hiperpłaszczyzny,  opartego  na  obiektach  znajdujących  się  w  sąsiedztwie  regionu 
granicznego). 
Samo  rozpoznawanie  nieznanych  obiektów  to  przekształcenie  wg  kernela  i  nastepnie 
określenie po której stronie hiperplaszczyzny ten nieznany obiekt się znajduje. 
 
 
 
 

background image

 
 
 
 
Podział systemów rozpoznawania mówców 
 
1. podział ze względu na cel rozpoznawania  
 

- weryfikacja mówcy – potwierdzenie deklarowanej przez mówcę toŜsamości 

 

-  identyfikacja  mówcy  –  określenie,  który  z  mówców  się  wypowiada,  na  podstawie 

zbioru modeli odniesienia, przy załoŜeniu, Ŝe mówca ma swój model głosu w bazie danych 
 

-  autentyzacja  mówcy  –  określenie,  czy  głos  mówcy  naleŜy  do  posiadanego  zbioru 

modeli  
 
2. podział ze względu na zaleŜność od tekstu  
 

- niezaleŜne od treści – skuteczne dla dowolnej wypowiedzi, wykorzystywane gdy nie 

moŜna liczyć na współpracę mówcy 
 

- zaleŜne od treści – skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy 

moŜna  się  spodziewać,  Ŝe  mówca  wymówi  hasło,  numer  identyfikacyjny  lub 
podpowiedziany przez system tekst  
 
3. podział identyfikacji mówcy ze względu na charakter zbioru modeli mówców  
 

-  z  zamkniętym  zbiorem  –  kaŜdemu  mówcy  musi  odpowiadać  jakiś  model 

odniesienia, wybierany jest najbliŜszy spośród wszystkich modeli mówców 
 

- z otwartym zbiorem – moŜliwe jest uznanie, Ŝe Ŝaden z modeli odniesienia nie jest 

wystarczająco  podobny  do  danej  wypowiedzi,  wybierany  jest  najbliŜszy  spośród 
wszystkich modeli, pod warunkiem, Ŝe jego podobieństwo przekracza określony próg