Parametryzacja sygnału mowy

DZIEDZINA CZASU:

MoŜliwe są dwa podejścia:

1. Oparte na tzw. makrostrukturze sygnału – obliczenia są wykonywane w odcinkach czasowych po wstępnej segmentacji, uzyskane parametry to amplituda i szybkość zmian.

2. Oparte na tzw. mikrostrukturze sygnału, czyli przebiegu czasowym, analizującym przejścia sygnału mowy przez zero. Prowadzi to uzyskania dwóch rodzajów parametrów: gęstość przejść przez zero i rozkład interwałów czasowych. Analiza przejść przez zero powstała w oparciu o spostrzeŜenie, Ŝe sygnał mowy zachowuje zrozumiałość w przypadku dokonania przekształcenia na falę prostokątną (mimo duŜych zniekształceń i utraty jakości). Zostaje wówczas zachowana jedynie informacja o momentach czasowych, w których sygnał przechodzi przez zero. Odpowiada to kodowaniu jednobitowemu.

Zaletą parametryzacji czasowej jest prostota i szybkość algorytmu.

W praktyce okazało się, Ŝe parametry czasowe nie są najlepsze pod względem skuteczności rozpoznawania mowy, pomimo stosowania dodatkowych zabiegów na sygnale: preemfaza 6dB/oktawę (róŜniczkowanie), preemfaza 12dB/oktawę (dwukrotne róŜniczkowanie), deemfaza (całkowanie) i inne. Lepsze okazały się parametry częstotliwościowe.

Gęstość przejść przez zero oznacza się parametrem ρ0, po zastosowaniu preemfazy 6dB/oktawę ρ1, zaś preemfazy 12dB/oktawę ρ2. Odpowiednio dla deemfazy i podwójnej deemfazy: ρ−1i ρ−2.

Preemfaza jest to proces mający na celu przeskalowanie mocy sygnału tak, by róŜne częstotliwości miały podobny poziom, gdyŜ oryginalnie nie jest on równomierny dla sygnału mowy.

Preemfaza jest skuteczna dla sygnału mowy, poniewaŜ podbija wysokie częstotliwości (głoski szumowe mają małe amplitudy), wskutek tego staje się bardziej odporna na zakłócenia.

DZIEDZINA CZĘSTOTLIWOŚCI:

Moment widmowy m-tego rzędu:

M ( m)

∞

= ∑ G( k) ⋅[ f ] m

k

k =0

gdzie: G(k) – wartość widma mocy dla k-tego pasma częstotliwości fk – częstotliwość środkowa k-tego pasma

Moment unormowany m-tego rzędu:

M

=

u ( m)

M ( m)

M (0)

Moment unormowany centralny m-tego rzędu:

m

G k

f

M

M

m

uc (

) ∞ ( ) ⋅[ k − u( )1]

= ∑

M

k =

0

0

( )

Szczególne przypadki momentów widmowych:

Moment rzędu zerowego, mający zastosowanie normalizujące, oznacza moc sygnału: M (0)

∞

= ∑ G( k)

k =0

Moment unormowany pierwszego rzędu jest uŜywany we wzorach do obliczeń momentów centralnych wyŜszych rzędów – ma interpretację środka cięŜkości widma: M ( )

∞ G( k) f

1

∑

⋅

=

k

u

M

k =

0

0

( )

Moment unormowany centralny drugiego rzędu – ma interpretację kwadratu szerokości widma:

2

G k

f

M

M uc (2)

∞

( ) ⋅[ k − u( )1]

= ∑

M

k =

0

0

( )

Moment unormowany centralny trzeciego rzędu to niesymetria widma, inaczej skośność (ang. skewness):

3

G k

f

M

M uc ( )

∞

( ) ⋅[ k − u( )1]

3 = ∑

M

k =

0

0

( )

Parametr będący miarą płaskości widma (ang. flatness): M uc (4)

kurtosis = [ Muc( )]2

2

inaczej:

4

N

1

( x x

j −

)

kurtosis =

∑

N

4

σ

j =1

x

gdzie: xj – j-ta obserwacja spośród N dostępnych obserwacji

x – średnia arytmetyczna dla wszystkich N obserwacji σ x – odchylenie standardowe liczone na podstawie obserwacji estymator nieobciąŜony:

N

1

σ

x

x 2

x =

⋅ ∑( j − )

N − 1

j =1

Inny parametr słuŜący jako miara płaskości widma (ang. spectral flatness measure) do stosunek średniej geometrycznej do średniej arytmetycznej widma mocy:



1

2 k

π

N / 2 

 N /2  j







N







P e



∏ 



  k=1 





SFM = 10 ⋅ log



π



N / 2

 2 k

j



1





N



∑



⋅

P e

 

 N / 2 k=1 

 







2π k

j



gdzie:



N



P e

 to widmowa gęstość mocy





obliczona za pomocą N-punktowej transformacji Fouriera.

Momenty widmowe mogą być takŜe liczone dla fragmentów widma, zakresy sumowania w powyŜszych wzorach muszą wówczas zostać zmienione z <0, ∞> na <fd, fg>, gdzie: fd i fg to punkty widma odpowiadające częstotliwości dolnej i górnej. Przykładowo pierwszy moment znormalizowany (środek cięŜkości widma) liczony w zakresie pomiędzy dwoma kolejnymi minimami obwiedni widma moŜe być interpretowany jako częstotliwość formantu znajdującego się w tym paśmie częstotliwości.

Analiza cepstralna (homomorficzna) Widmo wygładzone cepstralnie – jest to postać widma amplitudowego wygładzonego po odfiltrowaniu z cepstrum części pobudzeniowej. Z fragmentu cepstrum (zawierającego tylko część dotyczącą traktu głosowego) moŜna wyekstrahować parametry niosące waŜne informacje o trakcie głosowym.

W oparciu o obliczone widmo mocy (lub jego fragment) moŜna dokonać analizy cepstralnej, która prowadzi do uzyskania współczynników cepstralnych, z których niskie to parametry obwiedni widma, natomiast wyŜsze mogą nieść informację o tonie krtaniowym o ile w wykresie cepstrum występuje wyraźne maksimum (to tylko dla fonemów dŜwięcznych). W tym przypadku parametry cepstralne to wektor składający się z niskich współczynników opisujących obwiednię widma, natomiast wyŜsze współczynniki mogą słuŜyć jedynie do ekstracji tonu krtaniowego (tzn. określenia czy istnieje oraz estymacji jego częstotliwości).

Na podstawie niskich współczynników cepstralnych moŜna uzyskać widmo wygładzone cepstralnie, przy czym liczba tych współczynników to rząd wygładzania cepstralnego.

Stosując wygładzanie cepstralne moŜna uzyskać parametry formantowe (częstotliwości i poziomy) jako współrzędne lokalnych maksimów widma wygładzonego cepstralnie.

Logarytm widma wygładzonego cepstralnie (transformacja kosinusowa): π

Y ( n)

K

= ∑

 n ⋅ k ⋅ 

C

cos

k ⋅





0

N

k =





Spośród innych metod prowadzących do parametrów formantowych to klasyczna analiza przy pomocy filtrów o stałej dobroci oraz w dziedzinie cyfrowej analiza LPC, na podstawie analizy maksimów, przy odpowiednim ustaleniu rzędu analizy.