background image

Parametryzacja sygnału mowy 

 

DZIEDZINA CZASU: 

MoŜliwe są dwa podejścia: 

1.  Oparte  na  tzw.  makrostrukturze  sygnału  –  obliczenia  są  wykonywane  w  odcinkach 
czasowych po wstępnej segmentacji, uzyskane parametry to amplituda i szybkość zmian. 
2.  Oparte  na  tzw.  mikrostrukturze  sygnału,  czyli  przebiegu  czasowym,  analizującym 
przejścia sygnału mowy przez zero. Prowadzi to uzyskania dwóch rodzajów parametrów: 
gęstość  przejść  przez  zero  i  rozkład  interwałów  czasowych.  Analiza  przejść  przez  zero 
powstała  w  oparciu  o  spostrzeŜenie,  Ŝe  sygnał  mowy  zachowuje  zrozumiałość  w 
przypadku  dokonania  przekształcenia  na  falę  prostokątną  (mimo  duŜych  zniekształceń i 
utraty  jakości).  Zostaje  wówczas  zachowana  jedynie  informacja  o  momentach 
czasowych,  w  których  sygnał  przechodzi  przez  zero.  Odpowiada  to  kodowaniu 
jednobitowemu. 
Zaletą parametryzacji czasowej jest prostota i szybkość algorytmu. 
W  praktyce  okazało  się,  Ŝe  parametry  czasowe  nie  są  najlepsze  pod  względem 
skuteczności  rozpoznawania  mowy,  pomimo  stosowania  dodatkowych  zabiegów  na 
sygnale:  preemfaza  6dB/oktawę  (róŜniczkowanie),  preemfaza  12dB/oktawę  (dwukrotne 
róŜniczkowanie),  deemfaza  (całkowanie)  i  inne.  Lepsze  okazały  się  parametry 
częstotliwościowe. 
Gęstość  przejść  przez  zero  oznacza  się  parametrem 

ρ

0

,  po  zastosowaniu  preemfazy 

6dB/oktawę

 ρ

1

, zaś preemfazy 12dB/oktawę

 ρ

2

. Odpowiednio dla deemfazy i podwójnej 

deemfazy: 

ρ

−1

ρ

−2

 
Preemfaza  jest  to  proces  mający  na  celu  przeskalowanie  mocy  sygnału  tak,  by  róŜne 
częstotliwości  miały  podobny  poziom,  gdyŜ  oryginalnie  nie  jest  on  równomierny  dla 
sygnału mowy. 
 
Preemfaza  jest  skuteczna  dla  sygnału  mowy,  poniewaŜ  podbija  wysokie  częstotliwości 
(głoski  szumowe  mają  małe  amplitudy),  wskutek  tego  staje  się  bardziej  odporna  na 
zakłócenia. 

 
  

DZIEDZINA CZĘSTOTLIWOŚCI: 

 
Moment widmowy m-tego rzędu: 

 

gdzie: G(k) – wartość widma mocy dla k-tego pasma częstotliwości 

 f

k

 – częstotliwość środkowa k-tego pasma 

( )

( )

[ ]

=

=

0

k

m

k

f

k

G

m

M

background image

 
Moment unormowany m-tego rzędu: 

 

Moment unormowany centralny m-tego rzędu: 

 

 
 

Szczególne przypadki momentów widmowych: 

Moment rzędu zerowego, mający zastosowanie normalizujące, oznacza moc sygnału: 

 

 
Moment unormowany pierwszego rzędu jest uŜywany we wzorach do obliczeń momentów 
centralnych wyŜszych rzędów – ma interpretację środka cięŜkości widma: 

 

 
Moment unormowany centralny drugiego rzędu – ma interpretację kwadratu szerokości 
widma: 

 
Moment unormowany centralny trzeciego rzędu to niesymetria widma, inaczej skośność 
(ang. skewness): 

 

( )

( )

( )

0

M

m

M

m

M

u

=

( )

( )

( )

[

]

( )

=

=

0

0

1

k

m

u

k

uc

M

M

f

k

G

m

M

( )

( )

( )

=

=

0

0

1

k

k

u

M

f

k

G

M

( )

( )

( )

[

]

( )

=

=

0

2

0

1

2

k

u

k

uc

M

M

f

k

G

M

( )

( )

( )

[

]

( )

=

=

0

3

0

1

3

k

u

k

uc

M

M

f

k

G

M

( )

( )

=

=

0

0

k

k

G

M

background image

Parametr będący miarą płaskości widma (ang. flatness): 

inaczej: 

gdzie:   x

j

 – j-ta obserwacja spośród N dostępnych obserwacji 

 

x – średnia arytmetyczna dla wszystkich N obserwacji 

 

σσσσ

x

 – odchylenie standardowe liczone na podstawie obserwacji estymator   

nieobciąŜony: 

(

)

=

=

N

j

j

x

x

x

N

1

2

1

1

σ

 

 
Inny parametr słuŜący jako miara płaskości widma (ang. spectral flatness measure) do 
stosunek średniej geometrycznej do średniej arytmetycznej widma mocy:

 

 

gdzie:

 



N

k

j

e

P

π

2

 

to widmowa gęstość mocy 

 

obliczona za pomocą N-punktowej transformacji Fouriera.    
 
Momenty widmowe mogą być takŜe liczone dla fragmentów widma, zakresy sumowania w 
powyŜszych wzorach muszą wówczas zostać zmienione z <0, ∞> na <f

d

, f

g

>, gdzie: f

d

 i f

g

 

to  punkty  widma  odpowiadające  częstotliwości  dolnej  i  górnej.  Przykładowo  pierwszy 
moment  znormalizowany  (środek  cięŜkości  widma)  liczony  w  zakresie pomiędzy  dwoma 
kolejnymi  minimami  obwiedni  widma  moŜe  być  interpretowany  jako  częstotliwość 
formantu znajdującego się w tym paśmie częstotliwości. 

( )

( )

[

]

2

2

4

uc

uc

M

M

kurtosis

=

(

)

=

=

N

j

x

j

x

x

N

kurtosis

1

4

4

1

σ









=

=

=

2

/

1

2

2

/

1

2

/

1

2

2

/

1

log

10

N

k

N

k

j

N

N

k

N

k

j

e

P

N

e

P

SFM

π

π

background image

Analiza cepstralna (homomorficzna) 

 

Widmo wygładzone cepstralnie – jest to postać widma amplitudowego wygładzonego po 
odfiltrowaniu  z  cepstrum  części  pobudzeniowej.  Z  fragmentu  cepstrum  (zawierającego 
tylko część dotyczącą traktu głosowego) moŜna wyekstrahować parametry niosące waŜne 
informacje o trakcie głosowym. 
 
W  oparciu  o  obliczone  widmo  mocy  (lub  jego  fragment)  moŜna  dokonać  analizy 
cepstralnej, która prowadzi do uzyskania współczynników cepstralnych, z których niskie 
to  parametry  obwiedni  widma,  natomiast  wyŜsze  mogą  nieść  informację  o  tonie 
krtaniowym  o  ile  w  wykresie  cepstrum  występuje  wyraźne  maksimum  (to  tylko  dla 
fonemów dŜwięcznych). W tym przypadku parametry cepstralne to wektor składający się 
z  niskich  współczynników  opisujących  obwiednię  widma,  natomiast  wyŜsze 
współczynniki  mogą  słuŜyć  jedynie  do  ekstracji  tonu  krtaniowego  (tzn.  określenia  czy 
istnieje oraz estymacji jego częstotliwości). 
 
Na podstawie niskich współczynników cepstralnych moŜna uzyskać widmo wygładzone 
cepstralnie, przy czym liczba tych współczynników to rząd wygładzania cepstralnego.  
 
Stosując wygładzanie cepstralne moŜna uzyskać parametry formantowe (częstotliwości i 
poziomy) jako współrzędne lokalnych maksimów widma wygładzonego cepstralnie. 
 
Logarytm widma wygładzonego cepstralnie (transformacja kosinusowa): 

 
Spośród innych metod prowadzących do parametrów formantowych to klasyczna analiza 
przy  pomocy  filtrów  o  stałej  dobroci  oraz  w  dziedzinie  cyfrowej  analiza  LPC,  na 
podstawie analizy maksimów, przy odpowiednim ustaleniu rzędu analizy. 

 
 
 

( )

=

=

K

k

k

N

k

n

C

n

Y

0

cos

π