background image

Metody analizy sygnału mowy 

 

Poziomy analizy: 

- akustyczny – związany z wprowadzaniem sygnału do systemu (dobór pasma, 
zastosowanie preemfazy, system kodowania itp.), 
- parametryczny – ekstrakcja (wydzielanie) parametrów i redukcja informacji, 
co powinno prowadzić do równowaŜnego zapisu parametrycznego pod 
względem identyfikacyjnym, 
- strukturalny – podział sygnału na segmenty, które powinny podlegać 
rozpoznawaniu, 
- leksykalny – powinien prowadzić do syntezy rozpoznawanych elementów 
fonetycznych w całościowe elementy rozpoznania -  najczęściej wyrazy, 
- syntaktyczny – analiza gramatyczna wypowiedzi, 
- semantyczny – identyfikacja treści wypowiedzi i wydobycie jej „sensu” 
 
 

DZIEDZINA CZASU 

Funkcja autokorelacji r(i) sygnału x(i) moŜe być przedstawiona przy pomocy 
ogólnego równania: 

( ) (

)

( )

[ ]

(

)

[

]

+

=

+

=

+

=

+

+

=

1

2

1

2

1

)

(

N

q

q

i

N

q

q

i

N

q

q

i

m

i

x

i

x

m

i

x

i

x

m

r

 

lub inaczej funkcja autokorelacji to: 

( )

(

)(

)

(

) (

)

=

+

+

=

=

+

+

=

k

i

n

i

k

n

i

k

i

i

k

i

k

i

n

i

k

n

i

i

k

i

X

X

X

X

X

X

X

X

n

R

1

2

,

1

2

,

1

,

,

 

gdzie: 

+

=

=

i

k

i

j

j

i

k

X

k

X

1

,

 

 
Metoda  AMDF  (Average  Magnitude  Differential  Function),  nazywana 
równieŜ  metodą  filtru  grzebieniowego,  stanowi  modyfikację  metody 
autokorelacyjnej.  Metoda  ta  polega  na  badaniu  róŜnicy  pomiędzy  sygnałem,  a 
jego przesunięciem w dziedzinie czasu: 

( ) (

)

+

=

+

=

1

)

(

N

q

q

i

k

m

i

x

i

x

m

AMDF

 

background image

Wykładnik k moŜe przyjmować róŜne wartości, np. jeśli zostanie przyjęty jako 2 
to wzór ten będzie przypominać podobny wzór słuŜący do obliczenia błędu 
ś

redniokwadratowego. 

Obie te metody mogą słuŜyć do badania okresowości sygnału, w przypadku 
sygnału mowy do określenia dźwięczności danego fragmentu i ewentualnie 
estymacji częstotliwości tonu krtaniowego. 
 
Preemfaza 6 dB/oktawa jest równowaŜna operacji róŜniczkowania: 

( )

( )

[ ]

t

x

dt

d

t

x

p

=

 

lub dla sygnału skwantowanego w dziedzinie czasu: 

( ) (

) ( )

n

x

n

x

n

x

p

+

=

1

 

Preemfazę stosuje się w celu stłumienia niskich częstotliwości i 
wyeliminowania składowej stałej (np. podczas analizy przejść przez zero lub 
kodowania sygnału). 
 
 

DZIEDZINA CZĘSTOTLIWOŚCI 

Transformata Fouriera sygnału: 

gdzie:  f – częstotliwość, 
 

t – czas, 

  y(t) – funkcja czasu (sygnał), 
  T – długość przedziału całkowania; interpretacja wyników zaleŜy od charakteru 
sygnału i od doboru wartości przedziału całkowania (tutaj przyjęto <0,T>
lub w skrócie: 

 
Analiza homomorficzna jest uŜywana do tzw. rozplotu sygnału mowy 
(operacja odwrotna do splotu). Sygnał mowy jest splotem funkcji pobudzenia i 
odpowiedzi impulsowej kanału głosowego, stąd rozplot prowadzi do 
rozdzielenia obu tych przebiegów. 

 
 
 
 

( )

( )

dt

e

t

y

f

X

T

t

f

j

=

0

2

π

( )

( )

[ ]

t

y

F

f

X

=

background image

 

 

Postać kanoniczna systemu homomorficznego  

Układ D

*

[

.

] przekształca splot sygnałów w sumę (sygnał na wyjściu tego układu 

to cepstrum zespolone – cepstrum to anagram słowa spectrum), która w tym 
wypadku dla małych n oznacza współczynniki cepstralne opisujące trakt 
głosowy, a dla wyŜszych n wpółczynniki te opisują pobudzenie. 

Układ L[

.

] poprzez zastosowanie odpowiedniego okna prostokątnego dokonuje 

wyboru jednego lub drugiego składnika. 
Końcowy układ poprzez operację pozwala uzyskać odpowiednie przebiegi 
czasowe lub teŜ wcześniej ich widma (np. transmitancja traktu  głosowego – 
widmo wygładzone cepstralnie.) 
 
Cepstrum zespolone sygnału jest zdefiniowane jako: 

 
gdzie: T – dziedzina czasu dla cepstrum, 
 
Cepstrum mocy (transformacja Fouriera): 

 
Cepstrum mocy sygnału (transformacja kosinusowa): 

 
 

gdzie: X(n) – dyskretne widmo mocy 
 

 

n –numer prąŜka widma 

 

 

N–numer maksymalnego prąŜka widma analizowanego pasma 

częstotliwości, 
 

 

k–numer współczynnika cepstralnego 

 

Mel-cepstrum (współczynniki mel-cepstralne) to cepstrum w skali melowej 
(transformacja kosinusowa): 

( )

( )

(

)

[

]

f

X

F

T

X

ln

ˆ

=

( )

( )

[

]

f

X

F

T

X

ln

ˆ

=

( )

( )

[

]

(

)

=

=

1

0

5

.

0

cos

ln

ˆ

N

n

c

N

k

n

n

X

k

X

π

( )

( )

[

]

(

)

=

=

N

n

N

k

n

n

E

k

M

1

5

.

0

cos

ln

π

background image

 
Widmo wygładzone cepstralnie (transformacja kosinusowa): 

 

gdzie: K – rząd wygładzania, oznacza to zastosowanie w stosunku do cepstrum 
okna prostokątnego o wartościach: 1 dla k<=K i 0 dla k>K , odpowiedni dobór 
K zapewnia wyeliminowanie sygnału pobudzenia, czyli tony krtaniowego. 

 

KRÓTKOOKRESOWA ANALIZA FOURIEROWSKA 

Jest realizowana w oparciu o segmentację sygnału dając w wyniku serię widm i 
w przypadku zastosowania kroku analizy o odpowiedniej długości moŜliwość 
zaobserwowania ewolucji widma. Najczęściej taki wynik jest prezentowany 
przy pomocy spektrogramu, czyli wykresu czasowo-częstotliwosciowego. 

 

( )

( ) (

)

+∞

−∞

=

=

k

k

j

e

k

n

h

k

s

n

S

ω

ω

,

 

gdzie: s(n) – spróbkowany sygnał mowy 
 

 

h(n) – funkcja okna 

 

( ) ( )

[

]

( )

n

h

e

n

s

n

S

n

j

*

,

ω

ω

=

 

 
jest to realizacja analizy poprzez zestaw filtrów  
 
 

( )

( ) (

)

(

)

+∞

−∞

=

=

k

k

n

j

n

j

e

k

n

h

k

s

e

n

S

ω

ω

ω

,

 

 

( )

( ) ( )

[

]

{

}

n

j

n

j

e

n

h

k

s

e

n

S

ω

ω

ω

=

*

,

 

 
gdzie: 

( )

n

j

e

n

h

ω

   

- filtr środkowoprzepustowy o częstotliwości 

 

 

 

 

ś

rodkowej 

ω

 

( )

( )

=

=

K

k

c

c

N

k

n

k

X

n

X

0

cos

ˆ

π

background image

 

 

Przedstawienie krótkookresowej transformacji Fouriera 

 
 

ANALIZA LPC (linear predictive code) 

 

Ogólna  postać  transmitancji  wymiernej  opisującej  kanał  głosowy 

przedstawia się następująco: 

( )

=

=

+

=

p

k

k

k

q

l

l

l

z

a

z

b

G

z

H

1

1

1

1

  

gdzie: 
G  - wzmocnienie, 
b

l

 – współczynniki opisujące zera transmitancji, 

a

k

 – współczynniki opisujące bieguny transmitancji. 

 
Odpowiedź 

impulsowa 

oraz 

charakterystyka 

częstotliwościowa 

odpowiadające  tej  transmitancji  są  nieliniowymi  funkcjami  współczynników 
licznika i mianownika, zatem obliczenie tych parametrów polega na rozwiązaniu 
układu równań nieliniowych. 

Podejście  to  jest  ogólne  w  tym  sensie,  Ŝe  zakłada  jednoczesną  obecność 

zer  i  biegunów  w  rozpatrywanej  transmitancji.  Dla  często  przyjmuje  się  opis 
transmitancji  jako  zawierającej  wyłącznie  zera  (stopień  mianownika  p=0)  lub 
wyłącznie  bieguny  (stopień  licznika  q=0).  W  kaŜdym  z  tych  przypadków 
rozwiązanie  opiera  się  na  układzie  równań  liniowych.  Ten  drugi  przypadek 
(wyłącznie  bieguny)  jest  o  tyle  uzasadniony,  Ŝe  prowadzi  do  aproksymacji 
charakterystyki  kanału  głosowego  w  postaci  ukazującej  częstotliwości 
rezonansowe, czyli ujawniającej naturę formantową sygnału mowy.  

Równanie to w przypadku pominięcia zer upraszcza się do postaci: 

background image

( )

=

=

p

k

k

k

z

a

G

z

H

1

1

1

 

 

Odpowiedź  impulsowa  dla  powyŜszej  transmitancji  jest  opisana  przez 

równanie róŜnicowe: 

( )

( )

(

)

=

+

=

p

k

k

k

n

v

a

n

G

n

v

1

δ

  

Dla n>0 równanie upraszcza się do postaci: 

( )

(

)

=

=

p

k

k

k

n

v

a

n

v

1

  

Prawa strona powyŜszego równania to kombinacja liniowa p poprzednich 

wartości  odpowiedzi  impulsowej,  stąd  pochodzi  nazwa  predykcja  liniowa.  Ze 
względu na to, Ŝe model jest jedynie przybliŜeniem rzeczywistej sytuacji, moŜna 
jedynie zminimalizować błąd e(n) pomiędzy wartościami obserwowanymi v(n

a otrzymanymi z modelu 

( )

n

vˆ

( ) ( ) ( ) ( )

(

)

=

=

=

p

k

k

k

n

v

a

n

v

n

v

n

v

n

e

1

ˆ

 

 

Za  kryterium  słuŜącym  do  obliczenia  współczynników  predykcji  a

k

 

przyjmuje się minimum błędu średniokwadratowego:  

( )

( )

(

)

=

=

=

=

=

1

1

2

1

1

1

2

N

n

p

k

k

N

n

k

n

v

a

n

v

n

e

E

 

 

W  powyŜszym  wzorze  górna  granica  sumowania  N-1  oznacza  liczbę 

dostępnych próbek ciągu v(n). Obliczenie współczynników predykcji sprowadza 
się więc do rozwiązania układu p równań:  

0

=

i

a

E

ϑ

ϑ

 

 

gdzie i=1, 2 ...p. 

 

background image

Do rozwiązania powyŜszego układu równań stosowane są zazwyczaj dwie 
metody: autokowariancji lub częściej zalecana metoda autokorelacji. KaŜda z 
tych metod ma wady i zalety: pierwsza z nich jest dokładniejsza, ale moŜe 
prowadzić do niestabilnych rozwiązań. Druga natomiast zapewnia stabilność, 
czyli lokalizację rozwiązań wewnątrz jednostkowego okręgu na płaszczyźnie 
zespolonej. Ponadto współczynniki autokorelacji są elementami macierzy 
Toeplitza, co umoŜliwia zastosowanie szybkiego algorytmu iteracyjnego 
odwracania macierzy (algorytmy Levinsona, Robinsona i Durbina). Dodatkowo 
przy zastosowaniu algorytmu Durbina uzyskuje się tablicę współczynników 
odbicia, co stanowi nawiązanie do cylindrycznego modelu traktu głosowego 
zaproponowanego przez Markela-Graya.  
 

Metoda Durbina: 

 

 

gdzie: 
j=1…i-

 

przy czym: 
a

j

(i)

  dla j=1,2…, i – współczynniki predykcji układu i-tego rzędu, 

 
Zbiór równań rozwiązuje się rekurencyjnie dla i=1,2…, p, zaczynając 
od E

0

=R(0) 

Rozwiązanie końcowe: 
a

j

 = a

j

(p)

 

j=1,2…, 
k

j

 – współczynniki odbicia 

 

( )

(

) ( )

1

1

1

=

=

i

i

j

j

i

j

i

E

i

R

j

i

R

k

α

( )

i

i

i

k

a

=

( )

( )

( )

1

1

+

=

i

j

i

i

i

j

i

j

a

k

a

a

(

)

1

2

1

=

i

i

i

E

k

E