background image

SPIS MATERIAŁÓW POMOCNICZYCH: 
mat-am-1 

Podstawowe wiadomości na temat sygnału mowy i traktu głosowego 

mat-am-2 

Teoria wytwarzania dźwięków mowy. Formanty 

mat-am-3 

Modelowanie mechanizmów wytwarzania dźwięków mowy 

mat-am-4 

Perceptualne skale częstotliwości 

mat-am-5 

Metody analizy sygnału mowy 

mat-am-6 

Standardy 

µµµµ

-law i A-law 

mat-am-7 

Parametryzacja sygnału mowy 

mat-am-8 

Kompresja sygnału mowy 

mat-am-9 

Podstawy automatycznego rozpoznawania mowy.  

 

background image

Podstawowe wiadomości na temat sygnału mowy 

i traktu głosowego 

 

Artykulacja - praca organów mowy (wiązadeł głosowych, języka, jamy ustnej, i nosowej) 
potrzebna do wytworzenia dźwięków mowy. 
Fonem - minimalny segment dźwiękowy mowy, który moŜe odróŜniać znaczenie, lub inaczej 
klasa dźwięków mowy danego języka o róŜnicach wynikających wyłącznie z charakteru 
indywidualnej wymowy lub kontekstu. 
Alofon - wariant fonemu odróŜniający się od innego alofonu cechami fonetycznymi a nie 
funkcją. 
Diafon - przejście międzyfonemowe (inaczej difon, tranzem) 
Mikrofonem - jednostka sygnału mowy o stałej długości czasowej (ok. 20-40 ms). 
Formant - obszar koncentracji energii w widmie danego dźwięku mowy 
lub inaczej: taki zakres widma, którego obwiednia zawiera maksimum. 
Cechy dystynktywne - cechy pozwalające na rozróŜnienie. 
Ekstrakcja parametrów - procedura wydzielania z sygnału cech reprezentowanych przez 
wartości liczbowe (jest to element analizy sygnałów). 
Redundancja - nadmiarowość w odniesieniu do informacji. 
Logatomy - (ang. nonsense sylables) - sylaby słuŜące do badania wyrazistości mowy w 
testach odsłuchowych. 
MFCC - (skrót od ang. Mel Function Cepstral Coeficients) wektor współczynników mel-
cepstralnych - cepstrum obliczone na podstawie melowej skali częstotliwości. 
HMM - (skrót od ang. Hidden Markov Model) ukryty model Markowa uŜywany w 
algorytmach do rozpoznawania mowy. 
ANN - (skrót od ang. Artificial Neural Network) sztuczne sieci neuronowe – stosowane jako 
algorytmy konekcyjne do klasyfikacji. 
GMM - (skrót od ang. Gaussian Mixture Model) modelowanie rozkładów 
prawdopodobieństwa przy pomocy sumy rozkładów gaussowskich 
SVM - (skrót od ang. Support Vector Machine) algorytm maszyny wektorów wsparcia do 
klasyfikacji opartej na analizie regionu granicznego 
Wokodery
 - urządzenia słuŜące do ograniczania objętości informacyjnej sygnału mowy 
metodą ekstrakcji parametrów i następnie po przesłaniu parametrów przez kanał 
telekomunikacyjny dokonujące resyntezy tego sygnału. 
 

background image

 

 

Narządy mowy w przekroju 

 
 
 
 
 
 
 
Cechy mowy: 
semantyczne - związane z treścią wypowiedzi 
osobnicze - pozwalające rozpoznać osobę mówiącą 
emocjonalne - pozwalające rozpoznać emocje osoby mówiącej; takŜe stan zdrowia lub status 
społeczny 
prozodyczne - odnoszące się do akcentu, głośności, intonacji, długości dŜwięków i pauz 
 
ZłoŜoność analizy sygnału mowy: 
 - zakres dynamiki 
 - rozdzielczość częstotliwościowa i czasowa 
 - uwzględnienie czułości narządu słuchu 
 - moŜliwość uczenia się i dostosowywania do zmiennych warunków (np. efekt "coctail 
party") 
 

background image

Zakresy częstotliwości podstawowej tonu krtaniowego dla głosek dźwięcznych: 
bas 80-320 Hz 
baryton 100-400 Hz 
tenor 120-480 Hz 
alt 160-640 Hz 
mezzosopran 200-800 Hz 
sopran 240-960 Hz 
 
Analogie elektryczno-akustyczne: 

prąd <-> prędkość objętościowa U

U=v 

.

 
v
 - prędkość liniowa drgań cząstek środowiska 
A - pole powierzchni przekroju poprzecznego układu akustycznego 

 
definicja ogólna: 

impedancja akustyczna: 

Z

a

=p/U 

 
p
 - ciśnienie akustyczne 

 
W dziedzinie czasu sygnał mowy moŜna opisać jako splot: 

p(t)=e(t)*m(t) 

 
e(t)
 – sygnał pobudzenia 
m(t) – odpowiedź impulsowa układu biernych efektorów artykulacyjnych (traktu 

głosowego) 
 
W dziedzinie zespolonej (transformacja Laplace'a) sygnał mowy moŜna opisać: 

p(s)=E(s) 

M(s) 

 
E(s)
 - pobudzenie 
M(s) – transformata Laplace'a odpowiedzi impulsowej układu biernych efektorów 

artykulacyjnych (traktu głosowego) 

s=

σσσσ

+j

ω

ωω

ω

 - częstotliwość zespolona 

σσσσ

 - tlumienie, 

ω

ωω

ω

 - pulsacja 

 
na okręgu jednostkowym (transformacja Fouriera) 

p(j

ω

ωω

ω

)=E(j

ω

ωω

ω

.

 M(j

ω

ωω

ω

 
lub para równań: 
 

|p(f)|=|E(f)|*|M(f)|

 - amplitudowe 

 

φ[

φ[

φ[

φ[

p(f)]=

 φ[

 φ[

 φ[

 φ[

E(f)]+

 φ[

 φ[

 φ[

 φ[

M(f)]

 - fazowe 

 
zalezności fazowe jednak nie mają wpływu na percepcję mowy 

background image

 

Uproszczony schemat traktu głosowego w przekroju 

 

 

Wykres krzywych izofonicznych z zaznaczonym obszarem 

zajmowanym przez naturalny sygnał mowy 

 

background image

Cztery podstawowe grupy polskich fonemów: 
 

I. dźwięki o charakterze quasiperiodycznym: 

1) samogłoski sylabiczne (a, e, i, o, u, y) 
2) samogłoski niesylabiczne (j, ł) 
3) spółgłoski nosowe (m, n, ń, ą, ę) 
4) spółgłoski boczne (l) 

II. dźwięki o charakterze przebiegów nieperiodycznych - szumowych: 

1) spółgłoski bezdźwięczne trące (f, s, sz, ś, h) 
2) spółgłoski bezdźwięczne zwarto-trące (c, ć, cz) 

III. dźwięki o charakterze przebiegów nieperiodycznych - quasi-impulsowych: 

1) spółgłoski zwarte dźwięczne (b, d, g) 
2) spółgłoski zwarte bezdźwięczne (p, t, k) 

IV. dźwięki o charakterze przebiegów będących superpozycją quasiperiodycznych i nieperiodycznych: 

1) spółgłoski trące dźwięczne (w, z, Ŝ, ź) 
2) spółgłoski zwarto-trące dźwięczne dz, dŜ, dź) 

 
 

background image

Teoria wytwarzania dźwięków mowy 

 

 

Schemat zastępczy układu wytwarzania dźwięków mowy 

 

Formanty numeruje się: F1, F2, F3 itd., a odpowiadające im częstotliwości w Hz 
oznacza się jako F

1

, F

2

, F

3

 

 
Największe znaczenie mają dwie wnęki jamy ustnej wynikające z obecności 
języka (dwa formanty F1 i F2), 
inne wnęki - jama gardłowa, ustna i nosowa. 
 
Podstawowe załoŜenie teorii wytwarzania dźwięków mowy: 
NiezaleŜność rezonansowych właściwości i charakterystyk efektorów 
artykulacyjnych i źródła tonu krtaniowego 
 
Parametry formantowe zaleŜą zarówno od tonu krtaniowego jak i od 
właściwości rezonansowych organu mowy - traktu głosowego 
 
Wyznaczenie struktury formantowej widma sygnału mowy: 
uśrednianie kształtu jego obwiedni w przedziałach częstotliwości o szerokości 
250-300 Hz (w zakresie dolnym widma < 1500 Hz) oraz 500-700 Hz (w górnym 
zakresie >2500 Hz) – ogólnie: powinno to być realizowane przy pomocy filtracji 
zbliŜonej do przypadku zastosowania filtrów o stałej dobroci. 
 
struktura formantowa samogłosek w mowie ciągłej zaleŜy takŜe od fonemu 
poprzedzającego 
 
stała czasowa słuchu: narastanie 20-30 ms, zanikanie 100-200 ms 

 
 
 
 
 

background image

 

 

Mechanizm wytwarzania dźwięków mowy jako proces kształtowania 
widma tonu krtaniowego (impulsów krtaniowych) 
 

a) elektryczny układ zastępczy 

 

b) czwórnikowy układ zastępczy dla głosek nienosowych 

 

c) przebiegi czasowe 

 

d) charakterystyki częstotliwościowe, kolejno: tonu krtaniowego, 

traktu głosowego, sygnału wynikowego 
 
 
 
 
 
 
 
 
 
 

 

background image

 

 

 
Płaszczyzna  F

1

-F

2

  dla  polskich  samogłosek  (trójkąt  samogłosek).  Podane  są 

przykłady  dla  kilkunastu  wypowiedzi  oraz  obliczone  na  ich  podstawie  obszary 
klasyfikacji.  PosłuŜono  się  tutaj  metodyką  reguły  optymalnej:  załoŜenie  o 
gaussowskim  charakterze  rozkładów  prawdopodobieństwa  dla  częstotliwości 
formantowych  F

1

  i  F

2

  (rozkład  dwuwymiarowy).  Granice  obszarów  są 

dyskryminantami 

– 

liniami, 

których 

wartości 

funkcji 

gęstości 

prawdopodobieństwa  sąsiadujących  klas  samogłosek  są  sobie  równe.  Jest  to 
jedna z metod identyfikacji nieznanej samogłoski (klasyfikator parametryczny). 

background image

 

Przykładowe parametry formantowe: 
 
Fonem 

cz

ę

stotliwo

ś

ci [Hz]  poziomy wzgl

ę

dne [dB} 

 
  i   

210 2750 3500 4200 

  0  -15  -15  -27 

  e   

380 2640 3000 3600 

  0  -12  -16  -20 

  a   

780 1150 2700 3500 

  0   -7  -25  -25 

  y   

240 1550 2400 3300 

  0  -12  -20  -30 

  o   

400  730 2300 3200 

  0   -3  -30  -35 

  u   

270  615 2200 3150 

  0  -13  -40  -50 

  w   

600 1700 2900 4100 

 -9    0   -2  -10 

 sz   

 -  2300 2900 3600 

  -   -9   -8    0 

  h   

500 1700 2500 4200 

-12    0  -10  -17 

  z   

 -  1750 2950 4300 

  -   -6  -10    0 

 

 

 

 

Dendryt binarnych cech dystynktywnych fonemów polskich. Linia ciągła 

oznacza obecność cech podanej po lewej stronie rysunku, linia przerywana 

brak tej cechy. 

 
 
 
 

background image

Modelowanie mechanizmów wytwarzania dźwięków mowy 

 

TON KRTANIOWY (POBUDZENIE DLA GŁOSEK DŹWIĘCZNYCH) 

Jest często nazywany formantem F0 – jego częstotliwość w konsekwencji to parametr F

0,

 

powstaje jako wynik modulacji strumienia powietrza wypływającego z płuc przez wiązadła 
głosowe 

- wyniki modelowania  prowadzą do przybliŜenia wartości nachylenia obwiedni 

widma tonu krtaniowego jako –6...-12 dB/oktawę, 

- jako przybliŜenie przebiegu tonu krtaniowego często stosuje się przebieg 

piłokształtny, którego obwiednia widma (wszystkie składowe harmoniczne) ma nachylenie -6 
dB/oktawę/ 
 
Przyjmuje się, Ŝe ton krtaniowy to sygnał o częstotliwości podstawowej wynikającej z 
charakteru głosu mówcy (np. tenor - 120-480 Hz)  i o widmie składającym się z wszystkich 
składowych harmonicznych z obwiednią o nachyleniu od –6 do –12 dB/oktawę 
 
W praktyce widmo tonu krtaniowego nie jest idealnie monotoniczne 
 

POBUDZENIE SZUMOWE 

Szumy turbulencyjne - wtórny efekt działania strumienia powietrza 
fala udarowa (przy nagłym otworzeniu drogi przepływu) sama staje się Ŝródłem fal 
(spółgłoski zwarte) 

obwiednia widma - 6 dB/oktawę 

 

TRAKT GŁOSOWY 

Jest modelowany fizycznie jako układ fragmentów ściętych stoŜków lub układ walców. W 
tym pierwszym przypadku powstaje model tubowy, zachowujący ciągłość przekroju, w 
drugim model cylindryczny. Fakt, Ŝe ten drugi model jest łatwiejszy do analizy powoduje 
jego rozpowszechnienie do róŜnych symulacji: 
- rezonator Helmholtza (umoŜliwia modelowanie pojedynczego formantu) 
- podwójny rezonator Helmholtza (umoŜliwia modelowanie dwóch formantów) 
- modele złoŜone z kilku rur zakończonych płaską tarczą kołową (odgrodą) imitującą 
charakterystykę promieniowania ust jako nadajnika dźwięku 
- trójparametrowy model Fanta, uwzględniający rozkład biegunów i zer na płaszczyźnie 
zespolonej i podstawowe trzy parametry: miejsce artykulacji (miejsce największego 
przewęŜenia kanału), stopień tego przewęŜenia (powierzchnia przekroju) oraz kształt otworu 
wylotowego ust 
- model Markela-Graya 
 

 

Uproszczony model traktu głosowego (w ogólnym przypadku poszczególne 

elementy nie są równe) 

background image

 

Model traktu głosowego – fizyczny i cylindryczny 

 
 
 
 
 

 

 

Elementarny fragment modelu traktu głosowego (z lewej strony) i czwórnik 

elektryczny stosowany jako analogia elementarnego odcinka w 

modelowaniu elektrycznym (z prawej) 

 
 
 

 

 

Ogólna struktura modelu elektrycznego 

 

background image

Uproszczenia fizycznego modelu cylindrycznego: 

 

1. niezgodność kształtu przekroju poprzecznego (nie jest kolisty) 

 

2. brak płynności zmian przekroju 

 

3, nieuwzględnienie elastyczności – sztywności ścianek 
4, nieuwzględnienie strat propagacji dźwięku 

 
 

Model Markela-Graya

- kanał głosowy jest zamodelowany jako kaskadowe połączenie cylindrycznych rur o 
jednakowej długości 
- dźwięk rozchodzi się jako fala płaska, brak strat wewnętrznych i brak sprzęŜenia pomiędzy 
kanałem głosowym i głośnią 
 

 

Model konfiguracyjny kanału głosowego jako zbiór kaskadowo 

połączonych odcinków cylindrycznych o jednakowych długościach i 

zmieniającym się przekroju 

 
 
 
W tym modelu ciśnienie lub prędkość objętościową przedstawia się jako funkcję czasu i 
połoŜenia wzdłuŜ osi rury, zachowana jest ciągłość na granicy dwóch członów, co prowadzi 
do odbicia fal w tym miejscu. Związki pomiędzy tymi falami moŜna przedstawić w postaci 
grafu przepływowego: 
 

background image

 

 

Dwa człony rury akustycznej z zaznaczeniem fal prędkości bieŜącej i 

powrotnej (a) i graf przepływu sygnału dla prędkości objętościowej (b), 

µµµµ

m

 – współczynnik odbicia 

 
 
 
 

 

Liniowy graf przepływu sygnału opisujący zaleŜności pomiędzy falami 

prędkości bieŜącej i powrotnej w całym modelu Markela-Graya 

 

background image

 

 

 

Uproszczony model procesu artykulacji głosek szumowych 

 

background image

Perceptualne skale częstotliwości 

 

We wszystkich podanych poniŜej wzorach na nieliniowe skale częstotliwości 
symbol f  oznacza częstotliwość wyraŜoną w kHz 

 

Skala logarytmiczna (znana z akustyki muzycznej, odpowiada strojowi 
równomiernie temperowanemu): 

(

)

f

oktawa

=

64

log

2

 

 

ZaleŜność pomiędzy liniową skalą częstotliwości a skalą oktawową 

 
Cechy dźwięków obiektywne mają swoje odpowiedniki w subiektywnych, np.: 

- natęŜenie [dB SPL - sound pressure level] odpowiada głośności w fonach, 
- częstotliwość [Hz] ma swój odpowiednik jako wysokość w melach. 

ZaleŜności między nimi powstały w oparciu o wyniki tzw. pomiarów 
subiektywnych 

 

Skala melowa jest skalą dotyczącą wysokości tonu, czyli wraŜenia słuchowego 
pozwalającego na określenie połoŜenia tonu na skali częstotliwości. WraŜenie to 
zaleŜy jednak takŜe od natęŜenia dźwięku i dlatego w definicji przyjęto tę 
wartość jako 40dB odpowiadające ciśnieniu 2

.

10

-5

Pa. Skala melowa powstała w 

oparciu o tony proste - przebiegi sinusoidalne. 
Skala melowa została wyznaczona w doświadczeniu, w którym badano słuch 
ludzki. Osoba, której podawano dźwięk wzorcowy miała na jego podstawie 
zestroić drugi dźwięk tak, aby był dwa razy wyŜszy od wzorcowego. Skala 
melowa miała być zbliŜona do charakterystyki "stroju" słuchu ludzkiego.  

background image

Skala melowa wg Beranka (1000 meli = 1000 Hz): 

+

=

7

.

0

1

ln

1127

f

M

 

 ZaleŜność pomiędzy liniową skalą częstotliwości a skalą melową 

Beranka 

 
 

Skala melowa wg Boersmy & Weeninka: 

 

+

=

55

.

0

1

ln

550

f

M

 

 

 

Skala barkowa jest związana z pojęciem pasma krytycznego, wynikającego z 
badań nad percepcją głośności szumu wąskopasmowego (Zwicker) lub zjawisk 
maskowania tonu prostego przez taki szum (Schröder). 

Zwicker: badanie wąskopasmowego szumu białego o poziomie 60 dB i stałej 
częstotliwości środkowej pasma (np. 1000 Hz). Poszerzanie pasma nie 
powoduje zmian głośności dopóki jego szerokość nie osiągnie pewnej wartości 
odpowiadającej pasmu krytycznemu (lub grupa częstotliwościowa - określenie 
Zwickera) 

background image

Fletcher: badanie efektu maskowania tonu prostego przez wąskopasmowy biały 
szum. Ton prosty znajduje się w środku tego pasma i ma ustalony taki poziom, 
aby był na granicy słyszalności. Szerokość pasma krytycznego jest określana 
jako ta, powyŜej której nie obserwuje się efektu maskowania. 

Definicja American Standard Association: elementarne pasmo częstostliwości 
o szerokości 

f wydzielone z ciągłego widma szumu i zawierające w sobie moc 

akustyczną równowaŜną mocy akustycznej tonu prostego o częstotliwości f 
połoŜonej w środku tego pasma, przy czym rozpatrywany ton prosty ma taką 
intensywność, Ŝe zagłuszany przez szum o nieograniczonym widmie znajduje 
się na granicy słyszalności. 

Całe pasmo słyszenia zostało podzielone na 24 pasma krytyczne. MoŜliwe stało 
się określenie zaleŜności pomiędzy wysokością tonu w barkach a 
częstotliwością w hercach. 
 
Skala barkowa cechuje się większą nieliniowością od melowej. MoŜna 
podsumować, Ŝe obie skale są stworzone w celu odzwierciedlenia 
charakterystycznej cechy słuchu ludzkiego, czyli jego nieliniowości. 
 
Skala barkowa wg Zwickera

(

)





+

=

2

5

.

7

arctan

5

.

3

76

.

0

arctan

13

f

f

b

 

ZaleŜność pomiędzy liniową skalą częstotliwości a skalą barkową Zwickera 

 

background image

Skala barkowa wg Schrödera: 

=

65

.

0

arcsin

7

f

h

b

 

 

 

ZaleŜność pomiędzy liniową skalą częstotliwości a skalą barkową Schrödera 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

background image

Skala barkowa wg Hartmuta: 

53

.

0

96

.

1

1

81

.

26

+

=

f

b

 

 

 

ZaleŜność pomiędzy liniową skalą częstotliwości a skalą barkową Hartmuta 

 
 
 

Pasma  krytyczne  mowy:  wąskie  pasma  częstotliwości  sygnału  mowy,  które 
pod względem wywoływanego wraŜenia słuchowego mogą być traktowane jako 
pewne sygnały elementarne równowaŜne tonowi prostemu. 

 

f

0

 [Hz] 

200 

300 

500 

800 

1000  1500  2000  3000  5000  8000 

f [Hz] 

60 

60 

60 

70 

80 

100 

130 

200 

300 

600 

 

Znaczenie  kaŜdego  z  pasm  krytycznych  jest  jednakowe  w  przypadku 
zrozumiałości mowy. 

 
 
 

background image

 

Skala Königa (zakres 0 – 4000Hz): 

- 10 podpasm o stałej szerokości 100 Hz dla zakresu 0 – 1000Hz 
- 10 podpasm o zmiennej szerokości (logarytmicznie) dla zakresu 1000Hz - 
4000Hz (zmiana szerokości o czynnik 1.194)  
Wykres środkowy obrazuje zaleŜność energii od numeru podpasma Königa. 
Wykres dolny przedstawia taki układ wag, aby ilość energii w kaŜdym 
podpaśmie nie zaleŜała od jego szerokości. 

background image

Metody analizy sygnału mowy 

 

Poziomy analizy: 

- akustyczny – związany z wprowadzaniem sygnału do systemu (dobór pasma, 
zastosowanie preemfazy, system kodowania itp.), 
- parametryczny – ekstrakcja (wydzielanie) parametrów i redukcja informacji, 
co powinno prowadzić do równowaŜnego zapisu parametrycznego pod 
względem identyfikacyjnym, 
- strukturalny – podział sygnału na segmenty, które powinny podlegać 
rozpoznawaniu, 
- leksykalny – powinien prowadzić do syntezy rozpoznawanych elementów 
fonetycznych w całościowe elementy rozpoznania -  najczęściej wyrazy, 
- syntaktyczny – analiza gramatyczna wypowiedzi, 
- semantyczny – identyfikacja treści wypowiedzi i wydobycie jej „sensu” 
 
 

DZIEDZINA CZASU 

Funkcja autokorelacji r(i) sygnału x(i) moŜe być przedstawiona przy pomocy 
ogólnego równania: 

( ) (

)

( )

[ ]

(

)

[

]

+

=

+

=

+

=

+

+

=

1

2

1

2

1

)

(

N

q

q

i

N

q

q

i

N

q

q

i

m

i

x

i

x

m

i

x

i

x

m

r

 

lub inaczej funkcja autokorelacji to: 

( )

(

)(

)

(

) (

)

=

+

+

=

=

+

+

=

k

i

n

i

k

n

i

k

i

i

k

i

k

i

n

i

k

n

i

i

k

i

X

X

X

X

X

X

X

X

n

R

1

2

,

1

2

,

1

,

,

 

gdzie: 

+

=

=

i

k

i

j

j

i

k

X

k

X

1

,

 

 
Metoda  AMDF  (Average  Magnitude  Differential  Function),  nazywana 
równieŜ  metodą  filtru  grzebieniowego,  stanowi  modyfikację  metody 
autokorelacyjnej.  Metoda  ta  polega  na  badaniu  róŜnicy  pomiędzy  sygnałem,  a 
jego przesunięciem w dziedzinie czasu: 

( ) (

)

+

=

+

=

1

)

(

N

q

q

i

k

m

i

x

i

x

m

AMDF

 

background image

Wykładnik k moŜe przyjmować róŜne wartości, np. jeśli zostanie przyjęty jako 2 
to wzór ten będzie przypominać podobny wzór słuŜący do obliczenia błędu 
ś

redniokwadratowego. 

Obie te metody mogą słuŜyć do badania okresowości sygnału, w przypadku 
sygnału mowy do określenia dźwięczności danego fragmentu i ewentualnie 
estymacji częstotliwości tonu krtaniowego. 
 
Preemfaza 6 dB/oktawa jest równowaŜna operacji róŜniczkowania: 

( )

( )

[ ]

t

x

dt

d

t

x

p

=

 

lub dla sygnału skwantowanego w dziedzinie czasu: 

( ) (

) ( )

n

x

n

x

n

x

p

+

=

1

 

Preemfazę stosuje się w celu stłumienia niskich częstotliwości i 
wyeliminowania składowej stałej (np. podczas analizy przejść przez zero lub 
kodowania sygnału). 
 
 

DZIEDZINA CZĘSTOTLIWOŚCI 

Transformata Fouriera sygnału: 

gdzie:  f – częstotliwość, 
 

t – czas, 

  y(t) – funkcja czasu (sygnał), 
  T – długość przedziału całkowania; interpretacja wyników zaleŜy od charakteru 
sygnału i od doboru wartości przedziału całkowania (tutaj przyjęto <0,T>
lub w skrócie: 

 
Analiza homomorficzna jest uŜywana do tzw. rozplotu sygnału mowy 
(operacja odwrotna do splotu). Sygnał mowy jest splotem funkcji pobudzenia i 
odpowiedzi impulsowej kanału głosowego, stąd rozplot prowadzi do 
rozdzielenia obu tych przebiegów. 

 
 
 
 

( )

( )

dt

e

t

y

f

X

T

t

f

j

=

0

2

π

( )

( )

[ ]

t

y

F

f

X

=

background image

 

 

Postać kanoniczna systemu homomorficznego  

Układ D

*

[

.

] przekształca splot sygnałów w sumę (sygnał na wyjściu tego układu 

to cepstrum zespolone – cepstrum to anagram słowa spectrum), która w tym 
wypadku dla małych n oznacza współczynniki cepstralne opisujące trakt 
głosowy, a dla wyŜszych n wpółczynniki te opisują pobudzenie. 

Układ L[

.

] poprzez zastosowanie odpowiedniego okna prostokątnego dokonuje 

wyboru jednego lub drugiego składnika. 
Końcowy układ poprzez operację pozwala uzyskać odpowiednie przebiegi 
czasowe lub teŜ wcześniej ich widma (np. transmitancja traktu  głosowego – 
widmo wygładzone cepstralnie.) 
 
Cepstrum zespolone sygnału jest zdefiniowane jako: 

 
gdzie: T – dziedzina czasu dla cepstrum, 
 
Cepstrum mocy (transformacja Fouriera): 

 
Cepstrum mocy sygnału (transformacja kosinusowa): 

 
 

gdzie: X(n) – dyskretne widmo mocy 
 

 

n –numer prąŜka widma 

 

 

N–numer maksymalnego prąŜka widma analizowanego pasma 

częstotliwości, 
 

 

k–numer współczynnika cepstralnego 

 

Mel-cepstrum (współczynniki mel-cepstralne) to cepstrum w skali melowej 
(transformacja kosinusowa): 

( )

( )

(

)

[

]

f

X

F

T

X

ln

ˆ

=

( )

( )

[

]

f

X

F

T

X

ln

ˆ

=

( )

( )

[

]

(

)

=

=

1

0

5

.

0

cos

ln

ˆ

N

n

c

N

k

n

n

X

k

X

π

( )

( )

[

]

(

)

=

=

N

n

N

k

n

n

E

k

M

1

5

.

0

cos

ln

π

background image

 
Widmo wygładzone cepstralnie (transformacja kosinusowa): 

 

gdzie: K – rząd wygładzania, oznacza to zastosowanie w stosunku do cepstrum 
okna prostokątnego o wartościach: 1 dla k<=K i 0 dla k>K , odpowiedni dobór 
K zapewnia wyeliminowanie sygnału pobudzenia, czyli tony krtaniowego. 

 

KRÓTKOOKRESOWA ANALIZA FOURIEROWSKA 

Jest realizowana w oparciu o segmentację sygnału dając w wyniku serię widm i 
w przypadku zastosowania kroku analizy o odpowiedniej długości moŜliwość 
zaobserwowania ewolucji widma. Najczęściej taki wynik jest prezentowany 
przy pomocy spektrogramu, czyli wykresu czasowo-częstotliwosciowego. 

 

( )

( ) (

)

+∞

−∞

=

=

k

k

j

e

k

n

h

k

s

n

S

ω

ω

,

 

gdzie: s(n) – spróbkowany sygnał mowy 
 

 

h(n) – funkcja okna 

 

( ) ( )

[

]

( )

n

h

e

n

s

n

S

n

j

*

,

ω

ω

=

 

 
jest to realizacja analizy poprzez zestaw filtrów  
 
 

( )

( ) (

)

(

)

+∞

−∞

=

=

k

k

n

j

n

j

e

k

n

h

k

s

e

n

S

ω

ω

ω

,

 

 

( )

( ) ( )

[

]

{

}

n

j

n

j

e

n

h

k

s

e

n

S

ω

ω

ω

=

*

,

 

 
gdzie: 

( )

n

j

e

n

h

ω

   

- filtr środkowoprzepustowy o częstotliwości 

 

 

 

 

ś

rodkowej 

ω

 

( )

( )

=

=

K

k

c

c

N

k

n

k

X

n

X

0

cos

ˆ

π

background image

 

 

Przedstawienie krótkookresowej transformacji Fouriera 

 
 

ANALIZA LPC (linear predictive code) 

 

Ogólna  postać  transmitancji  wymiernej  opisującej  kanał  głosowy 

przedstawia się następująco: 

( )

=

=

+

=

p

k

k

k

q

l

l

l

z

a

z

b

G

z

H

1

1

1

1

  

gdzie: 
G  - wzmocnienie, 
b

l

 – współczynniki opisujące zera transmitancji, 

a

k

 – współczynniki opisujące bieguny transmitancji. 

 
Odpowiedź 

impulsowa 

oraz 

charakterystyka 

częstotliwościowa 

odpowiadające  tej  transmitancji  są  nieliniowymi  funkcjami  współczynników 
licznika i mianownika, zatem obliczenie tych parametrów polega na rozwiązaniu 
układu równań nieliniowych. 

Podejście  to  jest  ogólne  w  tym  sensie,  Ŝe  zakłada  jednoczesną  obecność 

zer  i  biegunów  w  rozpatrywanej  transmitancji.  Dla  często  przyjmuje  się  opis 
transmitancji  jako  zawierającej  wyłącznie  zera  (stopień  mianownika  p=0)  lub 
wyłącznie  bieguny  (stopień  licznika  q=0).  W  kaŜdym  z  tych  przypadków 
rozwiązanie  opiera  się  na  układzie  równań  liniowych.  Ten  drugi  przypadek 
(wyłącznie  bieguny)  jest  o  tyle  uzasadniony,  Ŝe  prowadzi  do  aproksymacji 
charakterystyki  kanału  głosowego  w  postaci  ukazującej  częstotliwości 
rezonansowe, czyli ujawniającej naturę formantową sygnału mowy.  

Równanie to w przypadku pominięcia zer upraszcza się do postaci: 

background image

( )

=

=

p

k

k

k

z

a

G

z

H

1

1

1

 

 

Odpowiedź  impulsowa  dla  powyŜszej  transmitancji  jest  opisana  przez 

równanie róŜnicowe: 

( )

( )

(

)

=

+

=

p

k

k

k

n

v

a

n

G

n

v

1

δ

  

Dla n>0 równanie upraszcza się do postaci: 

( )

(

)

=

=

p

k

k

k

n

v

a

n

v

1

  

Prawa strona powyŜszego równania to kombinacja liniowa p poprzednich 

wartości  odpowiedzi  impulsowej,  stąd  pochodzi  nazwa  predykcja  liniowa.  Ze 
względu na to, Ŝe model jest jedynie przybliŜeniem rzeczywistej sytuacji, moŜna 
jedynie zminimalizować błąd e(n) pomiędzy wartościami obserwowanymi v(n

a otrzymanymi z modelu 

( )

n

vˆ

( ) ( ) ( ) ( )

(

)

=

=

=

p

k

k

k

n

v

a

n

v

n

v

n

v

n

e

1

ˆ

 

 

Za  kryterium  słuŜącym  do  obliczenia  współczynników  predykcji  a

k

 

przyjmuje się minimum błędu średniokwadratowego:  

( )

( )

(

)

=

=

=

=

=

1

1

2

1

1

1

2

N

n

p

k

k

N

n

k

n

v

a

n

v

n

e

E

 

 

W  powyŜszym  wzorze  górna  granica  sumowania  N-1  oznacza  liczbę 

dostępnych próbek ciągu v(n). Obliczenie współczynników predykcji sprowadza 
się więc do rozwiązania układu p równań:  

0

=

i

a

E

ϑ

ϑ

 

 

gdzie i=1, 2 ...p. 

 

background image

Do rozwiązania powyŜszego układu równań stosowane są zazwyczaj dwie 
metody: autokowariancji lub częściej zalecana metoda autokorelacji. KaŜda z 
tych metod ma wady i zalety: pierwsza z nich jest dokładniejsza, ale moŜe 
prowadzić do niestabilnych rozwiązań. Druga natomiast zapewnia stabilność, 
czyli lokalizację rozwiązań wewnątrz jednostkowego okręgu na płaszczyźnie 
zespolonej. Ponadto współczynniki autokorelacji są elementami macierzy 
Toeplitza, co umoŜliwia zastosowanie szybkiego algorytmu iteracyjnego 
odwracania macierzy (algorytmy Levinsona, Robinsona i Durbina). Dodatkowo 
przy zastosowaniu algorytmu Durbina uzyskuje się tablicę współczynników 
odbicia, co stanowi nawiązanie do cylindrycznego modelu traktu głosowego 
zaproponowanego przez Markela-Graya.  
 

Metoda Durbina: 

 

 

gdzie: 
j=1…i-

 

przy czym: 
a

j

(i)

  dla j=1,2…, i – współczynniki predykcji układu i-tego rzędu, 

 
Zbiór równań rozwiązuje się rekurencyjnie dla i=1,2…, p, zaczynając 
od E

0

=R(0) 

Rozwiązanie końcowe: 
a

j

 = a

j

(p)

 

j=1,2…, 
k

j

 – współczynniki odbicia 

 

( )

(

) ( )

1

1

1

=

=

i

i

j

j

i

j

i

E

i

R

j

i

R

k

α

( )

i

i

i

k

a

=

( )

( )

( )

1

1

+

=

i

j

i

i

i

j

i

j

a

k

a

a

(

)

1

2

1

=

i

i

i

E

k

E

background image

Standardy 

µµµµ

-law i A-law 

 

Podstawą dla nieliniowej kwantyzacji jest 
prawo Webera-Fechnera
Minimalny dostrzegalny przyrost dowolnego bodźca 

p jest proporcjonalny do 

wartości tego bodźca, względem którego dokonuje się tego porównania: 

Występują jednak ograniczenia zakresu stosowalności prawa Webera-Fechnera - 
dotyczą  one  skrajnych  zakresów  skali:  dolnej  -  w  pobliŜu  progu  czułości  i 
górnej, gdzie występuje zjawisko nasycenia. 
Z prawa Webera-Fechnera wynika celowość stosowania skali logarytmicznej w 
celu  dokonania  kompresji  amplitudy  sygnalu  przed  jego  transmisją  lub 
przetwarzaniem.  Funkcję  realizującą  takie  przekształcenie  nazywa  się  funkcją 
kompresji. Oczywiście dla odtworzenia pierwotnego sygnału naleŜy zastosować 
funkcję do niej odwrotną. 
W  praktyce  stosowane  skale  są  zmodyfikowane  w  sposób  pozwalający  na 
uniknięcie obliczania logarytmu z zera.  
 
Nieliniowa kwantyzacja 

µµµµ

-law (amerykańska): 

 

 

 

 

 

 

Wykres zaleŜności pomiędzy skalą liniową a skalą 

µµµµ

-law 

( )

( )

(

)

(

)

1

1

1

ln

1

ln

sgn

+

+

=

x

dla

x

x

x

F

µ

µ

p

k

p

=

background image

Nieliniowa kwantyzacja A-law (europejska – Niemiecki Urząd Poczt): 

 
 
 

Wartości funkcji kompresji dla wybranych punktów skali nieliniowych: 

 

µµµµ

-law (

µµµµ

 = 247): 

0.5 

0.25 

0.125 

0.0625 

0.03125  0.015625 

F(x) 

0.87501  0.75074  0.62789  0.50777  0.39276  0.28674 

 
A-law (A = 87.7): 

0.5 

0.25 

0.125 

0.0625 

0.03125  0.015625 

F(x) 

0.87337  0.74675  0.62012  0.49349  0.36686  0.24024 

 
skala logarytmiczna: 

0.5 

0.25 

0.125 

0.0625 

0.03125  0.015625 

F(x) 

0.875 

0.750 

0.625 

0.500 

0.375 

0.250 

 
 

Zastosowanie powyŜszych standardów pozwala na zwiększenie dynamiki 
sygnału o około 24dB, tzn. sygnał zakodowany na 8 bitach nieliniowu 
odpowiada sygnałowi o kwantyzacji liniowej 12 bitów.  
 
Standardy te są punktem odniesienia dla obliczeń stopnia kompresji sygnału 
mowy w przypadku wokoderów (czyli: częstotliwość próbkowania = 8kHz, 
liczba bitów na próbkę = 8, co oznacza szybkość transmisji 64 kilobity/sek.). 
Przykładowo dla wartości kompresji dźwięku 1:10 szybkość transmisji wynosi 
6,4 kb/sek.

 

 

( )

( )

(

)

( )

A

x

A

dla

A

x

A

x

x

F

1

1

ln

1

ln

1

sgn

+

+

=

( )

( )

( )

A

x

oraz

x

A

dla

A

x

A

x

x

F

1

1

1

1

ln

1

sgn

+

=

background image

Parametryzacja sygnału mowy 

 

DZIEDZINA CZASU: 

MoŜliwe są dwa podejścia: 

1.  Oparte  na  tzw.  makrostrukturze  sygnału  –  obliczenia  są  wykonywane  w  odcinkach 
czasowych po wstępnej segmentacji, uzyskane parametry to amplituda i szybkość zmian. 
2.  Oparte  na  tzw.  mikrostrukturze  sygnału,  czyli  przebiegu  czasowym,  analizującym 
przejścia sygnału mowy przez zero. Prowadzi to uzyskania dwóch rodzajów parametrów: 
gęstość  przejść  przez  zero  i  rozkład  interwałów  czasowych.  Analiza  przejść  przez  zero 
powstała  w  oparciu  o  spostrzeŜenie,  Ŝe  sygnał  mowy  zachowuje  zrozumiałość  w 
przypadku  dokonania  przekształcenia  na  falę  prostokątną  (mimo  duŜych  zniekształceń i 
utraty  jakości).  Zostaje  wówczas  zachowana  jedynie  informacja  o  momentach 
czasowych,  w  których  sygnał  przechodzi  przez  zero.  Odpowiada  to  kodowaniu 
jednobitowemu. 
Zaletą parametryzacji czasowej jest prostota i szybkość algorytmu. 
W  praktyce  okazało  się,  Ŝe  parametry  czasowe  nie  są  najlepsze  pod  względem 
skuteczności  rozpoznawania  mowy,  pomimo  stosowania  dodatkowych  zabiegów  na 
sygnale:  preemfaza  6dB/oktawę  (róŜniczkowanie),  preemfaza  12dB/oktawę  (dwukrotne 
róŜniczkowanie),  deemfaza  (całkowanie)  i  inne.  Lepsze  okazały  się  parametry 
częstotliwościowe. 
Gęstość  przejść  przez  zero  oznacza  się  parametrem 

ρ

0

,  po  zastosowaniu  preemfazy 

6dB/oktawę

 ρ

1

, zaś preemfazy 12dB/oktawę

 ρ

2

. Odpowiednio dla deemfazy i podwójnej 

deemfazy: 

ρ

−1

ρ

−2

 
Preemfaza  jest  to  proces  mający  na  celu  przeskalowanie  mocy  sygnału  tak,  by  róŜne 
częstotliwości  miały  podobny  poziom,  gdyŜ  oryginalnie  nie  jest  on  równomierny  dla 
sygnału mowy. 
 
Preemfaza  jest  skuteczna  dla  sygnału  mowy,  poniewaŜ  podbija  wysokie  częstotliwości 
(głoski  szumowe  mają  małe  amplitudy),  wskutek  tego  staje  się  bardziej  odporna  na 
zakłócenia. 

 
  

DZIEDZINA CZĘSTOTLIWOŚCI: 

 
Moment widmowy m-tego rzędu: 

 

gdzie: G(k) – wartość widma mocy dla k-tego pasma częstotliwości 

 f

k

 – częstotliwość środkowa k-tego pasma 

( )

( )

[ ]

=

=

0

k

m

k

f

k

G

m

M

background image

 
Moment unormowany m-tego rzędu: 

 

Moment unormowany centralny m-tego rzędu: 

 

 
 

Szczególne przypadki momentów widmowych: 

Moment rzędu zerowego, mający zastosowanie normalizujące, oznacza moc sygnału: 

 

 
Moment unormowany pierwszego rzędu jest uŜywany we wzorach do obliczeń momentów 
centralnych wyŜszych rzędów – ma interpretację środka cięŜkości widma: 

 

 
Moment unormowany centralny drugiego rzędu – ma interpretację kwadratu szerokości 
widma: 

 
Moment unormowany centralny trzeciego rzędu to niesymetria widma, inaczej skośność 
(ang. skewness): 

 

( )

( )

( )

0

M

m

M

m

M

u

=

( )

( )

( )

[

]

( )

=

=

0

0

1

k

m

u

k

uc

M

M

f

k

G

m

M

( )

( )

( )

=

=

0

0

1

k

k

u

M

f

k

G

M

( )

( )

( )

[

]

( )

=

=

0

2

0

1

2

k

u

k

uc

M

M

f

k

G

M

( )

( )

( )

[

]

( )

=

=

0

3

0

1

3

k

u

k

uc

M

M

f

k

G

M

( )

( )

=

=

0

0

k

k

G

M

background image

Parametr będący miarą płaskości widma (ang. flatness): 

inaczej: 

gdzie:   x

j

 – j-ta obserwacja spośród N dostępnych obserwacji 

 

x – średnia arytmetyczna dla wszystkich N obserwacji 

 

σσσσ

x

 – odchylenie standardowe liczone na podstawie obserwacji estymator   

nieobciąŜony: 

(

)

=

=

N

j

j

x

x

x

N

1

2

1

1

σ

 

 
Inny parametr słuŜący jako miara płaskości widma (ang. spectral flatness measure) do 
stosunek średniej geometrycznej do średniej arytmetycznej widma mocy:

 

 

gdzie:

 



N

k

j

e

P

π

2

 

to widmowa gęstość mocy 

 

obliczona za pomocą N-punktowej transformacji Fouriera.    
 
Momenty widmowe mogą być takŜe liczone dla fragmentów widma, zakresy sumowania w 
powyŜszych wzorach muszą wówczas zostać zmienione z <0, ∞> na <f

d

, f

g

>, gdzie: f

d

 i f

g

 

to  punkty  widma  odpowiadające  częstotliwości  dolnej  i  górnej.  Przykładowo  pierwszy 
moment  znormalizowany  (środek  cięŜkości  widma)  liczony  w  zakresie pomiędzy  dwoma 
kolejnymi  minimami  obwiedni  widma  moŜe  być  interpretowany  jako  częstotliwość 
formantu znajdującego się w tym paśmie częstotliwości. 

( )

( )

[

]

2

2

4

uc

uc

M

M

kurtosis

=

(

)

=

=

N

j

x

j

x

x

N

kurtosis

1

4

4

1

σ









=

=

=

2

/

1

2

2

/

1

2

/

1

2

2

/

1

log

10

N

k

N

k

j

N

N

k

N

k

j

e

P

N

e

P

SFM

π

π

background image

Analiza cepstralna (homomorficzna) 

 

Widmo wygładzone cepstralnie – jest to postać widma amplitudowego wygładzonego po 
odfiltrowaniu  z  cepstrum  części  pobudzeniowej.  Z  fragmentu  cepstrum  (zawierającego 
tylko część dotyczącą traktu głosowego) moŜna wyekstrahować parametry niosące waŜne 
informacje o trakcie głosowym. 
 
W  oparciu  o  obliczone  widmo  mocy  (lub  jego  fragment)  moŜna  dokonać  analizy 
cepstralnej, która prowadzi do uzyskania współczynników cepstralnych, z których niskie 
to  parametry  obwiedni  widma,  natomiast  wyŜsze  mogą  nieść  informację  o  tonie 
krtaniowym  o  ile  w  wykresie  cepstrum  występuje  wyraźne  maksimum  (to  tylko  dla 
fonemów dŜwięcznych). W tym przypadku parametry cepstralne to wektor składający się 
z  niskich  współczynników  opisujących  obwiednię  widma,  natomiast  wyŜsze 
współczynniki  mogą  słuŜyć  jedynie  do  ekstracji  tonu  krtaniowego  (tzn.  określenia  czy 
istnieje oraz estymacji jego częstotliwości). 
 
Na podstawie niskich współczynników cepstralnych moŜna uzyskać widmo wygładzone 
cepstralnie, przy czym liczba tych współczynników to rząd wygładzania cepstralnego.  
 
Stosując wygładzanie cepstralne moŜna uzyskać parametry formantowe (częstotliwości i 
poziomy) jako współrzędne lokalnych maksimów widma wygładzonego cepstralnie. 
 
Logarytm widma wygładzonego cepstralnie (transformacja kosinusowa): 

 
Spośród innych metod prowadzących do parametrów formantowych to klasyczna analiza 
przy  pomocy  filtrów  o  stałej  dobroci  oraz  w  dziedzinie  cyfrowej  analiza  LPC,  na 
podstawie analizy maksimów, przy odpowiednim ustaleniu rzędu analizy. 

 
 
 

( )

=

=

K

k

k

N

k

n

C

n

Y

0

cos

π

background image

Kompresja sygnału mowy 

 
 
Wokodery - urządzenia słuŜące do ograniczania objętości informacyjnej sygnału mowy 
metodą ekstrakcji parametrów i następnie po przesłaniu parametrów przez kanał 
telekomunikacyjny do odbiornika dokonujące resyntezy tego sygnału. 
 
 

 

Struktura wokodera kanałowego (pasmowego) 

Częstotliwość zmian sygnału w kaŜdym kanale (po demodulacji) wynosi kilka Hz (rzadko dochodzi do 30 
Hz), stąd wynika oszczędność na ilości informacji transmitowanej. Liczba kanałów wynosi przeciętnie 10 
(minimalna dla zrozumiałości mowy w stopniu dostatecznym to 5). Podział całej skali częstotliwości jest 
zazwyczaj nieliniowy: np. na pasma oktawowe, czasami stosuje się skalę Koniga. Parametry pobudzenia 
to  parametry  tonu  krtaniowego:  głównie  częstotliwość  podstawowa  (parametr  F0),  pozwalają  one  na 
przekaz naturalnej intonacji, co poprawia zrozumiałość. 

 
 
 

 

Struktura wokodera formantowego 

Wokoder  formantowy  (parametryczny)  -  w  praktyce  operuje  on  na  minimalnie  trzech  formantach. 
Wyodrębnia parametry  formantów: ich  częstotliwości i poziomy.  Odbiornik kształtuje obwiednie widma 
sygnału  na  podstawie  poziomów  formantów  poprzez  odpowiednie  sterowanie  generatorami.  PowyŜszy 
schemat moŜe być oczywiście uzupełniony i analizator i generator pobudzenia. 

background image

 

 

 

Struktura wokodera opartego na zasadzie predykcji liniowej 

Ekstrakcja  parametrów  to  obliczenie  wektora  LPC  (np.  algorytm  Levinsona-Durbina).  Na  tej  podstawie 
jest kształtowana w odbiorniku obwiednia widma sygnału, a na podstawie analizy sygnału błędu predykcji 
uzyskuje się parametry pobudzenia. 
W  podobny  sposób  moŜna  dokonać  konstrukcji  wokodera  cepstralnego:  niskie  współczynniki  cepstralne 
opisują obwiednię widma, wyŜsze mogą posłuŜyć do detekcji tonu krtaniowego.  

 
 
 

background image

Podstawy automatycznego rozpoznawania mowy 

 

Podstawy segmentacji sygnału mowy: 
 

1. alfabet bazowy - dla mowy polskiej 37 fonemów 
2. segmenty fonetyczne 
 

 - odcinki o jednorodnej strukturze fonetycznej decydującej o 

przynaleŜności do określonego fonemu  
3. segmentacja stała 
 

- odcinki o stałej długości - kwazistacjonarne 

 

- "implicit segmentation" - mikrofonemy 

4. segmentacja zmienna 
 

- segmenty zdefiniowane przez transkrypcję fonetyczną 

 

- "explicit segmentation" - dłuŜsze niŜ poprzednio 

5. rodzaje segmentów dla sygnału mowy: 
stacjonarne, transjentowe, krótkie, pauza. 
6. granice segmentów: 
 

dźwięcznych - płynne przejścia formantów 

 

dźwięczny i bezdźwięczny  - połączenie struktur formantowych i 

szumowych  
 

fonem i cisza - niepełna realizacja struktury widmowej 

 
Wymagania:

    

 
- algorytm segmentacji powinien generować funkcję czasu, na podstawie której 
moŜna oznaczyć granice segmentów  
- wybór metod parametryzacji 
- kryteria podziału i wybór desygnatów znaczeniowych 
 

Fonetyczna funkcja mowy : 

Fonetyczna  funkcja  mowy  jest  funkcją  czasu,  na  podstawie  której  moŜna 
wyznaczyć granice segmentów: 

 

gdzie: R(t,p) – wektor parametrów w oknie czasowym (t, t+

t)

 

t – długość okna czasowego, 

 

a

p

 – waga p-tego parametru, 

 

P – liczba parametrów, 

 

τ

 – przesunięcie czasowe, krok analizy . 

( )

(

)

( )

=

+

=

P

p

p

p

t

R

p

t

R

P

t

P

1

2

,

,

ln

1

τ

α

background image

 

Porównanie wyników analizy sonograficznej z wynikami segmentacji 

dla róŜnych długości P wektora parametrów 

 

Analiza  jest  wykonywana  na  odcinku  czasowym  o  długości  około  40ms,  czyli  obejmuje 
pojedyncze  mikrofonemy.  Odbywa  się  porównanie  pomiędzy  kolejnymi  mikrofonemami  w 
oparciu  o  obrany  system  parametrów,  małe  róŜnice  wskazują  na  to,  Ŝe  oba  mikrofonemy 
wchodzą  w  skład  tego  samego  fonemu,  duźe  róŜnice  wskazują  na  zmianę  sygnału,  czyli  na 
granicę między fonemami. 

 
Funkcje bloku segmentacji fonematycznej:

    

- parametryzacja (dla mikrofonemów) 
- obliczenie fonetycznej funkcji mowy 
- detekcja granic segmentów (na podstawie maksimów ffm
 

Problemy: 

-  nie  kaŜde  lokalne  maksimum  jest  granicą  segmentu  (stosuje  się  filtry 

wygładzające, algorytmy eksperckie, itp.), 

-  dobór  wag  dla  poszczególnych  parametrów,

  - dobór systemu parametryzacyjnego 

 

Fonetyczna funkcja mowy dla P=1

-0,5

0

0,5

1

1,5

2

2,5

3

1

5

9

1

3

1

7

2

1

2

5

2

9

3

3

3

7

4

1

4

5

Fonetyczna funkcja mowy dla P=2

-1

0

1

2

3

4

5

1

5

9

1

3

1

7

2

1

2

5

2

9

3

3

3

7

4

1

4

5

Fonetyczna funkcja mowy dla P=3

-1

0

1

2

3

4

5

1

5

9

1

3

1

7

2

1

2

5

2

9

3

3

3

7

4

1

4

5

background image

METRYKI STOSOWANE W PRZESTRZENI PARAMETRÓW: 

 

Przestrzeń metryczna to zbiór z wprowadzonym uogólnieniem pojęcia odległości 
dla jego elementów. 
 
Euklidesa: 

gdzie: 
x

p

 , y

p

 – wartość p-tego parametru dla porównywanych obiektów, 

P – liczba parametrów, 
 
Hamminga (uliczna): 

Charakteryzuje się prostotą obliczeń. 
 
Minkowskiego: 

Uwaga: 
szczególne przypadki metryki Minkowskiego to: metryka Euklidesa dla r=2 
i metryka Hamminga dla r=1 
 
Euklidesa znormalizowana: 

 

gdzie: S

P

 – odchylenie standardowe parametru p populacji referencyjnej (X lub Y

 

Potrzeba normalizacji metryk wynika z silnego wpływu róŜnic rzędów wartości poszczególnych 
składowych  wektora  cech  –  róŜne  typy  mogą  przyjmować  wartości  z  róŜnych  zakresów.  Za 
współczynnik  normalizujący  przyjmuje  się  zazwyczaj  odwrotność  wariancji  (kwadrat 
odchylenia  standardowego).  Ponadto  róŜne  parametry  mogą  reprezentować  róŜne  cechy 
fizyczne  opisywanych  obiektów,  obok  siebie  mogą  występować  parametry  o  róŜnych 
wymiarach fizycznych, których dodawanie nie ma sensu. Normalizacja powoduje, Ŝe składniki 
są bezwymiarowe.  

( )

(

)

=

=

P

p

p

p

y

x

y

x

D

1

2

,

( )

r

P

p

r

p

p

y

x

y

x

D

=

=

1

,

( )

=

=

P

p

p

p

y

x

y

x

D

1

,

( )

(

)

=

=

P

p

p

p

p

y

x

S

y

x

D

1

2

2

1

,

background image

Camberra: 

Jest to metryka samonormalizująca 
 
 
Czebyszewa

 
Mahalanobisa: 

 
gdzie: 

C

 – macierz kowariancji 

 

Metryka  Mahalanobisa  jest  związana  tzw.  regułą  optymalną.  Metryka  Mahalanobisa 
uwzględnia  stopień  skorelowania  pomiędzy  parametrami,  jeśli  zaś  parametry  są 
nieskorelowane  zamienia  się  w  zwykłą  waŜoną  metrykę  Euklidesa  (macierz 

C

  staje  się 

diagonalna). Przy obliczaniu odległości pomiędzy populacjami wymaga się, aby zachodziła 
równość ich macierzy kowariancji (test statystyczny Boxa). Przypadek jednowymiarowy dla 
tej  metryki  to  w  istocie  rzeczy  zmodyfikowana  statystyka  Behrensa-Fishera,  z  tym 
wyjątkiem, Ŝe nie jest wymagana równość odchyleń standardowych. 

 
 

FUNKCJE BLISKOŚCI: 

 
Kosinus kierunkowy: 

 
Tanimoto: 

 
 
 
 

( )

=

+

=

P

p

p

p

p

p

y

x

y

x

y

x

D

1

,

( )

p

p

p

y

x

y

x

D

=

max

,

( )

( )

( )

y

x

C

y

x

y

x

D

T

=

1

,

( )

y

x

y

x

y

x

B

T

=

,

( )

y

x

y

y

x

x

y

x

y

x

B

T

T

T

T

+

=

,

background image

Przykład jednowymiarowego optymalnego systemu dyskryminacji 
 
 

 

  

 

 

X

   

 

   

d

xy

 

 

   

Y

 

 
Przy 

wyrównanym 

prawdopodobieństwie 

apriorycznym 

wartość 

dyskryminacyjna d

xy

 powinna spełniać zaleŜność: 

 

(

) (

)

xy

xy

d

y

P

d

x

P

<

=

>

 

czyli: 

(

)

(

)

+



=



xy

xy

d

d

dx

x

dx

x

2

2

2

2

2

2

1

2

1

1

2

exp

2

1

2

exp

2

1

σ

µ

π

σ

σ

µ

π

σ

 

 
zatem wartość dyskryminacyjna: 

2

1

1

2

S

S

S

Y

S

X

d

xy

+

+

=

,  

 
zapewniająca regułę o najmniejszym prawdopodobieństwie popełnienia błędu, 
pod  warunkiem, Ŝe załoŜenie o kształtach funkcji gęstości prawdopodobieństwa 
(gaussowskie) są spełnione 

 
 
 
 
 

background image

 
 

 

Schemat ogólny przetwarzania sygnału mowy w procesie rozpoznawania 

 
 
 

 

 

 

Ilustracja liniowej normalizacji czasowej 

 
 

 

 

1

T(t

1

, t

2

,… t

N

R

(r

1

, r

2

,…
 r

M

background image

 

 

Porównanie obwiedni sygnału mowy dla czterech róŜnych wypowiedzi tego 

samego zdania ("zdzisiek patrzy na świecące liście") przez dwóch mówców. 

Pomimo zastosowania liniowej normalizacji czasowej widoczne są róŜnice 

zaleŜne od zmiennego tempa wypowiedzi. 

 

 
 
 

 

 

Ilustracja nieliniowej normalizacji czasowej (dynamic time warping) 

 

background image

Procedura dynamicznego dopasowania czasowego polega na segmentacji stałej i 
parametryzacji  mikrofonematycznej.  UmoŜliwia  dopasowanie  dwóch  róŜnych 
wypowiedzi  róŜniących  się  czasem  trwania  i  tempem  poszczególnych 
elementów.  Parametry  sygnału  referencyjnego  znajdują  się  w  bazie  danych  (m 
wektorów), zaś sygnału przeznaczonego do identyfikacji są obliczane na bieŜąco 
(n  wektorów).  Następnie  obliczane  są  odległości  pomiędzy  wszystkimi 
wektorami  parametrów  tworząc  tablicę  o  wymiarach  m

.

n.  Kolejnym  krokiem 

jest  znalezienie  drogi  łączącej  przeciwległe  naroŜniki  tej  tablicy  zgodnie  z 
zasadą mającą na celu minimalizację sumy odległości z napotykanych komórek 
tablicy. Tak obliczona suma nosi nazwę odległości skumulowanej. Warunkiem 
uzyskania  poprawnego  wyniku  jest  właściwe  zaznaczenie  początku  i  końca 
wypowiedzi.  Po  zastosowaniu  procedury  „time-warping”  wobec  wszystkich 
danych z bazy moŜna podjąć decyzję o klasyfikacji badanego sygnału. 
 
 

 

Tablica odległości pomiędzy wektorami parametrów dwóch wyrazów (oś y 

– referencyjny, oś x - rozpoznawany) w procedurze nieliniowej normalizacji 

czasowej (dynamic time warping). Liczby segmentów obu wyrazów nie są 

sobie równe (m=9, n=11). Lewy dolny naroŜnik odpowiada początkom 

wypowiedzi. Zaznaczona jest ścieŜka ustalająca sposób obliczania odległości 

skumulowanej.  

 
 
 
 
 
 
 
 
 
 
 
 

background image

Klasyfikatory parametryczne i nieparametryczne: 

 

Wynikiem  klasyfikacji  jest  prawdopodobieństwo  przynaleŜności  do  danej  klasy  (w 
pierwszym przypadku) albo wskazanie klasy (w drugim przypadku). 
W  pierwszym  przypadku  potrzebna  jest  znajomość  funkcji  (parametrów  statystycznych) 
gęstości  prawdopodobieństwa  dla  wartości  parametrów  obiektów  wchodzących  w  skład 
wszystkich klas, w drugim przypadku istnieje potrzeba stworzenia modelu (lub modeli) dla 
kaŜdej  klasy  na  podstawie  pewnej  liczby  przykładów  (obiektów)  tzw.  ciągu  uczącego 
(treningowego). 
Do klasyfikatory nieparametrycznych naleŜą  klasyfikatory minimalnoodległościowe, np.: 
NN, k-NN, NM, VQ. 
 
Algorytm „najbliŜszy sąsiad” (NN - ang. Nearest Neighbour) 
Podczas  procesu  uczenia  zapamiętywany  jest  cały  ciąg  uczący  (zbiór  odniesienia). 
Procedura  algorytmu  NN  oblicza  funkcję  podobieństwa  (w  sensie  ustalonej  miary 
odległości)  pomiędzy  wszystkimi  obiektami  ciągu  uczącego,  a  nieznanym  obiektem.  Po 
obliczeniu  wszystkich  wartości  odległości,  wyszukiwana  jest  najmniejsza  z  nich. 
Klasyfikator  podejmuje  decyzję  o  przydziale  nazwy,  kodu  lub  numeru  klasy,  do  której 
naleŜał obiekt ciągu uczącego, który okazał się najbliŜszy do obiektu rozpoznawanego. 
Zalety  algorytmu  NN  to:  skrajna  prostota,  brak  fazy  uczenia  (o  ile  pominie  się  selekcję 
cech),  moŜliwość  redukcji  zbioru  odniesienia  w  celu  przyspieszenia  klasyfikacji, 
zazwyczaj dość wysoka jakość klasyfikacji. 
Wady  algorytmu  NN:  wolna  klasyfikacja,  konieczność  przechowywania  całego  zbioru 
odniesienia w pamięci, duŜa wraŜliwość na zbędne cechy i na szum. 
 
Algorytm „k - najbliŜszych sąsiadów” (k–NN) 
Algorytm ten jest modyfikacją algorytmu NN. Pozwala on zmniejszyć wraŜliwość systemu 
rozpoznawania  w  stosunku  do  ciągu  uczącego.  Procedura  algorytmu  k-NN  dokonuje 
obliczeń  odległości  pomiędzy  obrazem  rozpoznawanym,  a  wszystkimi  obrazami  ciągu 
uczącego i porządkuje te odległości w kolejności rosnącej. Następnie rozpatrywanych jest 
k  pierwszych  wartości  odległości,  dla  których  określa  się,  ile  z  nich  odpowiada 
poszczególnym  klasom.  Klasyfikator  wybiera  tą  klasę,  która  najczęściej  pojawiała  się 
wśród k pierwszych odległości. Podkreślić naleŜy, Ŝe kolejność k najbliŜszych sąsiadów (w 
sensie ich odległości od próbki testowej) nie ma wpływu na wynik klasyfikacji. 
Zalety  algorytmu  k-NN:  prostota  koncepcji/implementacji  i  łatwość  wprowadzania 
modyfikacji,  moŜliwość  estymacji  błędu  na  etapie  uczenia  przy  pomocy  metody  minus 
jednego elementu (leave-one-out), w praktyce na ogół wysoka jakość klasyfikacji; 
stosunkowo szybkie uczenie (wybór k) i selekcja cech; 
Wady  algorytmu  k-NN:  wolna  klasyfikacja  (nieco  wolniejsza  niŜ  1-NN),  konieczność 
przechowywania  całego  zbioru  odniesienia  w  pamięci,  duŜa,  w  porównaniu  z  wieloma 
innych klasyfikatorami, wraŜliwość na zbędne cechy. 
Modyfikacje algorytmu k-NN: 

-  odmiana  waŜona  (ang.  weighted  k-NN),  w  której  waga  sąsiada  zadanej  próbki  q 

uzaleŜniona jest od jego odległości od q. 

background image

-  wprowadzenie  progu  k’  oznaczającego  minimalną  liczbę  sąsiadów  z  danej  klasy 

potrzebną do przypisania danej próbki do tej klasy. 

-  rozmyta  reguła  k-NN  (ang.  fuzzy  k-NN)  poszerza  przestrzeń  poszukiwań  poprzez 

zastąpienie „twardych” etykiet (ang. hard labels, crisp labels) próbek zbioru uczącego 
etykietami  rozmytymi  o  stopniach  przynaleŜności  do  poszczególnych  klas,  które  w 
pewnym sensie oddają charakter sąsiedztwa danej próbki. 

-  „k  dyplomatycznych  najbliŜszych  sąsiadów”  (k  Diplomatic  Nearest  Neighbors,  k-

DNN), reguła ta szuka k sąsiadów z kaŜdej klasy osobno, a następnie wybiera tę klasę, 
dla której średnia odległość opisanych sąsiadów do testowej próbki jest najmniejsza. 

 
 
 
 
 
 
 
 
 
 
 

 
 
 

 
 
 
 

Przykład obrazujący działanie algorytmu k-NN dla k=3. Nieznany obiekt q 

zostaje sklasyfikowany jako element klasy oznaczonej kółkami, gdyŜ 

spośród trzech najbliŜszych obiektów danych treningowych dwa pochodzą z 

tej klasy. NaleŜy zauwaŜyć, Ŝe dla k=1 decyzja będzie odmienna. 

 
 

Algorytm „najbliŜsza średnia” (NM - ang. Nearest Mean) 
W  algorytmie  NM  wzorcem  klasy  rozpoznawanych  obiektów  jest  wartość  średnia  lub 
modalna  (centroid).  Podobnie teŜ,  jak  w  algorytmie  NN,  obliczane są  odległości obiektu 
rozpoznawanego  od  wszystkich  obiektów  wzorcowych  (średnich)  i  wybierana  jest 
najmniejsza z nich. 
Podstawowe  zalety  algorytmu  NM  w  stosunku  do  k-NN  to  mniejsza  ilość  obliczeń  oraz 
brak  konieczności  pamiętania  wszystkich  obiektów  ciągu  uczącego.  Do  wad  naleŜy 
zaliczyć  niepoprawne  działanie  algorytmu  w  przypadku  rozkładów  wielomodalnych  lub 
opisanych  funkcjami  o  kształtach  odmiennych  od  gaussowskich.  Wówczas  obliczona 
ś

rednia moŜe leŜeć z dala od obszaru zajmowanego przez obiekty treningowe. 

 
 

background image

Algorytm kwantyzacji wektorowej (VQ - ang. Vector Quantization) 
W  tej  technice  klasa  jest  reprezentowana  przez  zbiór  kilku  (lub  więcej,  zwykle  <  100) 
wektorów, zwanych kodowymi, które moŜliwie najdokładniej odzwierciedlają cechy całej 
klasy (wielomodalność i rozmieszczenie w przestrzeni parametrów). Zbiór ten tworzy tzw. 
ksiąŜkę  kodową.  Podobnie  jak  dla  metody  NN,  w  trakcie  rozpoznawania  dla  kaŜdego 
wektora  testowego  jest  znajdowany  jego  najbliŜszy  sąsiad  z  ksiąŜki  kodowej  i  jest 
obliczana odległość pomiędzy nimi, która jest podstawą do podjęcia decyzji o rozpoznaniu. 
ZłoŜoność  obliczeniowa  rozpoznawania  na  podstawie  kwantyzacji  wektorowej  jest 
znacznie mniejsza w porównaniu z algorytmami NN i k-NN. 
Problemem  jest  jednak  algorytm  tworzenia  ksiąŜki  kodowej  na  podstawie  sekwencji 
treningowej.  Jedną  z  dróg  rozwiązania  tego  problemu  jest  zastosowanie  standardowych 
algorytmów k-średnich lub LBG. Idea polega na znalezieniu takich wektorów kodowych, 
które  minimalizują  błąd  kwantyzacji,  czyli  sumaryczną  odległość  pomiędzy  sekwencją 
treningową a danym modelem. 
Inną  metodą  prowadzącą  do  stworzenia  ksiąŜki  kodowej  jest  analiza  skupień  obiektów 
danej klasy. Przy zastosowaniu metod klasteryzacji dla zbioru obiektów klasy wydzielane 
są  skupienia.  Z  kaŜdego  znalezionego  skupienia  wyznaczany  jest  wzorzec  (centroid) 
wpisywany  następnie  do  ksiąŜki  kodowej.  Algorytm  ten  nosi  takŜe  nazwę:  „najbliŜsze 
skupienie” (NTuple - ang. Nearest Tuple). 
 
 
Klasyfikator Support Vector Machine: 
Jest  moŜliwy  do  zastosowania  w  przypadku  2  klas  (weryfikacja  typu:  „klasa-  klasa”  lub 
„klasa-reszta”). 
Składa się z 2 etapów: 
1. nieliniowe przekształcenie hiperprzestrzeni 
2. wyznaczenie hiperplaszczyzny dyskryminacyjnej (klasyfikacja metoda klasa-reszta lub 
klasa-klasa) 
Etap  1  ma  na  celu  zapewnienie  takiej  konfiguracji  parametrów,  aby  po  etapie  2 
wyznaczona  hiperplaszczyzna  była  podstawa  do  optymalnego  systemu  decyzyjnego 
(minimalne prawdopodobienstwo popełnienia bledu). 
W  etapie  1  stosuje  sie  róŜne  funkcje  nieliniowe  (wielomianowa,  gaussowska  i  inne) 
dobierając odpowiednio ich współczynniki (zagadnienie Lagrange'a) - to jest etap treningu 
systemu, bo opiera sie na zgromadzonych danych. 
Zastosowana funkcja nazywa się kernel. 
Do  etapu  2  parametry  dochodzą  juŜ  przekształcone,  dając  moŜliwość  wyznaczenia 
hiperpłaszczyzny  na  podstawie  wektora  wspierającego  (prostopadłego  do  tej 
hiperpłaszczyzny,  opartego  na  obiektach  znajdujących  się  w  sąsiedztwie  regionu 
granicznego). 
Samo  rozpoznawanie  nieznanych  obiektów  to  przekształcenie  wg  kernela  i  nastepnie 
określenie po której stronie hiperplaszczyzny ten nieznany obiekt się znajduje. 
 
 
 
 

background image

 
 
 
 
Podział systemów rozpoznawania mówców 
 
1. podział ze względu na cel rozpoznawania  
 

- weryfikacja mówcy – potwierdzenie deklarowanej przez mówcę toŜsamości 

 

-  identyfikacja  mówcy  –  określenie,  który  z  mówców  się  wypowiada,  na  podstawie 

zbioru modeli odniesienia, przy załoŜeniu, Ŝe mówca ma swój model głosu w bazie danych 
 

-  autentyzacja  mówcy  –  określenie,  czy  głos  mówcy  naleŜy  do  posiadanego  zbioru 

modeli  
 
2. podział ze względu na zaleŜność od tekstu  
 

- niezaleŜne od treści – skuteczne dla dowolnej wypowiedzi, wykorzystywane gdy nie 

moŜna liczyć na współpracę mówcy 
 

- zaleŜne od treści – skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy 

moŜna  się  spodziewać,  Ŝe  mówca  wymówi  hasło,  numer  identyfikacyjny  lub 
podpowiedziany przez system tekst  
 
3. podział identyfikacji mówcy ze względu na charakter zbioru modeli mówców  
 

-  z  zamkniętym  zbiorem  –  kaŜdemu  mówcy  musi  odpowiadać  jakiś  model 

odniesienia, wybierany jest najbliŜszy spośród wszystkich modeli mówców 
 

- z otwartym zbiorem – moŜliwe jest uznanie, Ŝe Ŝaden z modeli odniesienia nie jest 

wystarczająco  podobny  do  danej  wypowiedzi,  wybierany  jest  najbliŜszy  spośród 
wszystkich modeli, pod warunkiem, Ŝe jego podobieństwo przekracza określony próg