background image

Prezentacja 1 

 
SM
- synteza mowy, 
ARG - 

automatyczne rozpoznawanie głosów, 

ARM- automatyczne rozpoznawanie mowy, 
ARMIS

rodzaj ARM rozpoznajacy izolowane słowa, 

ARMC - rodzaj ARM rozpoznajacy mowe ciagla, 
ASV

automatyczna weryfikacja mówcy, 

ASI- automatycz

na identyfikacja mówcy, 

 
Zalety systemów wykorzystujących informacje przekazywane za pośrednictwem sygnału mowy: 

 

sterowanie  i  przekazywanie  danych  głosem może  być  realizowane  znacznie  szybciej  niż  za 
pomocą klawiatury alfanumerycznej, 

 

przekazywanie  informa

cji  do  maszyny  za  pomocą  sygnału  mowy  umożliwia  zwolnienie  rąk 

operatora, 

 

czas reakcji głosowej jest znacznie krótszy niż reakcji ruchowej, co jest ważne w systemach 
alarmowych uruchamianych głosem, 

 

przekazywanie  informacji  głosem  może  mieć  miejsce  w  różnych,  nietypowych  sytuacjach  i 
położeniach operatora, 

 

układy  sterowania  głosem  pozwoliłyby  w  znacznym  stopniu  złagodzić  skutki  kalectwa  osób 
niepełnosprawnych, 

 

sterowanie głosem nie wymaga od operatora specjalnego przygotowania ani treningu. 

 
Rozpoznawanie mowy -

> słowa 

Rozpoznawanie języka -> nazwa języka 
Rozpoznawanie mówcy -> imię mówcy 
 
Schemat blokowy systemu ARM/ARG: 
 

1. 

Przetwarzanie  wstępne-  mające  za  zadanie  zamianę  sygnału  akustycznego  na  postać 
cyfrową, 

 

Odbiór sygnalu mowy 

 

Wzmocnienie sygnalu i normalizacja mocy 

 

Ograniczenie pasma czestotliwosci 

 

Przetwarzanie A/C (analogowo - kodowe) 

2.  Blok  ekstrakcji  - 

gdzie  tworzone  sa  obrazy  wypowiedzi  jako  macierzy  parametrów,  które 

niosą  informacje  o  tresci  wypowiedzi,  mozliwie  niezalezna  od  indywidualnych  cech  glosu 
mówcy, 

3.  Blok uczenia i klasyfikacji 

gdzie w oparciu o okreslony algorytm decyzyjny porównywane 

sa  nadchodzace  ciagi  obrazów  ze  znajdujacymi  sie  w  pamieci  wzorcami  (tworzonymi 
wczesniej w procesie uczenia). 
 
 

 

Na  rysunku  przedstawiono  przyklad  schematu  blokowego  systemu  ARM 

z  uwzględnieniem 

segmentacji.  Sygnal  wejsciowy  jest  przetwarzany  na  postac  cyfrowa  a  nastepnie  podawany 
niezaleznie do dwóch bloków: segmentacji i opisu parametrycznego.  
Blok segmentacji ma za zadanie  wykrycie w przychodzacym sygnale granicy segmentu i w postaci 
znacznika czasowego przekazanie tej informacji 

do bloku ekstrakcji parametrów. 

 

background image

Automatyczna weryfikacja mówcy - jest prostszym zadaniem, gdyż konieczne jest tylko porównanie 
sygnalu  testowego  z  sygnalem  odniesienia  i  podjecie  „binarnej”  decyzji,  czy  oba  pochodza  od  tego 
samego mówcy. 
 
Automatyczna  identyfikacja  mówcy  -  wymaga  wyboru,  który  sposród  N  znanych  glosów  najlepiej 
odpowiada  glosowi  testowemu.  Poniewaz  potrzebnych  jest  N  decyzji,  blad  prawidlowej  identyfikacji 
rosnie  wraz  z  N  dla  automatycznej 

identyfikacji  mówcy,  podczas,  gdy  w  systemach  automatycznej 

weryfikacji jest 

niezalezny od ilosci mówców. 

 
W ARG możemy wyróżnić dwa przypadki: 

 

Zbiór otwarty (open set)- glos rozpoznawany moze nie znajdowac sie posród zachowanych 
wzorców,  co  wymaga  podjecia  decyzji,  ze  zaden  wzorzec  nie  odpowiada  sygnalowi 
testowemu. 

 

Zbiór zamknięty (closed- set)- gdy badane sa tylko glosy użytkowników, 

 
Błąd  fałszywej  akceptacji  (FA)-  gdy  system  niepoprawnie  zaakceptuje  oszusta  w  systemie 
weryfikacji lub zidentyfikuje mówce jako inna osobe w systemie identyfikacji. 
 
Błąd  fałszywego  odrzucenia  (FR)-  gdy  system  niepoprawnie  zaakceptuje  oszusta  w  systemie 
weryfikacji lub zidentyfikuje mówce jako inna osobe w systemie identyfikacji. 
 

Prezentacja 2 

 
Blok wstępnego przetwarzania: 
 

1.  Przetwarzanie A/C (analogowo 

– cyfrowe) 

Pierwszym  etapem  komputerowej  analizy  sygnalu  akustycznego  jest  jego  rejestracja  oraz 
zamiana na postac cyfrowa za pomoca przetwornika. 
Wybór  czestotliwosci  próbkowania  okresla  górna  czestotliwosc  pasma  rejestrowanego 
sygnalu.  Przyjecie  zbyt  malej  czestotliwosci  próbkowania  moze  prowadzic  do  trudnosci 
identyfikacji tych 

segmentów, o których informacja moze byc zawarta w wyzszych wartościach 

czestotliwosci,  natomiast  zbyt  duza  czestotliwosc  próbkowania  nadmiernie  rozszerza 
analizowane pasmo i 

powoduje wzrost nakladów obliczeniowych.  

W  cyfrowym  przetwarzaniu  mowy  stosuje 

się  czestotliwosci  próbkowania  z  zakresu:  8kHz-

32kHz (pasmo czestotliwosci sygnalu mowy ma okolo 16kHz). 

2.  Preemfaza 

Tak zwane formanty ( maksima widma niosace informacje o rezonansach traktu głosowego) 
maja  zwykle  znacznie  nizsza  amplitude  dla  wyzszych  czestotliwosci.  Aby  wiec  otrzymać 
podobna  amplitude  wszystkich  fo

rmantów,  spróbkowany  sygnal  poddawany  jest  najczęściej 

wstepnej  filtracji,  która  w  najprostszym  przypadku  ma  postac  preemfazy.  Mozna  to 
zrealizowac, poprzez filtracje sygnalu mowy filtrem pierwszego rzedu typu FIR. 

3.  Okienkowanie 

Kolejnym  etapem  wstepnego  przetwarzania  sygnalu  mowy  zwanym  okienkowaniem  jest 
wybór fragmentu sygnalu dla którego obliczany jest wektor parametrów. W systemach ARM 
najczesciej stosuje sie okno Hamminga. 

 
Kryteria wyboru parametrów 
Skuteczność - 
wyznaczona w tzw. sile dyskryminacyjnej. Dzwieki opisane tymi parametrami sa lepiej 
rozrózniane przez dalsze procedury  rozpoznawania 
 
Łatwość pomiaru - 
kryterium to jest zwiazane ze zlozonoscia procedur pomiarowych, co ma wpływ 
m.in. na koszty. Przykladowo pomiar, w charakterze parametru, amp

litudy jest znacznie prostszy niż 

ekstrakcja formantu. 
 
Stabilność - kryterium to oznacza, ze zakresy zmiennosci mierzonych (ekstrahowanych) parametrów 
mieszcza sie w okreslonych przedzialach zmiennosci sytuacyjnej lub czasowej 
 
Odporność  na  zakłócenia  -  kryterium  to  oznacza  stopien  wrazliwosci  parametrów  na  zmiany  i 
poziom  zaklócen  wnoszonych  przez  otoczenie,  w  którym  jest  rejestrowany  sygnal  mowy,  jak  i  na 
zakłócenia wprowadzane przez tor transmisyjny. 

background image

Parametry w dziedzinie czasu 
Istnieja dwie grupy para

metrów mozliwych do uzyskania bezposrednio ze struktury czasowej sygnalu: 

 

Pierwsza  zwiazana  jest  z  tzw.  makrostruktura  sygnalu  i  odnosi  sie  do  wielkosci 
rozciagajacych  sie  na  cale  elementy fonetyczne  (fonemy,  sylaby,  wyrazy  a  nawet  zdania)  a 
ich pomiar dokonywany jest najczesciej w ramach konturowego modelu analizy.  

 

Do grupy tej zaliczamy m.in. natezenie w funkcji czasu i przebieg obwiedni amplitudowej. Jest 
bezpośrednio powiazana z mikrostruktura czasowa sygnalu mowy i zaliczamy do nich m.in. 
parametry zwiazane z analiza przejsc przez zero sygnalu mow (czestotliwosci

a Rice’a) oraz 

interwaly pomiedzy przejsciami przez zero. 

 
Parametry w dziedzinie częstotliwości 
Krótkoterminowa  analiza  widmowa  jest  tradycyjnie  jedna  z  najwazniejszych  metod  obróbki  sygnalu 
mowy. Podstawowym zalozeniem lezacym u podstaw  dowolnej metody a

nalizy krótkoterminowej jest 

fakt, ze dla dluzszego przedzialu czasu sygnal mowy jest niestacjonarny, natomiast dla odpowiednio 
krótkich odcinków czasu (tzw. okienek czasowych) moze byc uwazany za stacjonarny. 
 
Krótkoterminowe  widmo  mowy  zawiera  prawie  wszystkie  informacje  zawarte  w  sygnale  mowy  i 
stanowi podstawe dla wielu innych metod parametryzacji sygnalu. Jedna z metod uzyskiwania widma 
krótkoterminowego  zwana  dyskretna  transformata  Fouriera  (DFT),  polega  na  obliczeniu  widma 
dynamiczneg  z  wykorzystanie

m  efektywnych  algorytmów  przetwarzania,  zwanych  szybkimi 

transformatami Fouri (FFT). 
 
LFC- 

liniowe  parametry  częstotliwości;  Liniowe  parametry  czestotliwosciowe  LFC  (Linear Frequency 

Coefficients)  wyznaczane  sa  najczesciej  w  sposób  analogowy  za  pomoca  banku filtrów  pasmowych 
lub w sposób cyfrowy za pomoca transformaty FFT. 
MFC- 

melowe parametry częstotliwości 

Parametry  cepstralne-  sygnal  mowy  mozna  przedstawic  jako  odpowiedz  kanalu  losowego, 
przedstawionego w postaci odpowiednio pobudzonego kanalu liniowego o parametrach zmiennych w 
czasie
Centrowanie  parametrów  cepstralnych
-  Po  wyznaczeniu,  parametry  cepstralne  moga  zostać 
wycentrowane, tzn. sredni wektor cepstralny odejmowany jest kolejno od wszystkich 

wektorów. 

Redukcja wektorów cepstralnych- polega na normalizacji zmian wartosci parametrów. 
 

Prezentacja 3 

 

Dopasowanie czasowe i normalizacja 
Na  wyjsciu  modułu  parametryzacji  systemów  rozpoznawania  mowy  otrzymujemy  krótkoterminowe 
(rzedu  10ms  ramki)  wektory  parametrów.  Rozpoznawana  wypowiedz  jest  dosc  zlozona  i  zawiera 
sekwencje  wektorów  parametrów  reprezentujacych  krótkoterminowe  reprezentacje  akustyczne 
sygnalu mowy. Problem zwiazany jest z porównaniem sekwencji wektorów parametrów sygnalu mowy 
dla róznych interpretacji tej samej wypowiedzi (tj. wyrazu, frazy, zdania), które rzadko artykułowane sa 
z tym samym tempem (szybkoscia mówienia). Stad nalezy znormalizowac czas wypowiedzi przed jej 
pózniejszym porównaniem i rozpoznaniem. 
Najprostszym sposobem dla rozwiazania problemu dopasowania czasowego i normalizacji je technika 
normalizacji  liniowej.  Równanie  normalizacji  liniowej  zaklada,  ze  czas  trwania  wypowiedzi  jest 
niezalezny od artykułowanych dzwieków. 
 
Ogólny schemat dopasowania 
Ogólny schemat dopasowania i normalizacji czasowej wykorzystuje dwie funkcje   które odnosza  sie 
do odstepów czasowych dwóch obrazów sygnalu mowy na osi czasu. (Przykład slajd 5) 
 
Dla  uzupelnienia  definicji  miary  odleglosci  pary  obrazów  musimy  jeszcze  okreslic  sciezke.  Istnieje 
wiele  par  mozliwych  funkcji.    Kluczowym  zagadnieniem  je

st  wiec  okreslenie  która  mozliwa  sciezka 

powinna byc wybrana , taka, ze odleglosc moze byc mierzona w spójny sposób. Jednym naturalnym i 
czesto stosowanym wyborem jest zdefiniowanie funkcji jako minimum funkcji po wszystkich mozliwych 
sciezkach. Dla rozwiazania tego problemu stosuje sie techniki programowania dynamicznego. 
 
 
 
 

background image

Kwantyzacja wektorowa (VQ) 
Zalety: 

 

Zredukowana objetosc przechowywanej informacji spektralnej, 

 

Zredukowana  ilosc  obliczen  niezbedna  przy  wyznaczaniu  podobienstw  analizowanych 
wektorów parametrów 

 

Dyskretna reprezentacja dzwieków mowy 

 
Wady: 

 

Nieodlaczne znieksztalcenia przy reprezentacji aktualnie analizowanego wektora 

 

Rozmiar danych niezbednych do przechowania ksiazki kodowej ma czesto duze rozmiary 

 
Do zbudowania książki kodowej (VQ) potrzebujemy: 

 

Duzego zbioru wektorów skladajacego sie na zbiór uczący, 

 

Miary  podobienstwa  lub  odleglosci  pomiedzy  para  wektorów  aby  móc  pogrupowac  zbiór 
wektorów uczących i poklasyfikowac wektory na poszczególne klasy ksiazki kodowej, 

 

Procedury wyznaczania 

centroidów 

 

Procedury klasyfikacji dokonujacej wyboru wektora z ksiazki kodowej najblizszego do wektora 
wejściowego i wykorzystujacej indeks ksiazki kodowej jako wynikowa reprezentacje 

 
Grupowanie wektorów uczących: 

1. 

Inicjalizacja: Arbitralny wybór M wektorów (poczatkowo sposród l wektorów zbioru uczacego) 
jako poczatkowy zbiór slów kodowych w ksiazce kodowej. 

2.  Poszukiwanie  najblizszego  sasiada:  Dla  kazdego  wektora  uczacego  znajdowane  jest 

najblizsze  slowo  kodowe  w  aktualnej  ksiazce  kodowej  (zgodnie  ze  zdefiniowana  miara 
odleglosci), nastepnie wektor ten przypisywany jest do korespondujacej komórki (powiazanej 
z najblizszym slowem kodowym). 

3. 

Uaktualnienie  centroidów:  Uaktualniane  jest  slowo  kodowe  w  kazdej  komórce  z 
wykorzystaniem centroidów wektorów uczacych powiazanych z komórka. 

4. 

Iteracja: Powtórzenie kroków 2 oraz 3 az do chwili gdy srednia odleglosc bedzie mniejsza od 
zalozonego progu. 

 
Algorytm podziału binarnego. 
Pomimo,  ze  powyzszy  alorytm  rekurencyjny  dziala  dobrze,  wykazano,  ze  korzystne  jest 
zaprojektowanie  M-  wektorowej  ksiazki  kodowej  etapami    tj.  najpierw  zaprojektowanie  1-wektorowej 
ksiazki kodowej, nastepnie korzystajac z metody podzialu slów kodowych rozpoczac poszukiwania 2-
wektorowej  książki  kodowej i  dalsze  kontynuowanie  podzialu  az  do  uzyskania  M-wektorowej  ksiazki 
kodowej. Procedura ta zwana jest algorytmem podzialu binarnego. 
 
Procedura  klasyfikacji  wektorowej
-  polega  na  pelnym  przeszukaniu  ksiazki  kodowej  w  celu 
znalezienia najlepszego odpowiednika. 

 

Prezentacja 4 

 

Systemy rozpoznawania obraz

ów: 

 

Strukturalne (syntaktyczne) 

 

O logicznych kryteriach decyzyjnych 

 

O statystycznych kryteriach decyzyjnych 

 
Statyczne algorytmy rozpoznawania: 
1. Parametryczne  

algorytm Bayesa i jego modyfikacje 

HMM (Hidden Markov Models) 

ANN (Artificial Neural Networks) 

SVM (Support Vector Machines) 

GMM (Gaussian Mixture Models) 

2. Nieparametryczne 

NN (najblizszy sasiad) 

k-NN (k-

najblizszych sasiadów) 

NM (najblizsza srednia) 

Opis niektórych algorytmów na slajdach 6-12. 

background image

Prezentacja 5 

 

HMM, pięciostanowy proces Markowa- Rozwazmy system który moze byc opisany w kazdej chwili 
czasu jako znajdujacy sie w zbiorze charakterystycznych stanów. W równych, dyskretnych odstepach 
czasu,  nastepuje  zmiana  stanu  (z  mozliwoscia  powrotu  do  tego  samego  stanu)  zgodnie  ze  zbiorem 
prawdopodobienstw zwiazanych z każdym stanem. 
Uczenie  modelu  sprowadza  sie  do  optymalizowania  parametrów  HMM.  Najczesciej  stosowany  jest 
algorytm wprowadzony przez Bauma i Welcha i znany pod nazwa algorytmu Forward- Backward
 
Uczenie modelu opisane na slajdach 5-15. 
 
W  ogólnym  przypadku  mozna  powiedziec,  ze  problem  rozpoznawania  w  modelach  Markowa 
sprowadza 

się  do  wyznaczenia  prawdopodobienstwa  ciagu  obserwacji  dla  danego modelu.  Przyjety 

sposób  rozpoznawania  zalezy  od  typu  rozpoznawanych  sygnalów  i  w  przypadku  rozpoznawania 
segmentów izolowanych moze sprowadzac sie do obliczenia prawdopodobienstwa i wybrania modelu, 
dla  którego  jest  ono  najwieksze.  Bardziej  zlozonym  zagadnieniem  okazuje  sie  byc  rozpoznawanie 
sygnalów ciaglych. 
 
Algorytm opisany na slajdach 17-22. 
 

Prezentacja 6 

 

 
ARM problem interdyscyplinarny: 

 

Prz

etwarzanie sygnałów- efektywny i niezawodny proces ekstrakcji niezbednej informacji z 

sygnalu  mowy. W  przetwarzaniu  sygnalów  uwzgledniona  jest  zarówno  analiza  widmowa  do 
opisu cech sygnalu mowy zmieniających sie w czasie jak i przetwarzanie wstepne majace na 
celu uniezaleznienie uzytecznego sygnalu mowy od warunków akustycznych srodowiska. 

 

Fizyka/  akustyka-  Pozwala  zrozumiec  zaleznosc  pomiedzy  fizycznym  sygnalem  mowy 
(mechanizm traktu glosowego czlowieka) a fizjologicznym mechanizmem wytwarzania mowy 
a sposobem jej percepcji (mechanizm slyszenia). 

 

background image

 

Rozpoznawanie  obrazu

zbiór algorytmów wykorzystywanych do klasyfikacji danych w celu 

stworzenia  jednego  lub  wiecej  prototypów  wzorców  oraz  ich  porównania  na  podstawie  miar 
parametrycznych. 

 

Teoria informacji i komunikacji - 

nowoczesnych algorytmów kodowania i dekodowania (np. 

wlaczajac  programowanie  dynamiczne,  algorytmy  akwizycji  i  skladowania  danych, 
dekodowanie Viterbiego etc.) wykorzystywane do przeszukania obszernego ale skonczonego 
ukladu w celu znalezienia n

ajlepszej „sciezki”-tzn. rozpoznanej sekwencji slów. 

 

Lingwistyka  -  Zwiazek  pomiedzy  dzwiekami  (fonologia),  slowami  w  jezyku  (syntaktyka), 
znaczeniem  wypowiadanych  slów  (semantyka)  oraz  sensem  wyznaczonym  ze  znaczenia. 
Metodologia gramatyki i rozbiór jezykowy równiez zawieraja sie w tej dyscyplinie. 

 

Fizjologia- 

Rozumienie  mechanizmów  wyzszego  rzedu  w  centralnym  ukladzie  nerwowym 

czlowieka  czyli  wytwarzania  mowy  oraz  jej  percepcji  przez  czlowieka.  Wiele  nowoczesnych 
technik próbuje umiescic ten rodzaj wiedzy w 
ramach sieci neuronowych. 

 

Informatyka

Badania  efektywnych  algorytmów  implementacji  programowej  lub  sprzetowej 

różnych metod wykorzystywanych w rzeczywistych systemach rozpoznawania mowy. 

 

Psychologia - 

Nauka rozumienia czynników umozliwiajacych wykorzystanie przez czlowieka 

technologii dozadan praktycznych. 

 
Rodzaje informacji wykorzystywanych w ARM: 

 

 
Procedury rozpoznawania mowy: 

 

z dołu do góry (bottom-up)- Najbardziej standardowa procedura w której proces najnizszego 
rzedu (tj. detekcja parametrów, dekodowanie fonemów) poprzedza procesy  wyzszego rzedu 
(dekodowanie leksykalne, modelowanie jezykowe) dokonywane jest w sposób sekwencyjny. 

 

z  góry  do  dołu  (top-down)-  Model  jezykowy  generuje  w  oparciu  o  sygnal  mowy  hipotezy, 
nastepnie  syntaktycznie  i  semantycznie  sensowne  wypowiedzi  budowane  sa  na  podstawie 
wyników porównania wyrazów. Pokazane zostalo, ze czesto stosuje sie integracje porównania 
jednostek, dekodowania leksykalnego oraz modulu analizy syntaktycznej w jednym bloku. 

 

wspólnej  płaszczyzny  (blackboard)-  W  tym  podejsciu  wszystkie  zródla  informacji 
analizowane sa niezaleznie. Paradygmat hipoteza-

test sluzy jako glówne medium komunikacji 

pomiedzy  zródlami  informacji.  Kazde  zródlo  opiera  sie  o  dane  uzyskane  w  oparciu  o 
wystepujace na wspólnej plaszczyznie obrazy które odpowiadaja rozwiazaniom okreslonym w 
zródlach. System dziala wiec asynchronicznie. 

 

Rozpoznawania  obrazów  i  akustyczno-  fonetyczna  -  Trzy  glówne  kroki  w  modelu 
rozpoznawania  obrazów  to:  pomiar  parametrów  (w  którym  obraz  testowy  jest  tworzony), 
porównanie  obrazów  oraz  podjecie  decyzji.  Funkcja  bloku  pomiaru  parametrów  jest 
prezentacja  odpowiednich  zdarzen  akustycznych  sygnalu  mowy  w  formie  zwartych, 
wydajnych  wektorów  parametrów  mowy.  Podobnie  w  modelu  akustyczno-fonetycznym 
rozpoznawania pierwszy krok procesu tj. pomiar parametrów, jest zasadniczo identyczny jak 
w modelu rozpoznawania obrazów, pomimo, ze dalsze kroki obu podejsc znaczaco się róznia. 

background image

Skutecznosc systemów rozpoznawania mowy jest oceniana poprzez porównanie prawdziwej oraz 
rozpoznanej  przez  system  sekwencji  elementów.  Liczba  dodanych  elementów  oznacza  liczbe 
rozpoznanych  przez  system  elementów  nieobecnych  w  prawdziwej  sekwencji.  Liczba  pominietych 
elementów  to  liczba  wypowiedzianych  przez  mówce  elementów  nie  odnotowanych  w  rozpoznanej 
przez system sekwencji elementów. 
 
Miary  skutecznosci 

wykorzystywane  sa  zarówno  w  systemach  rozpoznawania  wykorzystujacych 

fonemy  jako  jednostki  podstawowe  jak  i  w  systemach  rozpoznawa  calych  wyrazów  (elementem 
rozpoznawania jest wiec wtedy odpowiednio fonem i wyraz). Przy tym oczywiscie wysoka skutecznosc 
rozpoznawania fonemów moze  przekladac  sie  na  skutecznosc  rozpoznawania  calych  wyrazów.  Tak 
wiec  w  pierwszej  kolejnosci  system  rozpoznawania  powinien  byc  oceniany  na  podstawie  modelu 
akustycznego o parametrach dobranych dla skutecznosci ro

zpoznawania fonemów bez uwzglednienia 

gramatyki. 
 
WER  (word  error  rate)

Najpowszechniej  stosowana  miara  skutecznosci  systemów.  Jest  

p

rocentowym  stosunkiem  liczby  zamienionych,  dodanych  oraz  pominietych  wyrazów  do  liczby 

wyrazów w rozpoznawanym zdaniu. 
 

Prezentacja 7 

 

Same tabelki i wykresy :P 
 

Prezentacja 8 

 

Model przejść międzydifonowych 
Korzystne  relacje  przy  przyjeciu  difonów  jako  jednostek  rozpoznawania  zachodza  dla  jednej  z 
najpowszechniej wykorzystywanych  we  wspólczesnych algorytmach ARM technik opierajacych sie o 
niejawne  procesy  Markowa  jaka  jest  metoda  programowania  dynamicznego  zwana  algorytmem 
Viterbiego.  Ma  ona  szczególnie  korzystne  cechy  zwlaszcza  w  odniesieniu  do  analizy  sygnalów 
ciaglych.  W  procesie  rozpoznawania  otrzymujemy  ciag  obserwacji, 

które  w  naszym  systemie 

odpowiadaja  wektorom  parametrów  dla  kolejnych  wykrytych  w  analizowanej  wypowiedzi  diafonów  - 
stanów  niejawnego  procesu  Markowa.  Zadaniem  algorytmu  jest  znalezienie  jednego  „najlepszego” 
ciągu stanów dla danego ciagu obserwacji. 
 
Sieć neuronowa jako estymator prawdopodobieństwa a priori 
Wsród wielu sposobów wykorzystania sztucznych sieci neuronowych najstarszym i najlepiej opisanym 
jest 

rozpoznawanie  wzorców.  Na  wejscie  sieci  podawany  jest  wektor  wejściowy.  Opisuje  on 

rozpoznawany 

obiekt.  W  przypadku  sygnalów  akustycznych  jest  to  wektor  cech  akustycznych  czyli 

parametryczny  opis  sygnalu  akustycznego.  Moze  to  byc  zbiór  współczynników  Fouriera,  predykcji 
liniowej  lub  rozklad  interwalów  czasowych.  Pamietac  nalezy  o  tym,  ze  sygnal  akustyczny  jest 
próbkowany w oknach dlatego liczba wejsc sieci zalezy od liczby okien i liczby parametrów w oknie. 
 
Podstawowym elementem jest model neuronu McCullo

ch’a - Pitts’a.  

 

Prezentacja 9 

 

Schemat bud

owy urządzenia AGD z funkcją automatycznego rozpoznawania mowy 

 

 

 

 
 
 
 

background image

Schemat funkcjonalny 

systemu ARM w urządzeniu AGD 

 

Układ do rozpoznawania mowy SRI-07 - jest to kompletny i programowalny podzespól sluzacy do 
realizacji funkcji rozpoznawania mowy. Zestaw ten pracuje w trybie zaleznym od mówcy, tzn. najpierw 
nagrywa  sie  slowa  (albo  wypowiedzi),  a  nastepnie  uklad  je  rozpoznaje.  Dzieki  temu  mozna 
wykorzystać dzialanie zestawu do sterowania innym urzadzeniem. 
 

Prezentacja 10 

 

Biometria 

–  zautomatyzowane  rozpoznawanie  osób  na  podstawie  cech  biologicznych  lub 

behawioralnych.   

Obejmuje  rozpoznawanie  osób  m.in.  na  podstawie:  odcisków  palców,  glosu, 

siatkówki  oka,  badan  krwi,  badan  antropologicznych,  badan  struktury  kodu  DNA.  Mozliwe  jest 
stosowanie  równiez  innych  technik  biometrycznych  lub  ich  pochodnych:  sposób  chodzenia,  odciski 
dloni, itp. Metody biometryczne moga byc stosowane jako dodatkowe zabezpieczenie przy metodach 
identyfikcji osób. 
Zastosowanie:  

 

Dokumenty biometryczne 
Na  calym  swiecie  kraje  tworza  polityczne  i  prawne  warunki  dla  stopniowego  wprowadzenia 
dokumentów  biometrycznych.  Zgodnie  z    zaleceniami  dane  z  obszaru  dla  czytnika 
automatycznego, zdjecie twarzy, dwa odciski linii papilarnych oraz podpis elektroniczny beda 
przechowywane w chipie. 

 

Kryminalistyka 
U

niwersalny  zespól  metod  i  srodków,  który  pozwolilby  w  warunkach  wzrastajacej 

przestepczosci  nie  tylko  na  optymalne  wykrywanie  sprawców  przestepstw,  lecz  takze  na 
jednoznaczne i nie budzace watpliwosci udowadnianie im winy. 

 
Badania  fonoskopijne-  
sa  nowoczesnym  dzialem  kryminalistyki,  zajmujacym  sie  problematyka 
ustalania tozsamosci czlowieka na podstawie analizy pewnych cech akustycznych zawartych sygnale 
mowy. 
 
Metody rozpoznawania 

głosów: 

 

subiektywna- 

Polega  na  rozpoznawaniu  mówców  przez  sluchaczy  na  podstawie  próbek 

głosów. Sluchacze nie sa na ogól w stanie wymienic kryteriów lezacych u podstaw ich decyzji. 

 

zobiektywizowana (metoda wzrokowa)- 

Polega na porównywaniu przez ekspertów obrazów 

wypowiedzi, 

czyli  spektrogramów  otrzymanych  na  podstawie  analizy  spektrograficznej  

kreslonej frazy, jednakowej dla wszystkich badanych glosów.  

 

obiektywna (metoda automatyczna)- Metoda ARG polega na realizacji regul decyzyjnych na 
mierzalnych  w  sposób  obiektywny  cechach  sygnalu  mowy  w  celu  okreslenia,  czy  dana 
wypowiedz nalezy do określonego mówcy. 

 

Automatyczne rozpoznawanie glosu (ARG) to proces polegajacy na rozpoznaniu osoby mówiącej na 
podstawie  indywidualnych  informacji  osobniczych  zawartych  w  falach  dźwiękowych  wypowiedzi 
danego  mówcy.  Podstawowy  podzial  systemów  ARG jest  uzalezniony  od  nastepujacych  czynników:  
rodzaju  i  ilosci  analizowanego  materialu  akustycznego,  oraz  od  sposobu  analizy  pobranych  próbek 
glosu. 
 
 
 
 
 
 
 

background image

Systemy zalezne i niezalezne od tresci wypowiedzi 
Kolejnym  sposobem  podzialu  metod  rozpoznawania  mówców  jest  podzial  na  systemy  zalezne  i 
niezalezne  od  tekstu  wypowiedzi.  Systemy  niezalezne  od  tekstu  wypowiedzi  wychwytuja  z 
wypowiedzi danego mówcy jego specyficzne cechy osobnicze zawarte w glosie bez wzgledu na to, co 
on  mówi.  Specyfika  systemów  zaleznych  od  tekstu  polega  na  tym,  ze  mówca  wypowiada  jedna, 
konkretnie  ustalona  wczesniej  sentencje  slowna  i  to  na  jej  podstawie  zostaje  odpowiednio 
zidentyfikowany.  
 
Klasyczny proces weryfikacji glosu mozna schematycznie przedstawic jako dwie procedury:  

 

procedurę uczenia gdzie tworzone sa modele mówców oraz model tla  

 

procedure rozpoznawania 

gdzie sparametryzowane próbki glosu porównywane sa ze 

stworzonymi wczesniej modelami i podejmowana jest decyzja o akceptacji badz odrzuceniu 
tozsamosci mówcy 

 
Schemat procesu weryfikacji głosu 
Sygnal  mowy  jest  najpierw  poddawany  preemfazie.  Celem  preemfazy  jest  uwypuklenie  wyższych 
czestotliwosci widma sygnalu mowy, które sa tlumione w procesie artykulacji. Po okienkowaniu oknem 
Hamminga wyznaczana jest szybka transformata Fouriera (FFT). Modul FFT przemnażany jest przez 
bank  filtrów  melowych  w  celu  wygladzenia  i  uzyskania  obwiedni  spektrum  w  skali  audytoryjnej.  Po 
przejsciu na dB jako krok koncowy procedury parametry

zacji stosowana była dyskretna transformata 

cosinusowa  dajac  wspólczynniki  cepstralne.  Tak  uzyskane  wektory  parametrów  podawane  byly  do 
procedury klasyfikacji. 
 
Krzywa ROC

relative operating characteristic; określa stopę porawnych decyzji systemu 

Krzywa  DET- 

detection error tradeoff; standardowy  sposób prezentacji jakosci systemów ARG oraz 

ARM. 
 

Prezentacja 11 

 

U

rzadzenie mówiace zostałow wynazleione w 1791r. przez Wolfganga von Kempelena. Urzadzenie 

skladalo  sie  z  miecha  wzbudzajacego  strumien  powietrza  podawanego  z  kolei  na  wibrujace  jezyki 
spelniajace funkcje strun (wiazadel) glosowych. Kanal glosowy imitowala 

rurka elastyczna, która przez 

odpowiednie  manipulowanie  (ucisk  dlonia)  powodowala  generacje  róznych  dzwieków  (20  dźwięków 
mowy). Urzadzenie zawieralo dwie komory imitujace kanal nosowy oraz dwie dzwigienki, za pomoca 
których mozna bylo sterowac generacja glosek tracych. 
 
Mozna wyróznic trzy zródla sygnalu mowy

 

trakt glosowy czlowieka, dokonujacy mowy; 

 

systemy techniczne o prostej strukturze, dokonujace mowy; 

 

syntezatory mowy dokonujace mowy na drodze modelowania procesu artykulacji. 

 
Tekst moze byc analizowany jako jedna z form bardzo efektywnego kodowania mowy z duza jednak 
mozliwoscia jego interpretowania pod wzgledem stylu, intonacji, tempa, rytmu itp.  
Relacja miedzy tekstem pisanym i mówionym jest jednak czesto niezwykle zlozona, szczególnie, gdy 
mamy  do  czynienia  z  tekstami  z  dodatkowymi  opisami.  Modul  analizy  tekstu  okresla  typ  i  strukture 
przetwarzanego dokumentu, dokonuje konwersji nieortogr

aficznych znaków, rozbioru gramatycznego, 

analizy syntaktycznej, leksykalnej. 
 
Modul  ten  powinien  dostarczyc  cala  informacje  dotyczaca  tekstu,  nie  bedaca  w  swej  naturze 
fonetyczna, majaca jednak wplyw na dzialanie modulu fonetycznego. 
W  najprostszych  syste

mach  modul  ten  dokonuje  konwersji  znaków  nieortograficznych  np.  liczby. 

Bardziej rozwiniete systemy dokonuja analizy 

znaków takich jak spacje, znaków przestankowych itp. w 

celu  dokonania  bardziej 

szczególowej  analizy  syntaktycznej  i  semantycznej  tekstu  podzielonego  na 

zdania. 
 
Normalizacja tekstu 

polega na ujednoliceniu konwersji symboli, liczb i znaków nieortograficznych w 

transkrypcji  ortograficznej,  w  postaci  umozliwiajacej  nastepnie  ich  konwersje  na  ciag  znaków 
transkrypcji fonetycznej. 
 

background image

Analiza  lingwistyczna  tekstu  obejmuje  wybrane  elementy  syntaktyczne  i  semantyczne  takie  jak 
slowo, fraza, zdanie, wypowiedz by ocenic ich wpływ na sama wymowe i cechy prozodyczne. 
 
Modul  syntezy  mowy  generuje  akustyczny  sygnal  mowy,  na  podstawie  sekwencji  okreslonych 
fon

emów  uzyskanych  na  podstawie  przetwarzania  tekstu,  wzorców  iloczasowych,  konturu 

melodycznego i obwiedni amplitudy. 
 
Modelowanie obwiedni widma 

– statyczne: 

 

Stewart(1922) 

– 2 filtry formantowe pobudzane przebiegiem piloksztaltnym 

 

Voder  (Dunn,1939) 

–  10  szeregowo  polaczonych  filtrów  pasmowych  pobudzanych  badz 

przebiegiem okresowym, badz szumowym. 

 
Elektroniczne  syntezatory  formantowe-  Opieraly  sie  na  modelowaniu  funkcji  przenoszenia  toru 
glosowego w dziedzinie 

czestotliwosci za pomoca filtrów dolnoprzepustowych. 

 
Synteza  artykulacyja-  modelowanie  narzadu  artykulacyjnego  w  oparciu  o  rejestrowane  obrazy 
przekrojów toru glosowego w nadziei, ze uzyska sie prostsze reguly odwzorowywania zmian polozenia 
elementów artykulacyjnych. 
Dla  kazdej  gloski  utworzono  zestaw 

przekrojów    cylindrycznych  o  odpowiednio  dobranych 

powierzchniach.  Przyjeto  liniowe  odwzorowywanie  zmian  konfiguracji  toru  glosowego  przy  przejsciu 
miedzy gloskami. Wyniki byly jednak gorsze od ówczesnych syntezatorów formantowych. 
 
Synteza  konkatenacyjna-  podstawowym  elementem  sa  wycinki  rzeczywistego  sygnalu  mowy 
zarejestrowane  w  bazie  danych  i  laczone  ze  sobą  odpowiednio  do  przetwarzanego  tekstu. 
Atrakcyjnosc  tej  metody  polega  przede  wszystkim  w  tym,  ze  nie  sa  potrzebne  rozbudowane  reguly  
oraz  ze  dzieki 

operowaniu  rzeczywistym  sygnalem  mowy  laczone  ze  soba  segmenty  zachowują 

stosunkowo naturalne brzmienie. 
Problemy: Wybór jednostek , stworzenie bazy jednostek, rozmiary bazy, jak okreslic optymalny system 
wyboru  i  laczenia  ze  soba  segmentów,  jak  modyfikowac  cechy  prozodyczne  ztworzonego  lancucha 
segmentów. 
 
Difon-  element  zawierajacy  w  calosci  przejscie  miedzy  gloskami,  poprzedzone  czescia  gloski 
poprzedzajacej i zakonczone czescia gloski nastepujacej. 
 
Zastosowanie syntezy mowy: 
Uslugi  telekomunikacyjne, 

portale  głosowe,  nauka  jezyków,  dostep  do  tekstów  pisanych  dla  osób 

niewidomych,  ulatwienie  komunikacji  werbalnej  osobom  z  zaburzeniami  mowy,  w  dwustronnej 
komunikacji werbalnej czlowiek-

maszyna, człowiek – człowiek, automatyczny tłumacz. 

 

Prezentacja 12 

 
Problemy przy projektowaniu akustycznej bazy danych: 

 

background image

Style wypowiedzi do baz danych: 

 

Mowa  naturalna- 

nagrywana  w  sytuacjach  codziennych  rozmów  na  tematy  wybrane  przez 

mówce 

 

Mowa  laboratoryjna-   

nagrywana  w  sytuacjach  kontrolowanych  i  artykulowana  w  sposób 

bardziej formalny.  

 

Czytanie  izolowanych  fonemów-  wypowiedz  izolowanego  fonemu  jest  generalnie 
wykorzystana jako wzór do porównania wypowiedzi tego samego fonemu w mowie ciaglej. 

 

Czytanie  izolowanych  słów- moze  obejmowac  zarówno  istniejace  wyrazy  jak  i  slowa  "bez 
sensu" lingwistycznego które sa jednak uzyteczne do badan nad efektami koartykulacyjnymi 
poszczególnych fonemów w róznych kontekstach. 

 

Czytanie izolowanych fraz

przykladem tego typu fraz moga być przypadki gdy zalezy nam 

na bardziej naturalnej niz w izolowanych slowach wypowiedzi  

 

Czytanie  fragmentów  tekstu-  dotyczy  czytania  kilku  zdan  powiazanych  semantycznie. 
Podejscie to wpływa korzystnie na naturalnosc mowy. Zdania moga pochodzic z ksiazki lub 
gazety i moga posiadac szczególna strukture fonetyczna lub syntaktyczna. 

 

Mowa quasi spontaniczna- slownictwo, syntaktyka i wypowiadanie jest kontrolowane. Baza 
jest generalnie 

tworzona dla celów komercyjnych. Typowym przykladem jest czytanie wyrazen 

alfanumerycznych, 

pozostawiajace  mówcy  zupelna  dowolnosc  sposobu  wypowiedzi.  Ma  to 

miejsce  w  przypadku  numerów  telefonicznych:  czasem  czytanych  jako  sekwencja  pojedy 
czych cyfr lub jako grupy cyfr. 

 

Mowa  spontaniczna  dotyczaca  okreslonego  temat- 

wypowiedź  sprowokowana;  Rózne 

procedury  sa  wykorzystywane  do  "wymuszenia"  dyskusji,  jednakze  przy  pozostawieniu 
mówcy mozliwosci wypowiedzi swobodnej i naturalnej.  

 

Mowa wywolywana metoda " Czarnoksieznika z Krainy Oz"- Idea metody jest dosc prosta: 
operator  (tzw.  "czarnoksieznik")  nasladuje  zachowanie  komputera  w  symulacji  rozmowy 
czlowiek-komputer. Dla zachowania realizmu tej symulacji musza byc spelnione dwa warunki: 
symulowany  system  powinien  miec  cechy  odpowiadajace  ludzkim  ograniczeniom  (np.  po 
pytaniu czas odpowiedzi czlowieka jest inny niz komputera), po drugie zachowanie operatora 
w  przypadku 

niejasnych  pytan  lub  bledów  powinno  zostac  dokladnie  okreslone  dla 

zagwarantowania  porównywalnych  warunków  symulacji.  Metoda  ta  byla  wykorzystana  przy 
tworzeniu bazy ATIS.
 

 

Mowa spontaniczna - 

Mówca ma dowolnosc w wyborze tematu rozmowy i slownictwa w celu 

uzyskania  najbardziej  naturalnej  wypowiedzi.  W  celu  unikniecia  wplywu  emocjonalnego 
warunków nagran na mówce, czesto nagrania prowadzi sie podczas przerw relaksacyjnych w 
nagraniach.  W  innych  przypadkach 

mówca  proszony  jest  o  przypomnienie  sobie  sytuacji  z 

przeszlosci lub o rozmowe z bliskimi lub znajomymi osobami. 

 
Akustyczne bazy danych: 

 

Babel- 

Projekt  jest  wspólnym  Europejskim  przedsiewzieciem  pod  patronatem  fundacji 

Copernicus  w  sklad  którego  wchodza  osrodki  naukowe  z  europy  zachodniej  i  srodkowej. 
Celem  projektu  jest  stworzenie  wielojezycznej  bazy  danych  dla  pieciu  (najbardziej 
rozpowszechnionych)  jezyków  srodkowoeuropejskich:  bulgarskiego,  estonskiego,  polskiego, 
rumunskiego i wegierskiego. 

 

Speech  DAT-  Jako  platforme  nagrywajaca  wykorzystano  komputer  Pentium  II  z  systemem 
operacyjnym Windows 98, wyposazony w karte dzwiekowa, duzy dysk twardy oraz karte ISDN 
AVM A1 z oprogramowaniem ADA (Automatic Database Acquisition). Sygnaly sa nagrywane 
z  czestotliwoscia  próbkowania  8kHz  na  8  bitach  kwantyzacji  i  zapisywane  jako  pliki  bez 
naglówka  w  standardzie  a-law.  Do  kazdego  pliku  z  sygnalem  dolaczany  jest  plik  opisowy  w 
formacie  SAM,  zawierajacy  informacje  o  sygnale,  warunkach  i  czasie 

nagrania, mówcy oraz 

tresci  wypowiedzi.  Zapis  fonetyczny  przeprowadzany  jest  zg  dnie  ze  standardem  SAMPA 
(Speech Assesment Methods Phonetic Alphabet). 

Proces weryfikacji jakosciowej bazy przebiegal w dwóch etapach: 
Weryfikacja  subiektywna-  wszystkie  sesje  nagraniowe 

zostały  przesluchane  i  ocenione 

prze

z  sluchaczy  kontrolerów.  Sesje  niepelne  lub  niskiej  jakosci  kierowano  do  ponownego 

nagrania lub odrzucano. 
Weryfikacja obiektywna -material akustyczny poddano ocenie obiektywnej  w oparciu o trzy 
podstawowe wspólczynniki sygnalu: wartosc wspólczynnika przesterowania, sredniej wartosci 
próbek oraz stosunku sygnal/szum. 

 
 

background image

Współczynnik  przesterowania-  zdefiniowany  jest  jako  stosunek  liczby  próbek  w  pliku,  które  maja 
wartosc maksymalna lub minimalna do calkowitej liczby pr

óbek. 

 
Stosunek s

ygnał/szum- syganł zostaje podzielony na okna o dlugosci 10 ms w których liczona jest 

energia po uprzednim odjeciu s

redniej wartosci próbki od wszystkich próbek sygnalu. Zalozono, ze 5% 

okien 

zawierających najnizsza energie zawieraja szum  tla. Stosunek sygnal/szum otrzymywano jako 

stosunek  sredniej 

wartości  energii  we  wszystkich  oknach  do  sredniej  wartosci  energii  w  oknach 

zawierajacych najnizsza energie.