Podstawy automatycznego rozpoznawania mowy
Podstawy segmentacji sygnału mowy:
1. alfabet bazowy - dla mowy polskiej 37 fonemów
2. segmenty fonetyczne
- odcinki o jednorodnej strukturze fonetycznej decydującej o
przynaleŜności do określonego fonemu
3. segmentacja stała
- odcinki o stałej długości - kwazistacjonarne
- "implicit segmentation" - mikrofonemy
4. segmentacja zmienna
- segmenty zdefiniowane przez transkrypcję fonetyczną
- "explicit segmentation" - dłuŜsze niŜ poprzednio
5. rodzaje segmentów dla sygnału mowy:
stacjonarne, transjentowe, krótkie, pauza.
6. granice segmentów:
dźwięcznych - płynne przejścia formantów
dźwięczny i bezdźwięczny - połączenie struktur formantowych i
szumowych
fonem i cisza - niepełna realizacja struktury widmowej
Wymagania:
- algorytm segmentacji powinien generować funkcję czasu, na podstawie której
moŜna oznaczyć granice segmentów
- wybór metod parametryzacji
- kryteria podziału i wybór desygnatów znaczeniowych
Fonetyczna funkcja mowy :
Fonetyczna funkcja mowy jest funkcją czasu, na podstawie której moŜna
wyznaczyć granice segmentów:
gdzie: R(t,p) – wektor parametrów w oknie czasowym (t, t+
∆
t),
∆
t – długość okna czasowego,
a
p
– waga p-tego parametru,
P – liczba parametrów,
τ
– przesunięcie czasowe, krok analizy .
( )
(
)
( )
∑
=
+
⋅
=
P
p
p
p
t
R
p
t
R
P
t
P
1
2
,
,
ln
1
τ
α
Porównanie wyników analizy sonograficznej z wynikami segmentacji
dla róŜnych długości P wektora parametrów
Analiza jest wykonywana na odcinku czasowym o długości około 40ms, czyli obejmuje
pojedyncze mikrofonemy. Odbywa się porównanie pomiędzy kolejnymi mikrofonemami w
oparciu o obrany system parametrów, małe róŜnice wskazują na to, Ŝe oba mikrofonemy
wchodzą w skład tego samego fonemu, duźe róŜnice wskazują na zmianę sygnału, czyli na
granicę między fonemami.
Funkcje bloku segmentacji fonematycznej:
- parametryzacja (dla mikrofonemów)
- obliczenie fonetycznej funkcji mowy
- detekcja granic segmentów (na podstawie maksimów ffm)
Problemy:
- nie kaŜde lokalne maksimum jest granicą segmentu (stosuje się filtry
wygładzające, algorytmy eksperckie, itp.),
- dobór wag dla poszczególnych parametrów,
- dobór systemu parametryzacyjnego
Fonetyczna funkcja mowy dla P=1
-0,5
0
0,5
1
1,5
2
2,5
3
1
5
9
1
3
1
7
2
1
2
5
2
9
3
3
3
7
4
1
4
5
Fonetyczna funkcja mowy dla P=2
-1
0
1
2
3
4
5
1
5
9
1
3
1
7
2
1
2
5
2
9
3
3
3
7
4
1
4
5
Fonetyczna funkcja mowy dla P=3
-1
0
1
2
3
4
5
1
5
9
1
3
1
7
2
1
2
5
2
9
3
3
3
7
4
1
4
5
METRYKI STOSOWANE W PRZESTRZENI PARAMETRÓW:
Przestrzeń metryczna to zbiór z wprowadzonym uogólnieniem pojęcia odległości
dla jego elementów.
Euklidesa:
gdzie:
x
p
, y
p
– wartość p-tego parametru dla porównywanych obiektów,
P – liczba parametrów,
Hamminga (uliczna):
Charakteryzuje się prostotą obliczeń.
Minkowskiego:
Uwaga:
szczególne przypadki metryki Minkowskiego to: metryka Euklidesa dla r=2
i metryka Hamminga dla r=1
Euklidesa znormalizowana:
gdzie: S
P
– odchylenie standardowe parametru p populacji referencyjnej (X lub Y)
Potrzeba normalizacji metryk wynika z silnego wpływu róŜnic rzędów wartości poszczególnych
składowych wektora cech – róŜne typy mogą przyjmować wartości z róŜnych zakresów. Za
współczynnik normalizujący przyjmuje się zazwyczaj odwrotność wariancji (kwadrat
odchylenia standardowego). Ponadto róŜne parametry mogą reprezentować róŜne cechy
fizyczne opisywanych obiektów, obok siebie mogą występować parametry o róŜnych
wymiarach fizycznych, których dodawanie nie ma sensu. Normalizacja powoduje, Ŝe składniki
są bezwymiarowe.
( )
(
)
∑
=
−
=
P
p
p
p
y
x
y
x
D
1
2
,
( )
r
P
p
r
p
p
y
x
y
x
D
∑
=
−
=
1
,
( )
∑
=
−
=
P
p
p
p
y
x
y
x
D
1
,
( )
(
)
∑
=
−
⋅
=
P
p
p
p
p
y
x
S
y
x
D
1
2
2
1
,
Camberra:
Jest to metryka samonormalizująca
Czebyszewa:
Mahalanobisa:
gdzie:
C
– macierz kowariancji
Metryka Mahalanobisa jest związana tzw. regułą optymalną. Metryka Mahalanobisa
uwzględnia stopień skorelowania pomiędzy parametrami, jeśli zaś parametry są
nieskorelowane zamienia się w zwykłą waŜoną metrykę Euklidesa (macierz
C
staje się
diagonalna). Przy obliczaniu odległości pomiędzy populacjami wymaga się, aby zachodziła
równość ich macierzy kowariancji (test statystyczny Boxa). Przypadek jednowymiarowy dla
tej metryki to w istocie rzeczy zmodyfikowana statystyka Behrensa-Fishera, z tym
wyjątkiem, Ŝe nie jest wymagana równość odchyleń standardowych.
FUNKCJE BLISKOŚCI:
Kosinus kierunkowy:
Tanimoto:
( )
∑
=
+
−
=
P
p
p
p
p
p
y
x
y
x
y
x
D
1
,
( )
p
p
p
y
x
y
x
D
−
=
max
,
( )
( )
( )
y
x
C
y
x
y
x
D
T
−
⋅
⋅
−
=
−
1
,
( )
y
x
y
x
y
x
B
T
⋅
=
,
( )
y
x
y
y
x
x
y
x
y
x
B
T
T
T
T
−
+
=
,
Przykład jednowymiarowego optymalnego systemu dyskryminacji
X
d
xy
Y
Przy
wyrównanym
prawdopodobieństwie
apriorycznym
wartość
dyskryminacyjna d
xy
powinna spełniać zaleŜność:
(
) (
)
xy
xy
d
y
P
d
x
P
<
=
>
czyli:
(
)
(
)
∫
∫
∞
−
∞
+
−
−
⋅
=
−
−
⋅
xy
xy
d
d
dx
x
dx
x
2
2
2
2
2
2
1
2
1
1
2
exp
2
1
2
exp
2
1
σ
µ
π
σ
σ
µ
π
σ
zatem wartość dyskryminacyjna:
2
1
1
2
S
S
S
Y
S
X
d
xy
+
⋅
+
⋅
=
,
zapewniająca regułę o najmniejszym prawdopodobieństwie popełnienia błędu,
pod warunkiem, Ŝe załoŜenie o kształtach funkcji gęstości prawdopodobieństwa
(gaussowskie) są spełnione
Schemat ogólny przetwarzania sygnału mowy w procesie rozpoznawania
Ilustracja liniowej normalizacji czasowej
1
1
N
M
T(t
1
, t
2
,… t
N
)
R
(r
1
, r
2
,…
r
M
)
Porównanie obwiedni sygnału mowy dla czterech róŜnych wypowiedzi tego
samego zdania ("zdzisiek patrzy na świecące liście") przez dwóch mówców.
Pomimo zastosowania liniowej normalizacji czasowej widoczne są róŜnice
zaleŜne od zmiennego tempa wypowiedzi.
Ilustracja nieliniowej normalizacji czasowej (dynamic time warping)
Procedura dynamicznego dopasowania czasowego polega na segmentacji stałej i
parametryzacji mikrofonematycznej. UmoŜliwia dopasowanie dwóch róŜnych
wypowiedzi róŜniących się czasem trwania i tempem poszczególnych
elementów. Parametry sygnału referencyjnego znajdują się w bazie danych (m
wektorów), zaś sygnału przeznaczonego do identyfikacji są obliczane na bieŜąco
(n wektorów). Następnie obliczane są odległości pomiędzy wszystkimi
wektorami parametrów tworząc tablicę o wymiarach m
.
n. Kolejnym krokiem
jest znalezienie drogi łączącej przeciwległe naroŜniki tej tablicy zgodnie z
zasadą mającą na celu minimalizację sumy odległości z napotykanych komórek
tablicy. Tak obliczona suma nosi nazwę odległości skumulowanej. Warunkiem
uzyskania poprawnego wyniku jest właściwe zaznaczenie początku i końca
wypowiedzi. Po zastosowaniu procedury „time-warping” wobec wszystkich
danych z bazy moŜna podjąć decyzję o klasyfikacji badanego sygnału.
Tablica odległości pomiędzy wektorami parametrów dwóch wyrazów (oś y
– referencyjny, oś x - rozpoznawany) w procedurze nieliniowej normalizacji
czasowej (dynamic time warping). Liczby segmentów obu wyrazów nie są
sobie równe (m=9, n=11). Lewy dolny naroŜnik odpowiada początkom
wypowiedzi. Zaznaczona jest ścieŜka ustalająca sposób obliczania odległości
skumulowanej.
Klasyfikatory parametryczne i nieparametryczne:
Wynikiem klasyfikacji jest prawdopodobieństwo przynaleŜności do danej klasy (w
pierwszym przypadku) albo wskazanie klasy (w drugim przypadku).
W pierwszym przypadku potrzebna jest znajomość funkcji (parametrów statystycznych)
gęstości prawdopodobieństwa dla wartości parametrów obiektów wchodzących w skład
wszystkich klas, w drugim przypadku istnieje potrzeba stworzenia modelu (lub modeli) dla
kaŜdej klasy na podstawie pewnej liczby przykładów (obiektów) tzw. ciągu uczącego
(treningowego).
Do klasyfikatory nieparametrycznych naleŜą klasyfikatory minimalnoodległościowe, np.:
NN, k-NN, NM, VQ.
Algorytm „najbliŜszy sąsiad” (NN - ang. Nearest Neighbour)
Podczas procesu uczenia zapamiętywany jest cały ciąg uczący (zbiór odniesienia).
Procedura algorytmu NN oblicza funkcję podobieństwa (w sensie ustalonej miary
odległości) pomiędzy wszystkimi obiektami ciągu uczącego, a nieznanym obiektem. Po
obliczeniu wszystkich wartości odległości, wyszukiwana jest najmniejsza z nich.
Klasyfikator podejmuje decyzję o przydziale nazwy, kodu lub numeru klasy, do której
naleŜał obiekt ciągu uczącego, który okazał się najbliŜszy do obiektu rozpoznawanego.
Zalety algorytmu NN to: skrajna prostota, brak fazy uczenia (o ile pominie się selekcję
cech), moŜliwość redukcji zbioru odniesienia w celu przyspieszenia klasyfikacji,
zazwyczaj dość wysoka jakość klasyfikacji.
Wady algorytmu NN: wolna klasyfikacja, konieczność przechowywania całego zbioru
odniesienia w pamięci, duŜa wraŜliwość na zbędne cechy i na szum.
Algorytm „k - najbliŜszych sąsiadów” (k–NN)
Algorytm ten jest modyfikacją algorytmu NN. Pozwala on zmniejszyć wraŜliwość systemu
rozpoznawania w stosunku do ciągu uczącego. Procedura algorytmu k-NN dokonuje
obliczeń odległości pomiędzy obrazem rozpoznawanym, a wszystkimi obrazami ciągu
uczącego i porządkuje te odległości w kolejności rosnącej. Następnie rozpatrywanych jest
k pierwszych wartości odległości, dla których określa się, ile z nich odpowiada
poszczególnym klasom. Klasyfikator wybiera tą klasę, która najczęściej pojawiała się
wśród k pierwszych odległości. Podkreślić naleŜy, Ŝe kolejność k najbliŜszych sąsiadów (w
sensie ich odległości od próbki testowej) nie ma wpływu na wynik klasyfikacji.
Zalety algorytmu k-NN: prostota koncepcji/implementacji i łatwość wprowadzania
modyfikacji, moŜliwość estymacji błędu na etapie uczenia przy pomocy metody minus
jednego elementu (leave-one-out), w praktyce na ogół wysoka jakość klasyfikacji;
stosunkowo szybkie uczenie (wybór k) i selekcja cech;
Wady algorytmu k-NN: wolna klasyfikacja (nieco wolniejsza niŜ 1-NN), konieczność
przechowywania całego zbioru odniesienia w pamięci, duŜa, w porównaniu z wieloma
innych klasyfikatorami, wraŜliwość na zbędne cechy.
Modyfikacje algorytmu k-NN:
- odmiana waŜona (ang. weighted k-NN), w której waga sąsiada zadanej próbki q
uzaleŜniona jest od jego odległości od q.
- wprowadzenie progu k’ oznaczającego minimalną liczbę sąsiadów z danej klasy
potrzebną do przypisania danej próbki do tej klasy.
- rozmyta reguła k-NN (ang. fuzzy k-NN) poszerza przestrzeń poszukiwań poprzez
zastąpienie „twardych” etykiet (ang. hard labels, crisp labels) próbek zbioru uczącego
etykietami rozmytymi o stopniach przynaleŜności do poszczególnych klas, które w
pewnym sensie oddają charakter sąsiedztwa danej próbki.
- „k dyplomatycznych najbliŜszych sąsiadów” (k Diplomatic Nearest Neighbors, k-
DNN), reguła ta szuka k sąsiadów z kaŜdej klasy osobno, a następnie wybiera tę klasę,
dla której średnia odległość opisanych sąsiadów do testowej próbki jest najmniejsza.
Przykład obrazujący działanie algorytmu k-NN dla k=3. Nieznany obiekt q
zostaje sklasyfikowany jako element klasy oznaczonej kółkami, gdyŜ
spośród trzech najbliŜszych obiektów danych treningowych dwa pochodzą z
tej klasy. NaleŜy zauwaŜyć, Ŝe dla k=1 decyzja będzie odmienna.
Algorytm „najbliŜsza średnia” (NM - ang. Nearest Mean)
W algorytmie NM wzorcem klasy rozpoznawanych obiektów jest wartość średnia lub
modalna (centroid). Podobnie teŜ, jak w algorytmie NN, obliczane są odległości obiektu
rozpoznawanego od wszystkich obiektów wzorcowych (średnich) i wybierana jest
najmniejsza z nich.
Podstawowe zalety algorytmu NM w stosunku do k-NN to mniejsza ilość obliczeń oraz
brak konieczności pamiętania wszystkich obiektów ciągu uczącego. Do wad naleŜy
zaliczyć niepoprawne działanie algorytmu w przypadku rozkładów wielomodalnych lub
opisanych funkcjami o kształtach odmiennych od gaussowskich. Wówczas obliczona
ś
rednia moŜe leŜeć z dala od obszaru zajmowanego przez obiekty treningowe.
Algorytm kwantyzacji wektorowej (VQ - ang. Vector Quantization)
W tej technice klasa jest reprezentowana przez zbiór kilku (lub więcej, zwykle < 100)
wektorów, zwanych kodowymi, które moŜliwie najdokładniej odzwierciedlają cechy całej
klasy (wielomodalność i rozmieszczenie w przestrzeni parametrów). Zbiór ten tworzy tzw.
ksiąŜkę kodową. Podobnie jak dla metody NN, w trakcie rozpoznawania dla kaŜdego
wektora testowego jest znajdowany jego najbliŜszy sąsiad z ksiąŜki kodowej i jest
obliczana odległość pomiędzy nimi, która jest podstawą do podjęcia decyzji o rozpoznaniu.
ZłoŜoność obliczeniowa rozpoznawania na podstawie kwantyzacji wektorowej jest
znacznie mniejsza w porównaniu z algorytmami NN i k-NN.
Problemem jest jednak algorytm tworzenia ksiąŜki kodowej na podstawie sekwencji
treningowej. Jedną z dróg rozwiązania tego problemu jest zastosowanie standardowych
algorytmów k-średnich lub LBG. Idea polega na znalezieniu takich wektorów kodowych,
które minimalizują błąd kwantyzacji, czyli sumaryczną odległość pomiędzy sekwencją
treningową a danym modelem.
Inną metodą prowadzącą do stworzenia ksiąŜki kodowej jest analiza skupień obiektów
danej klasy. Przy zastosowaniu metod klasteryzacji dla zbioru obiektów klasy wydzielane
są skupienia. Z kaŜdego znalezionego skupienia wyznaczany jest wzorzec (centroid)
wpisywany następnie do ksiąŜki kodowej. Algorytm ten nosi takŜe nazwę: „najbliŜsze
skupienie” (NTuple - ang. Nearest Tuple).
Klasyfikator Support Vector Machine:
Jest moŜliwy do zastosowania w przypadku 2 klas (weryfikacja typu: „klasa- klasa” lub
„klasa-reszta”).
Składa się z 2 etapów:
1. nieliniowe przekształcenie hiperprzestrzeni
2. wyznaczenie hiperplaszczyzny dyskryminacyjnej (klasyfikacja metoda klasa-reszta lub
klasa-klasa)
Etap 1 ma na celu zapewnienie takiej konfiguracji parametrów, aby po etapie 2
wyznaczona hiperplaszczyzna była podstawa do optymalnego systemu decyzyjnego
(minimalne prawdopodobienstwo popełnienia bledu).
W etapie 1 stosuje sie róŜne funkcje nieliniowe (wielomianowa, gaussowska i inne)
dobierając odpowiednio ich współczynniki (zagadnienie Lagrange'a) - to jest etap treningu
systemu, bo opiera sie na zgromadzonych danych.
Zastosowana funkcja nazywa się kernel.
Do etapu 2 parametry dochodzą juŜ przekształcone, dając moŜliwość wyznaczenia
hiperpłaszczyzny na podstawie wektora wspierającego (prostopadłego do tej
hiperpłaszczyzny, opartego na obiektach znajdujących się w sąsiedztwie regionu
granicznego).
Samo rozpoznawanie nieznanych obiektów to przekształcenie wg kernela i nastepnie
określenie po której stronie hiperplaszczyzny ten nieznany obiekt się znajduje.
Podział systemów rozpoznawania mówców
1. podział ze względu na cel rozpoznawania
- weryfikacja mówcy – potwierdzenie deklarowanej przez mówcę toŜsamości
- identyfikacja mówcy – określenie, który z mówców się wypowiada, na podstawie
zbioru modeli odniesienia, przy załoŜeniu, Ŝe mówca ma swój model głosu w bazie danych
- autentyzacja mówcy – określenie, czy głos mówcy naleŜy do posiadanego zbioru
modeli
2. podział ze względu na zaleŜność od tekstu
- niezaleŜne od treści – skuteczne dla dowolnej wypowiedzi, wykorzystywane gdy nie
moŜna liczyć na współpracę mówcy
- zaleŜne od treści – skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy
moŜna się spodziewać, Ŝe mówca wymówi hasło, numer identyfikacyjny lub
podpowiedziany przez system tekst
3. podział identyfikacji mówcy ze względu na charakter zbioru modeli mówców
- z zamkniętym zbiorem – kaŜdemu mówcy musi odpowiadać jakiś model
odniesienia, wybierany jest najbliŜszy spośród wszystkich modeli mówców
- z otwartym zbiorem – moŜliwe jest uznanie, Ŝe Ŝaden z modeli odniesienia nie jest
wystarczająco podobny do danej wypowiedzi, wybierany jest najbliŜszy spośród
wszystkich modeli, pod warunkiem, Ŝe jego podobieństwo przekracza określony próg