Lab5 Analiza sygnalu mowy Lab5 Nieznany

Aktywacja poleceń głosowych w kabinie pojazdu – charakterystyka jakości głosu kierowcy

Wprowadzenie

Obecnie współczesne pojazdy wyposażone są w systemy automatycznego rozpoznawania mowy. Jednym z najlepszych i

dobrze osadzonych systemów rozpoznawania mowy jest system MyFordTouch znajdujący się w kabinie pojazdu marki Ford.

System umożliwia sterowanie poleceniami głosowymi systemów multimedialnych, a także nawigacji. Charakteryzuje się

wysokim stopniem zrozumiałości mowy. Jego aktywacja odbywa się przez naciśnięcie specjalnego przycisku, po wciśnięciu

którego osoba może wydawać słowne polecenia. Co więcej takich systemów postaje coraz więcej.

Powstaje jednak pytanie, czy wszystkie osoby mogą z takiego systemu korzystać? Aby odpowiedzieć na to pytanie, należy

zbadać charakterystykę głosu mówcy. Wymaga to wiedzy z zakresu medycyny i techniki.

MyFordTouch:

http://media.ford.com/images/10031/MyFord_English_LR.pdf

Parametry

Parametry, które pozwalają ocenić jakość głosu są między innymi: średnia częstotliwość podstawowa, współczynnik HNR

(ang. Harmonic-To Noise Ratio), współczynnik Jitter, Shimmer. Jeżeli wartości tych parametrów przekraczają określone

wartości prezentowane w tabeli 1, wówczas może to świadczyć o patologii głosu. A w tym wypadku jakość głosu może być

nie najlepsza np. chrypka, co może wpłynąć na wynik rozpoznawania mowy, a więc zmniejszyć jego dokładność.

Tabela 1. Parametry normatywne głosu – przedłużona fonacja samogłoski [i] oraz [a]

Parametr

Wartość

Średnia częstotliwość podstawowa

Kobiety:

Mężczyźni:

Dzieci:

Jitter [%]

Względna zmienność częstotliwości

podstawowej (z okresu na okres) w

obrębie analizowanej próbki głosu.

1.040%

Shimmer [%]

Współczynnik Shimmer stosowany jest

do określenia zmienności amplitudy tonu

podstawowego w kolejnych cyklach w

stosunku do amplitudy średniej tonu

podstawowego.

3.810%

HNR

20 dB

Więcej o głosie:

http://www.fon.hum.uva.nl/praat/manual/Voice.html

Parametry formantów to parametry wyznaczone na podstawie przeprowadzonej analizy częstotliwościowej. Jeżeli

wyznaczymy parametry częstotliwościowe – formanty samogłosek, wówczas będziemy mogli odnieść się do procesu

prawidłowości artykulacji mówcy, oraz do stanu emocjonalnego mówcy np. nadmierny stres.

Program Praat:

http://www.fon.hum.uva.nl/praat/

Program służy do analizy głosu. Pozwala wyznaczyć przytoczone parametry.

Aby wczytać plik wave do programu Praat należy:

Po otwarciu pliku wybrać opcję: View and Edit.

Powinno się pojawić następujące okno:

Aby wyznaczyć parametry należy zaznaczyć nagranie:

Następnie można wyznaczyć poszczególne parametry głosu poprzez wybranie opcji Menu (Spectrum-Show Spectrogram):

Podobnie dla opcji menu Pitch, Intensity, Formant, Pulses.

Następnie należy odczytać i zinterpretować raport głosu poprzez wciśnięcie opcji menu: Pulses->Voice Report. Tutaj

mieszczą się niezbędne do analizy wartości parametrów.

POLECENIA DO WYKONANIA

Należy ocenić jakość sygnału mowy mówcy na podstawie oceny zgodności wyznaczonych wartości parametrów

takich jak średnia częstotliwość podstawowa, współczynnik HNR (ang. Harmonic-To Noise Ratio), współczynnik

Jitter, Shimmer, z wartościami normatywnymi w tabeli 1.

Należy określić stan emocjonalny kierowcy na podstawie częstotliwości formantowych.