background image

Aktywacja poleceń głosowych w kabinie pojazdu – charakterystyka jakości głosu kierowcy 

Wprowadzenie 

Obecnie  współczesne  pojazdy  wyposażone  są  w  systemy  automatycznego  rozpoznawania  mowy.  Jednym  z  najlepszych  i 

dobrze osadzonych systemów rozpoznawania mowy jest system MyFordTouch znajdujący się w kabinie pojazdu marki Ford. 

System  umożliwia  sterowanie  poleceniami  głosowymi  systemów  multimedialnych,  a  także  nawigacji.  Charakteryzuje  się 

wysokim stopniem zrozumiałości mowy. Jego aktywacja odbywa się przez naciśnięcie specjalnego przycisku, po wciśnięciu 

którego osoba może wydawać słowne polecenia. Co więcej takich systemów postaje coraz więcej. 

Powstaje jednak pytanie, czy wszystkie osoby mogą z takiego systemu korzystać? Aby odpowiedzieć na to pytanie, należy 

zbadać charakterystykę głosu mówcy. Wymaga to wiedzy z zakresu medycyny i techniki.  

MyFordTouch: 

http://media.ford.com/images/10031/MyFord_English_LR.pdf

  

Parametry 

Parametry,  które  pozwalają  ocenić  jakość  głosu  są  między  innymi:  średnia  częstotliwość  podstawowa,  współczynnik  HNR 

(ang.  Harmonic-To  Noise  Ratio),  współczynnik  Jitter,  Shimmer.  Jeżeli  wartości  tych  parametrów  przekraczają  określone 

wartości prezentowane w tabeli 1, wówczas może to świadczyć o patologii głosu. A w tym wypadku jakość głosu może być 

nie najlepsza np. chrypka, co może wpłynąć na wynik rozpoznawania mowy, a więc zmniejszyć jego dokładność. 

Tabela 1. Parametry normatywne głosu – przedłużona fonacja samogłoski [i] oraz [a] 

Parametr 

Wartość 

Średnia częstotliwość podstawowa 

Kobiety: 

Mężczyźni: 

Dzieci:  

Jitter [%] 

Względna zmienność częstotliwości 

podstawowej (z okresu na okres) w 

obrębie analizowanej próbki głosu. 

1.040% 

Shimmer [%] 

Współczynnik Shimmer stosowany jest 

do określenia zmienności amplitudy tonu 

podstawowego w kolejnych cyklach w 

stosunku do amplitudy średniej tonu 

podstawowego. 

3.810% 

HNR 

20 dB 

 

Więcej o głosie: 

http://www.fon.hum.uva.nl/praat/manual/Voice.html

 

 

Parametry  formantów  to  parametry  wyznaczone  na  podstawie  przeprowadzonej  analizy  częstotliwościowej.  Jeżeli 

wyznaczymy  parametry  częstotliwościowe  –  formanty  samogłosek,  wówczas  będziemy  mogli  odnieść  się  do  procesu 

prawidłowości artykulacji mówcy, oraz do stanu emocjonalnego mówcy np. nadmierny stres.  

Program Praat: 

http://www.fon.hum.uva.nl/praat/

 

Program służy do analizy głosu. Pozwala wyznaczyć przytoczone parametry. 

Aby wczytać plik wave do programu Praat należy: 

 

 

Po otwarciu pliku wybrać opcję: View and Edit

 

 

background image

Powinno się pojawić następujące okno: 

 

Aby wyznaczyć parametry należy zaznaczyć nagranie: 

 

 

Następnie można wyznaczyć poszczególne parametry głosu poprzez wybranie opcji Menu (Spectrum-Show Spectrogram): 

 

 

Podobnie dla opcji menu Pitch, Intensity, Formant, Pulses. 

Następnie  należy  odczytać  i  zinterpretować  raport  głosu  poprzez  wciśnięcie  opcji  menu:  Pulses->Voice  Report.  Tutaj 

mieszczą się niezbędne do analizy wartości parametrów. 

 

 

POLECENIA DO WYKONANIA 

 

1.

 

Należy ocenić jakość sygnału mowy mówcy na podstawie oceny zgodności wyznaczonych wartości parametrów 

takich jak średnia częstotliwość podstawowa, współczynnik HNR (ang. Harmonic-To Noise Ratio), współczynnik 

Jitter, Shimmer, z wartościami normatywnymi w tabeli 1.  

2.

 

Należy określić stan emocjonalny kierowcy na podstawie częstotliwości formantowych.