Przegląd stanu technologii języka naturalnego, Wisniewski.Andrzej, Analiza.Obrazow.I.Sygnalow, Materialy


Temat 1:

Przegląd stanu technologii języka naturalnego

  1. Wejście za pomocą języka mówionego

  2. Wejście za pomocą języka pisanego

  3. Analiza i rozumienie języka

  4. Generowanie tekstu

  5. Wyjście za pomocą języka mówionego

  6. Dialog

  7. Przetwarzanie dokumentów

  8. Wielojęzyczność

  9. Transmisja i przechowywanie

  10. Zasoby językowe

  1. Wejście za pomocą języka mówionego


Ważniejsze składniki typowego systemu konwersacyjnego (interaktywnego, dialogowego).

0x01 graphic

  1. Wejście za pomocą języka pisanego

Język pisany



Przekształcanie do postaci cyfrowej

Rozpoznawanie

Stan obecny i kierunki rozwoju


  1. Analiza i rozumienie języka

  1. Generowanie języka


  1. Wyjście za pomocą języka mówionego


0x08 graphic
Schemat funkcjonalny generatora mowy syntetycznej

0x08 graphic
0x08 graphic


  1. Dialog

Systemy dialogowe języka mówionego

Ogólne własności

Ogólny przegląd systemów dialogowych języka mówionego

Celem systemu dialogowego jest ułatwienie użytkownikowi uzyskiwania potrzebnej informacji, dla której wyrażenia pojedyncze zdanie może być niewystarczające.

System dialogowy zapewnia następujące korzyści:

Typowy scenariusz dla systemu dialogowego:

Własności systemu dialogowego:


Struktura systemu dialogowego

0x01 graphic


Wyniki dotychczasowych doświadczeń:


  1. Przetwarzanie dokumentów

  1. Wielojęzyczność

  1. Transmisja i przechowywanie

  1. Zasoby językowe

Przegląd zasobów mowy

TI 46

Zasób składa się ze słów izolowanych. Został utworzony w 1980 r. przez Texas Instruments (TI). Materiał został nagrany w izolowanej dźwiękowo kabinie za pomocą kardioidalnego mikrofonu dynamicznego, umieszczonego dwa cale od ust mówiącego, poza strumieniem oddechu.

TI46 zawiera 46 słów wypowiadanych przez 16 mówców: 8 mężczyzn oznaczonych m1-m8 i 8 kobiet oznaczonych f1-18. Każde słowo posiada dwuliterowy skrót (kod podpowiedzi).

Tabela 1

Słowo

Kod

Słowo

Kod

Słowo

Kod

Słowo

Kod

Słowo

Kod

ZERO

'00'

A

'0A'

K

'0K'

U

'0U'

NO

'NO'

ONE

'01'

B

'0B'

L

'0L'

V

'0V'

REBOUT

'RB'

TWO

'02'

C

'0C'

M

'0M'

W

'0W'

REPEAT

'RP'

THREE

'03'

D

'0D'

N

'0N'

X

'0X'

STOP

'SP'

FOUR

'04'

E

'0E'

O

'0O'

Y

'0Y'

START

'ST'

FIVE

'05'

F

'0F'

P

'0P'

Z

'0Z'

YES

'YS'

SIX

'06'

G

'0G'

Q

'0Q'

ENTER

'EN'

SEVEN

'07'

H

'0H

R

'0R'

ERASE

'ER'

EIGHT

'08'

I

'0I'

S

'0S'

GO

'GO'

NINE

'09'

J

'0J'

T

'0T'

HELP

'HP'

Każde słowo wypowiadane jest 26 razy przez każdego mówcę. W każdym katalogu mówcy oznaczonym F1-F8 i M1-M8 znajdują się odpowiednie pliki .wav, zaczynające się od 1024 bajtowego standardowego nagłówka formatu NIST SPHERE.

YOHO

Baza cyfr połączonych

ATC (Air Traffic Control)

ATIS (Air Travel Information System)

Zasoby mowy w Europie

Obecnie trwają prace nad utworzeniem sieci zasobów językowych, podobnej do amerykańskiego konsorcjum LDC i będącej dla niego partnerem w wymianie danych. Jest to najważniejszy cel projektu RELATOR, realizowanego we współpracy z wieloma inicjatywami: EAGLES, ELSNET, EUROCOCOSDA, SPEECHDAT.

BABEL jest europejskim projektem w ramach programu COPERNICUS skupiającym wiele ośrodków badawczych ze Wschodniej i Zachodniej Europy, realizowanym w latach 1995-1998

Zakłada się, że baza danych zapewni materiał leksykalny do realizacji następujących zadań badawczych:

  1. W zakresie ekstrakcji cech i charakterystyk sygnałów mowy:

  1. W zakresie rozpoznawania mówcy (rozpoznawania tożsamości mówiącego na podstawie jego głosu):

  1. W zakresie rozpoznawania mowy:

  1. W zakresie segmentacji sygnałów mowy:

Założenia dotyczące rejestracji sygnałów mowy:

Zasób mowy polskiej ROBOT bazuje na następujących słownikach:

Poniżej przedstawiono zawartość zasobów, słowniki, które były bazą przy ich tworzeniu oraz sposób rejestracji i liczbę plików każdego zasobu.

1

Głośnik

Moduł cyfrowej

syntezy

mowy

zapis leksykalny tekstu

Baza difonów

Moduł przetwarzania tekstu

Dane wejściowe w postaci tekstu w języku polskim

zapis leksykalny

tekst wejściowy

Konwersja leksykalna

Przetwarzanie wstępne

Moduł przetwarzania tekstu

sygnał

mowy

zapis leksykalny

tekstu

filtrowanie

łączenie difonów

Moduł cyfrowej syntezy mowy



Wyszukiwarka

Podobne podstrony:
Techniki analizy sygnału mowy, Wisniewski.Andrzej, Analiza.Obrazow.I.Sygnalow, Materialy
T1 Rys Wytwarzanie, Wisniewski.Andrzej, Analiza.Obrazow.I.Sygnalow, Materialy
T3 Rys Automatyczne rozpoznawanie mowy, Wisniewski.Andrzej, Analiza.Obrazow.I.Sygnalow, Materialy
Przeglądy obiektów szkolnych przed nowym rokiem szkolnym, Analiza stanu bhp w zakładzie
buchalski,logika układow cyfrowych, ZASTOSOWANIE JĘZYKA WYRAŻEŃ NATURALNYCH DO SYNTEZY I ANALIZY AUT
Oznaczenie zawartości sacharydów, Technologia żywnosci i Żywienie człowieka, 4 SEMESTR, Analiza żywn
Przetwarzanie języka naturalnego
Nowoczesne technologie czy natura
AA Analiza i ocena jakości żywności, Technologia żywnosci i Żywienie człowieka, 4 SEMESTR, Analiza ż
Raport z przeglądu stanu ochrony przeciwpożarowej Szkoły przykład, ppoż
Analiza stanu BHP przykład, bhp zachomikowane, Ocena ANALIZA BHP
oznaczanie składu wina, Technologia żywnosci i Żywienie człowieka, 4 SEMESTR, Analiza żywności
konserwanty, Technologia żywnosci i Żywienie człowieka, 4 SEMESTR, Analiza żywności
Przeglad stosowanych technologi Nieznany
Pytania na egzamin ocena jakości żywności 2007, Technologia żywnosci i Żywienie człowieka, 4 SEMESTR
Podział tłuszczów, Technologia żywnosci i Żywienie człowieka, 4 SEMESTR, Analiza żywności
Aktywność wody 2007, Technologia żywnosci i Żywienie człowieka, 4 SEMESTR, Analiza żywności
spektrofotometr-na-nadfiolet, Technologia żywności UR Kraków, Inżynierskie, Analiza instrumentalna

więcej podobnych podstron