Przetwarzanie dźwieków

Model psychoakustyczny



Model psychoakustyczny to

matematyczny model mówiący jakie

informacje o dźwięku są rozpoznawalne

przez ludzkie ucho, jakie natomiast nie są.



Modele psychoakustyczne są podstawą

między innymi kompresji dźwięku,

algorytmów oceny jakości transmisji

mowy, systemów automatycznie

rozpoznających mowę oraz

rozpoznających mówców.

Model psychoakustyczny



Modele psychoakustyczne są szczególną

grupą modeli układu słuchowego. W tej

grupie wytyczne do modelowania pochodzą z

pomiarów psychoakustycznych

(odsłuchowych), w których słuchacze

oceniają wrażenia wywołane różnymi

sygnałami testowymi prezentowanymi w

określonym kontekście (np. czy słyszą ton

sinusoidalny prezentowany na tle szumu).



Model przetwarza sygnał w taki sposób, aby

jego wyjście stanowiło predykcję ocen

subiektywnych słuchaczy.

Instytut Fraunhofera



Organizacja 58 niemieckich
instytutów naukowych. W jednym z
nich (Fraunhofer IIS) pracował
między innymi Karlheinz
Brandenburg. Wraz ze
współpracownikami stworzył on
algorytm MP3

ASF



Format ASF (ang. Advanced Streaming

Format) będący odpowiedzią firmy Microsoft

na sukcesy RealNetworks umożliwia

przesyłanie sygnału wideo, dźwięku i

sekwencji statycznych obrazów

skojarzonych z dźwiękiem (ang. illustrated

audio).



Kompresja dźwięku daje rezultaty zbliżone

do MP3, ustępuje mu jednak pod względem

jakości.



Podzbiorem ASF jest format WMA (ang.

Windows Media Audio) ograniczony do

przekazu samego dźwięku

AAC



Kreowany na następcę MP3 otwarty format. Stworzony i

rozwijany przez Instytut Fraunhofera we współpracy z

takimi firmami, jak AT&T, Dolby i Sony. Wydajny i

funkcjonalny. Bardzo dobrze brzmiący – przy kompresji

1:16 oferuje jakość płyty CD.



Spełnia wymagania zdefiniowane przez Zrzeszenie

Nadawców Radiowych dla studyjnej jakości dźwięku już

przy 64 kb/s na kanał.



Nie wymaga silnych mocy obliczeniowych. Taki

staruszek jak Pentium III 600 MHz potrzebuje do

kodowania czasu 11-krotnie dłuższego niż oryginał.

Obsługuje szeroki zakres częstotliwości próbkowania:

od 8 do 96 kHz. Uproszczoną wersją AAC (ang.

Advanced Audio Coding) jest format Liquid Audio.

AC-3



Format wprowadzony przez firmę Dolby do

kodowania cyfrowego dźwięku dookólnego w

strumieniu od 32 do 640 kb/s. Oprócz

szerokopasmowego dźwięku AC-3 (ang. Audio

Code number 3) przenosi także informację o jego

wymiarze akustycznym i o różnicach głośności

między kanałami. Ten rodzaj kompresji, dawniej

związany z domeną kina domowego, dziś coraz

częściej jest określany nazwą zarezerwowaną

wcześniej dla dźwięku kinowego – Digital Dolby

(DD).



Jest też obowiązującym standardem dźwięku w

HDTV i DVD. Coraz częściej też kodowanie AC-3

jest wykorzystywane w transmisjach satelitarnych.

MP3



MP3 (ang. MPEG-1/2 Audio Layer-3) to
popularny format stratnej kompresji
dźwięku używający modelu
psychoakustycznego. Format został
stworzony we Instytut Fraunhofera.



Przy tworzeniu jego pierwszej
implementacji wykorzystywany był m.in.
utwór Suzanne Vegi Tom's Diner w celu
dostosowania kompresji do brzmienia
ludzkiego głosu.

MP3 – tryby kompresji

Dla dźwięku stereofonicznego format MP3

posiada trzy tryby kompresji:



dual channel – w którym dźwięk jest

zapisywany jako dwa odrębne kanały

monofoniczne.



stereo (stereo mode 0) – w którym

każda ramka zapisywana jest algorytmem

left/right stereo.



joint stereo (stereo mode 1) – w

którym dla każdej ramki wybierany jest

najlepszy dla niej algorytm zapisu dźwięku

stereo.

MP3 - algorytmy kodowania
ramki



left/right stereo (simple stereo, independent channel) –

w którym dźwięk w kanałach prawym i lewym jest kodowany

niezależnie, może jednak zmieniać się liczba bitów

przeznaczonych na każdy z kanałów. Efektywny dla ramek, w

których oba kanały różnią się w dużym stopniu.



middle/side stereo – w którym sygnał stereo kodowany jest

w postaci pary wartości oznaczających sumę (L+R) oraz

różnicę (L-R) kanałów. Efektywny dla ramek, w których oba

kanały przyjmują podobne wartości.



intensity stereo – w którym sygnał stereo dla niektórych

(głównie wysokich) częstotliwości kodowany jest jako

monofoniczna wartość uzupełniona o wektor określający

kierunek, z którego dochodzi dźwięk. W praktyce stosowany

tylko przy niskiej przepływności (poniżej 80 kbps). Niektóre

enkodery (np. LAME) w ogóle nie stosują tego algorytmu.

MP3 - Kodowanie percepcyjne w
szczegółach



MP3 jest formatem wykorzystującym kompresję stratną,

czyli taką, która powoduje trwałe zagubienie części

informacji. Nie zawsze jednak musi to być zauważalne.

Nasze uszy, jak wykazały dokładne badania, też

oszukują, choć nie ma to większego wpływu na

odbierane wrażenia.



Jeśli pojawi się bardzo głośny, niski dźwięk (np.

uderzenie stopy zestawu perkusyjnego) "ogłuszona"

błona bębenkowa przez kilka milisekund będzie

ignorować wszystkie inne dźwięki, zanim "nie przyjdzie

do siebie". Ich usunięcie z sygnału dźwiękowego nie

zmieni zatem odczucia słuchowego, zmniejszy

natomiast rozmiar pliku. Podobny efekt da obcięcie

częstotliwości powyżej 15 kHz, których większość ludzi i

tak nie słyszy (poza tym komputerowe głośniki przy

ograniczonym paśmie przenoszenia miałyby kłopot z ich

odtworzeniem).

MP3 - Kodowanie percepcyjne w
szczegółach



Głośne dźwięki potrafią "przesłonić" cichsze. Jeśli

zajrzeć głębiej w strukturę dźwięku, okaże się, że

z dwóch blisko siebie leżących składowych

głośniejsza będzie maskować cichszą, która przy

odpowiednio dużej różnicy amplitud w ogóle

przestanie być słyszalna



Maskowanie przybiera na sile i staje się jeszcze

bardziej złożone przy np. wielu grających

równocześnie instrumentach, gdy występuje

wzajemne oddziaływanie wielu grup tonów

harmonicznych i nieharmonicznych.

MP3 - Kodowanie percepcyjne w
szczegółach

•

Dokładne poznanie tych mechanizmów
pozwala usunąć z pliku dźwiękowego
składniki i tak niedostrzegane przez ucho
w naturalnych warunkach. W rezultacie
rozmiar pliku może się "skurczyć" do 20%
początkowej wartości, nadal zachowując
jakość zbliżoną do oryginału. Nawet
ograniczenie jego wielkości do 5% ciągle
daje zadowalające efekty.

MP3 – CBR



Stała przepływność - cecha
(zwykle skompresowanego)
strumienia danych multimedialnych
(np. dźwięku, wideo) polegająca na
zapisie określonego czasu nagrania
zawsze przy pomocy tej samej
liczby bitów, niezależnie od stopnia
skomplikowania zapisywanych
danych.

MP3 - VBR



Zmienna przepustowość w odniesieniu

do kodeków, zmienna przepustowość

oznacza zróżnicowanie ilości danych

wyjściowych przypadających na

poszczególne segmenty czasowe w

zależności od złożoności danych

wejściowych w tych segmentach.



Celem tej metody kompresji danych jest

utrzymanie stałej jakości sygnału

wyjściowego, nie zaś stałej ilości danych

przypadających na daną jednostkę czasu.

MP3 - VBR



Zmienny bitrate oznacza, że ilość danych

użytych do zapisania poszczególnych

fragmentów pliku będzie różna - na

przykład w zależności od tego, czy

zapisywany jest pojedynczy głos, czy też

koncert.



Kodeki takie jak Vorbis i prawie wszystkie

kodeki video stosują technikę zmiennej

przepustowości. Pliki MP3 mogą być

kompresowane z użyciem techniki

zarówno stałej, jak i zmiennej

przepustowości.

MPEG i warstwa



Format MP3 jest określany jako MPEG
Layer III albo MPEG-1 L3. Skąd się to
bierze?



Otóż kompresja dźwięku (podobnie
zresztą, jak kompresja obrazu) jest
określona pewnymi normami
wprowadzonymi przez Grupę Ekspertów
Filmowych (ang. Moving Pictures Experts
Group) i obejmuje m.in.:

MPEG i warstwa



Warstwa (ang. layer) określa poziom zaawansowania

technik używanych do kompresowania dźwięku.



Im wyższy jej numer, tym bardziej skomplikowane

algorytmy przetwarzania i tym lepsza jakość przy tej

samej objętości pliku.



Warstwa druga (ang. Layer II) stosuje od 2 to 4 razy

bardziej złożony schemat kodowania w porównaniu z

warstwą pierwszą (ang. Layer I). Określa standard

MiniDisc.



Warstwa trzecia (ang. Layer III) wykorzystuje

dodatkowo wyrafinowane mechanizmy kodowania

percepcyjnego opartego na efekcie maskowania,

umożliwiając transmisję wysokiej jakości dźwięków w

paśmie ISDN.

MPEG i warstwa



MPEG-1 Audio (ISO/IEC 11172-3) –
kodowanie dźwięków jednokanałowych
(mono) i dwukanałowych (stereo) o
częstotliwości próbkowania 32 kHz, 44,1
kHz, 48 kHz i prędkościach bitowych:



Layer I – od 32 do 448 kb/s



Layer II – od 32 do 384 kb/s



Layer III – od 32 do 320 kb/s

MPEG i warstwa



MPEG-2 Audio – rozszerzenie zakresu
MPEG-1 na niższe częstotliwości: 16 kHz,
22,05 kHz i 24 kHz dla prędkości
bitowych:



Layer I – od 32 do 256 kb/s



Layer II i Layer III – od 8 do 160 kb/s

wraz z dodaniem możliwości kodowania

dźwięku wielokanałowego 5.1 przy
prędkości bitowej 1 Mbit/s.

MPEG i warstwa



MPEG-2 AAC (ISO/IEC 13818-7) –
kodowanie z bardzo wysoką jakością
od jednego do 48 kanałów
dźwiękowych w szerokim zakresie
częstotliwości próbkujących (od 8 do
96 kHz) przy różnych prędkościach
bitowych (od 8 kb/s dla
monofonicznych sygnałów mowy do
160 kb/s na każdy kanał)

MPEG i warstwa



MPEG-4 Audio– kodowanie
naturalnych i tworzenie
syntetycznych obiektów
dźwiękowych w bardzo szerokim
zakresie prędkości bitowych.

OGG



Format, z którym producenci sprzętu i

oprogramowania wiążą duże nadzieje.

Nieobwarowany, jak MP3, licznymi patentami. Kod

źródłowy jawny, udostępniony w Internecie

(www.vorbis.com). Coraz więcej odtwarzaczy

multimedialnych jest "uzbrojonych" w dekoder

Vorbis. Koder akceptuje pliki w różnej

rozdzielczości bitowej i zakresie częstotliwości

próbkujących od 8 do 192 kHz. Dźwięk może być

kodowany dla różnych przepustowości łącza i

maksymalnie 255 kanałów!



Format Vorbis obsługuje także etykiety (ang. tags)

zawierające informacje o wykonawcy i albumie.

WMA



WMA (ang. Windows Media Audio) -
format kompresji dźwięku stworzony
przez Microsoft Corporation.



W zamierzeniach producenta ma
konkurować z formatem MP3.

WMA



Powodem stworzenia WMA mogły być konflikty

patentowe z Fraunhofer Institute - twórcą formatu

MP3, dotyczące dołączania kodeka MP3 do

systemu Windows. Według Microsoftu WMA

zapewnia jakość dźwięku znacznie lepszą niż MP3,

a początkowo firma z Redmond twierdziła nawet,

że WMA dorównuje jakości płyty CD przy bitrate

równym 64 kb/s.



Niezależne testy odsłuchowe pokazały, że choć

WMA przy bitrate 96 kb/s i niższym brzmi nieco

lepiej niż MP3, to jednak przy wysokim bitrate

oferuje zauważalnie gorszą jakość dźwięku. Kodek

w żadnym wypadku nie dorównuje jakości płyty

CD przy 64 kb/s.

WAV



Jest najczęściej stosowanym
formatem na platformie PC.
Zazwyczaj odnosi się do czystych
danych, chociaż może również
oznaczać sygnał skompresowany.



Dźwięk może być jednokanałowy-
mono lub dwukanałowy-stereo

MIDI



MIDI skrót od Musical Instrument Digital

Interface jest systemem (interfejs, software i

zestaw komend) służącym do przekazywania

informacji pomiędzy elektronicznymi

instrumentami muzycznymi.



Wraz z rozwojem komputerów osobistych i

technologii multimedialnych standard MIDI został

zaadaptowany do komunikacji między

komputerem a kartą dźwiękową. Pozwoliło to

komponować muzykę oraz odtwarzać ją

korzystając wyłącznie z komputera (przy użyciu

odpowiedniego oprogramowania).

QuickTime



Pomimo długiej obecności na rynku

QuickTime nie zdobył większej

popularności. Z tego względu w Internecie

bardzo ciężko znaleźć takie pliki. Wynika to

zapewne z faktu, iż system ten nie oferuje

możliwości ripowania płyt CDAudio, co

utrudnia tworzenie plików dźwiękowych.



W takiej sytuacji warto jedynie wspomnieć,

że do kompresji dźwięku użyto kodera

QDesign, który charakteryzuje się bardzo

dobrym współczynnikiem kompresji.

Kompresja



http://mp3.wp.pl/p/test/wyniki/



http://media-convert.com/convert/

Najpopularniejsze odtwarzacze
multimedialne



Winamp – www.winamp.com



Microsoft Windows Media Player – www.microsoft.com



RealPlayer - www.realnetworks.com



QuickTime Player - http://www.apple.com/quicktime

Źródła



http://pl.wikipedia.org



Document Outline