background image

 

 

Przetwarzanie dźwięków

Rodzaje plików dźwiękowych. 
Odtwarzacze multimedialne 

background image

 

 

CD Audio

Proszę przynieść 1-2 płyty CD Audio

background image

 

 

Model psychoakustyczny

Model psychoakustyczny to 

matematyczny model mówiący jakie 

informacje o dźwięku są rozpoznawalne 

przez ludzkie ucho, jakie natomiast nie są.

Modele psychoakustyczne są podstawą 

między innymi kompresji dźwięku, 

algorytmów oceny jakości transmisji 

mowy, systemów automatycznie 

rozpoznających mowę oraz 

rozpoznających mówców. 

background image

 

 

Model psychoakustyczny

Modele psychoakustyczne są szczególną 

grupą modeli układu słuchowego. W tej 

grupie wytyczne do modelowania pochodzą z 

pomiarów psychoakustycznych 

(odsłuchowych), w których słuchacze 

oceniają wrażenia wywołane różnymi 

sygnałami testowymi prezentowanymi w 

określonym kontekście (np. czy słyszą ton 

sinusoidalny prezentowany na tle szumu). 

Model przetwarza sygnał w taki sposób, aby 

jego wyjście stanowiło predykcję ocen 

subiektywnych słuchaczy.

background image

 

 

Instytut Fraunhofera

Organizacja 58 niemieckich 
instytutów naukowych. W jednym z 
nich (Fraunhofer IIS) pracował 
między innymi Karlheinz 
Brandenburg. Wraz ze 
współpracownikami stworzył on 
algorytm MP3 

background image

 

 

ASF

Format ASF (ang. Advanced Streaming 

Format) będący odpowiedzią firmy Microsoft 

na sukcesy RealNetworks umożliwia 

przesyłanie sygnału wideo, dźwięku i 

sekwencji statycznych obrazów 

skojarzonych z dźwiękiem (ang. illustrated 

audio).

Kompresja dźwięku daje rezultaty zbliżone 

do MP3, ustępuje mu jednak pod względem 

jakości.

Podzbiorem ASF jest format WMA (ang. 

Windows Media Audio) ograniczony do 

przekazu samego dźwięku 

background image

 

 

AAC

Kreowany na następcę MP3 otwarty format. Stworzony i 

rozwijany przez Instytut Fraunhofera we współpracy z 

takimi firmami, jak AT&T, Dolby i Sony. Wydajny i 

funkcjonalny. Bardzo dobrze brzmiący – przy kompresji 

1:16 oferuje jakość płyty CD.

Spełnia wymagania zdefiniowane przez Zrzeszenie 

Nadawców Radiowych dla studyjnej jakości dźwięku już 

przy 64 kb/s na kanał.

Nie wymaga silnych mocy obliczeniowych. Taki 

staruszek jak Pentium III 600 MHz potrzebuje do 

kodowania czasu 11-krotnie dłuższego niż oryginał. 

Obsługuje szeroki zakres częstotliwości próbkowania: 

od 8 do 96 kHz. Uproszczoną wersją AAC (ang. 

Advanced Audio Coding) jest format Liquid Audio. 

background image

 

 

AC-3

Format wprowadzony przez firmę Dolby do 

kodowania cyfrowego dźwięku dookólnego w 

strumieniu od 32 do 640 kb/s. Oprócz 

szerokopasmowego dźwięku AC-3 (ang. Audio 

Code number 3) przenosi także informację o jego 

wymiarze akustycznym i o różnicach głośności 

między kanałami. Ten rodzaj kompresji, dawniej 

związany z domeną kina domowego, dziś coraz 

częściej jest określany nazwą zarezerwowaną 

wcześniej dla dźwięku kinowego – Digital Dolby 

(DD). 

Jest też obowiązującym standardem dźwięku w 

HDTV i DVD. Coraz częściej też kodowanie AC-3 

jest wykorzystywane w transmisjach satelitarnych. 

background image

 

 

MP3

MP3 (ang. MPEG-1/2 Audio Layer-3) to 
popularny format stratnej kompresji 
dźwięku używający modelu 
psychoakustycznego. Format został 
stworzony we Instytut Fraunhofera.

Przy tworzeniu jego pierwszej 
implementacji wykorzystywany był m.in. 
utwór Suzanne Vegi Tom's Diner w celu 
dostosowania kompresji do brzmienia 
ludzkiego głosu. 

background image

 

 

MP3 – tryby kompresji

Dla dźwięku stereofonicznego format MP3 

posiada trzy tryby kompresji:

dual channel – w którym dźwięk jest 

zapisywany jako dwa odrębne kanały 

monofoniczne. 

stereo (stereo mode 0) – w którym 

każda ramka zapisywana jest algorytmem 

left/right stereo

joint stereo (stereo mode 1) – w 

którym dla każdej ramki wybierany jest 

najlepszy dla niej algorytm zapisu dźwięku 

stereo. 

background image

 

 

MP3 - algorytmy kodowania 
ramki 

left/right stereo (simple stereoindependent channel) – 

w którym dźwięk w kanałach prawym i lewym jest kodowany 

niezależnie, może jednak zmieniać się liczba bitów 

przeznaczonych na każdy z kanałów. Efektywny dla ramek, w 

których oba kanały różnią się w dużym stopniu. 

middle/side stereo – w którym sygnał stereo kodowany jest 

w postaci pary wartości oznaczających sumę (L+R) oraz 

różnicę (L-R) kanałów. Efektywny dla ramek, w których oba 

kanały przyjmują podobne wartości. 

intensity stereo – w którym sygnał stereo dla niektórych 

(głównie wysokich) częstotliwości kodowany jest jako 

monofoniczna wartość uzupełniona o wektor określający 

kierunek, z którego dochodzi dźwięk. W praktyce stosowany 

tylko przy niskiej przepływności (poniżej 80 kbps). Niektóre 

enkodery (np. LAME) w ogóle nie stosują tego algorytmu. 

background image

 

 

MP3 - Kodowanie percepcyjne w 
szczegółach 

MP3 jest formatem wykorzystującym kompresję stratną, 

czyli taką, która powoduje trwałe zagubienie części 

informacji. Nie zawsze jednak musi to być zauważalne. 

Nasze uszy, jak wykazały dokładne badania, też 

oszukują, choć nie ma to większego wpływu na 

odbierane wrażenia.

Jeśli pojawi się bardzo głośny, niski dźwięk (np. 

uderzenie stopy zestawu perkusyjnego) "ogłuszona" 

błona bębenkowa przez kilka milisekund będzie 

ignorować wszystkie inne dźwięki, zanim "nie przyjdzie 

do siebie". Ich usunięcie z sygnału dźwiękowego nie 

zmieni zatem odczucia słuchowego, zmniejszy 

natomiast rozmiar pliku. Podobny efekt da obcięcie 

częstotliwości powyżej 15 kHz, których większość ludzi i 

tak nie słyszy (poza tym komputerowe głośniki przy 

ograniczonym paśmie przenoszenia miałyby kłopot z ich 

odtworzeniem). 

background image

 

 

MP3 - Kodowanie percepcyjne w 
szczegółach 

Głośne dźwięki potrafią "przesłonić" cichsze. Jeśli 

zajrzeć głębiej w strukturę dźwięku, okaże się, że 

z dwóch blisko siebie leżących składowych 

głośniejsza będzie maskować cichszą, która przy 

odpowiednio dużej różnicy amplitud w ogóle 

przestanie być słyszalna 

Maskowanie przybiera na sile i staje się jeszcze 

bardziej złożone przy np. wielu grających 

równocześnie instrumentach, gdy występuje 

wzajemne oddziaływanie wielu grup tonów 

harmonicznych i nieharmonicznych.

background image

 

 

MP3 - Kodowanie percepcyjne w 
szczegółach 

Dokładne poznanie tych mechanizmów 
pozwala usunąć z pliku dźwiękowego 
składniki i tak niedostrzegane przez ucho 
w naturalnych warunkach. W rezultacie 
rozmiar pliku może się "skurczyć" do 20% 
początkowej wartości, nadal zachowując 
jakość zbliżoną do oryginału. Nawet 
ograniczenie jego wielkości do 5% ciągle 
daje zadowalające efekty.

background image

 

 

MP3 – CBR

Stała przepływność - cecha 
(zwykle skompresowanego) 
strumienia danych multimedialnych 
(np. dźwięku, wideo) polegająca na 
zapisie określonego czasu nagrania 
zawsze przy pomocy tej samej 
liczby bitów, niezależnie od stopnia 
skomplikowania zapisywanych 
danych. 

background image

 

 

MP3 - VBR

Zmienna przepustowość w odniesieniu 

do kodeków, zmienna przepustowość 

oznacza zróżnicowanie ilości danych 

wyjściowych przypadających na 

poszczególne segmenty czasowe w 

zależności od złożoności danych 

wejściowych w tych segmentach.

Celem tej metody kompresji danych jest 

utrzymanie stałej jakości sygnału 

wyjściowego, nie zaś stałej ilości danych 

przypadających na daną jednostkę czasu. 

background image

 

 

MP3 - VBR

Zmienny bitrate oznacza, że ilość danych 

użytych do zapisania poszczególnych 

fragmentów pliku będzie różna - na 

przykład w zależności od tego, czy 

zapisywany jest pojedynczy głos, czy też 

koncert. 

Kodeki takie jak Vorbis i prawie wszystkie 

kodeki video stosują technikę zmiennej 

przepustowości. Pliki MP3 mogą być 

kompresowane z użyciem techniki 

zarówno stałej, jak i zmiennej 

przepustowości.

background image

 

 

MPEG i warstwa 

Format MP3 jest określany jako MPEG 
Layer III albo MPEG-1 L3. Skąd się to 
bierze?

Otóż kompresja dźwięku (podobnie 
zresztą, jak kompresja obrazu) jest 
określona pewnymi normami 
wprowadzonymi przez Grupę Ekspertów 
Filmowych (ang. Moving Pictures Experts 
Group
) i obejmuje m.in.: 

background image

 

 

MPEG i warstwa

Warstwa (ang. layer) określa poziom zaawansowania 

technik używanych do kompresowania dźwięku.

Im wyższy jej numer, tym bardziej skomplikowane 

algorytmy przetwarzania i tym lepsza jakość przy tej 

samej objętości pliku.

Warstwa druga (ang. Layer II) stosuje od 2 to 4 razy 

bardziej złożony schemat kodowania w porównaniu z 

warstwą pierwszą (ang. Layer I). Określa standard 

MiniDisc.

Warstwa trzecia (ang. Layer III) wykorzystuje 

dodatkowo wyrafinowane mechanizmy kodowania 

percepcyjnego opartego na efekcie maskowania, 

umożliwiając transmisję wysokiej jakości dźwięków w 

paśmie ISDN.

background image

 

 

MPEG i warstwa

MPEG-1 Audio (ISO/IEC 11172-3) – 
kodowanie dźwięków jednokanałowych 
(mono) i dwukanałowych (stereo) o 
częstotliwości próbkowania 32 kHz, 44,1 
kHz, 48 kHz i prędkościach bitowych:

Layer I – od 32 do 448 kb/s 

Layer II – od 32 do 384 kb/s 

Layer III – od 32 do 320 kb/s

background image

 

 

MPEG i warstwa

MPEG-2 Audio – rozszerzenie zakresu 
MPEG-1 na niższe częstotliwości: 16 kHz, 
22,05 kHz i 24 kHz dla prędkości 
bitowych:

Layer I – od 32 do 256 kb/s 

Layer II i Layer III – od 8 do 160 kb/s

   wraz z dodaniem możliwości kodowania 

dźwięku wielokanałowego 5.1 przy 
prędkości bitowej 1 Mbit/s. 

background image

 

 

MPEG i warstwa

MPEG-2 AAC (ISO/IEC 13818-7) – 
kodowanie z bardzo wysoką jakością 
od jednego do 48 kanałów 
dźwiękowych w szerokim zakresie 
częstotliwości próbkujących (od 8 do 
96 kHz) przy różnych prędkościach 
bitowych (od 8 kb/s dla 
monofonicznych sygnałów mowy do 
160 kb/s na każdy kanał)

background image

 

 

MPEG i warstwa

MPEG-4 Audio– kodowanie 
naturalnych i tworzenie 
syntetycznych obiektów 
dźwiękowych w bardzo szerokim 
zakresie prędkości bitowych. 

background image

 

 

OGG

Format, z którym producenci sprzętu i 

oprogramowania wiążą duże nadzieje. 

Nieobwarowany, jak MP3, licznymi patentami. Kod 

źródłowy jawny, udostępniony w Internecie 

(www.vorbis.com). Coraz więcej odtwarzaczy 

multimedialnych jest "uzbrojonych" w dekoder 

Vorbis. Koder akceptuje pliki w różnej 

rozdzielczości bitowej i zakresie częstotliwości 

próbkujących od 8 do 192 kHz. Dźwięk może być 

kodowany dla różnych przepustowości łącza i 

maksymalnie 255 kanałów!

Format Vorbis obsługuje także etykiety (ang. tags

zawierające informacje o wykonawcy i albumie. 

background image

 

 

WMA

WMA (ang. Windows Media Audio) - 
format kompresji dźwięku stworzony 
przez Microsoft Corporation.

W zamierzeniach producenta ma 
konkurować z formatem MP3.

background image

 

 

WMA

Powodem stworzenia WMA mogły być konflikty 

patentowe z Fraunhofer Institute - twórcą formatu 

MP3, dotyczące dołączania kodeka MP3 do 

systemu Windows. Według Microsoftu WMA 

zapewnia jakość dźwięku znacznie lepszą niż MP3, 

a początkowo firma z Redmond twierdziła nawet, 

że WMA dorównuje jakości płyty CD przy bitrate 

równym 64 kb/s.

Niezależne testy odsłuchowe pokazały, że choć 

WMA przy bitrate 96 kb/s i niższym brzmi nieco 

lepiej niż MP3, to jednak przy wysokim bitrate 

oferuje zauważalnie gorszą jakość dźwięku. Kodek 

w żadnym wypadku nie dorównuje jakości płyty 

CD przy 64 kb/s. 

background image

 

 

WAV

Jest najczęściej stosowanym 
formatem na platformie PC. 
Zazwyczaj odnosi się do czystych 
danych
, chociaż może również 
oznaczać sygnał skompresowany.

Dźwięk może być jednokanałowy-
mono lub dwukanałowy-stereo

background image

 

 

MIDI

MIDI skrót od Musical Instrument Digital 

Interface jest systemem (interfejs, software i 

zestaw komend) służącym do przekazywania 

informacji pomiędzy elektronicznymi 

instrumentami muzycznymi. 

Wraz z rozwojem komputerów osobistych i 

technologii multimedialnych standard MIDI został 

zaadaptowany do komunikacji między 

komputerem a kartą dźwiękową. Pozwoliło to 

komponować muzykę oraz odtwarzać ją 

korzystając wyłącznie z komputera (przy użyciu 

odpowiedniego oprogramowania). 

background image

 

 

QuickTime

Pomimo długiej obecności na rynku 

QuickTime nie zdobył większej 

popularności. Z tego względu w Internecie 

bardzo ciężko znaleźć takie pliki. Wynika to 

zapewne z faktu, iż system ten nie oferuje 

możliwości ripowania płyt CDAudio, co 

utrudnia tworzenie plików dźwiękowych.

W takiej sytuacji warto jedynie wspomnieć, 

że do kompresji dźwięku użyto kodera 

QDesign, który charakteryzuje się bardzo 

dobrym współczynnikiem kompresji.

background image

 

 

Kompresja

http://mp3.wp.pl/p/test/wyniki/

http://media-convert.com/convert/

background image

 

 

Przetwarzanie dźwięków

Odtwarzacze multimedialne

background image

 

 

Najpopularniejsze odtwarzacze 
multimedialne

Winamp – www.winamp.com

Microsoft Windows Media Player – www.microsoft.com

RealPlayer - www.realnetworks.com

QuickTime Player - http://www.apple.com/quicktime

background image

 

 

Źródła

http://pl.wikipedia.org

www.chip.pl


Document Outline