====== Komprese zvuku ====== ===== Psychoakustický model ===== [[wp>Psychoacoustics]] Ještě vyššíí komperese je možné dosáhnout použitím psychoakustického modelu. Jsou dva druhy maskování: * **Frekvenční maskování** – frekvence o definované intenzitě maskují okolní frekvence s menší intenzitou. * **Časové maskování** – signál o určité frekvenci a intenzitě i po odeznění maskuje jiné frekvence o menší intenzitě. Kodér analyzuje data, určí množství frekv. vzorků, které mohou být zanedbány. V podstatě se při kompresi založené na tomto modelu s vyšší citlivostí kvantují frekvence na které je ycho citlivější a ostatní se kvantují s menším krokem nebo se odstraňují. ===== Joint-stereo coding ===== [[wp>Joint (audio engineering)]] * Znamená podporu pro více než jednu metodu kódování stereo kanálů (L/R) * Tyto metody se obyčejně vhodně mění pro jednotlivé rámce (i sub-rámce) Metody: * Left-Right (Simple) Stereo – oba kanály jako samostatné entity (nevhodné, pokud jsou oba skoro identické) * Mid-side (MS) Stereo – vypočte středový kanál //M// = (//L// + //R//) / 2 a boční kanál //S// = (//L// − //R//) / 2 a pak //L// = //M// + //S//, //R// = //M// - //S// * Intensity Stereo – nahrazuje L/R jedním součtovým kanálem společně s informací o směru (tedy poměrně ztrátové) ===== Algoritmy kódování ve frekvenční oblasti ===== Oba používají psychoakustický model pro řízení přiřazování bitů (bit-allocation) a kvantování. ==== MUSICAM ==== [[wp>MPEG-1 Audio Layer II#MUSICAM]] Sub-band filtering * Signál rozdělen do 32 pásem * Každé pásmo 12 vzorků * FFT k nalezení maskovacích frekvencí alokace bitů pro kvantování na základě minimalizace odstupu šumu od maskovacího prahu (NMR = noise-to-mask ratio) * Výpočet rozsahů (scale factors), adaptivní kvantování (vzorky v rozsahu [-1, 1]) * Informace o počtu přidělených bitů a rozsazích je kódována a přidána k rámci ==== ASPEC ==== Použití MDCT pro převod do frekv. oblasti * Signál rozdělen do 32 pásem. * Definovány dvě délky bloků: 256 vzorků pro 128 a 9 kbps, 512 vzorků pro 64 a 32 kbps. * Snižování aliasingu: TDAC (Windowing, Time Domain Aliasing Cancellation). ===== MPEG-1 audio komprese ===== [[wp>MPEG-1]] * Založena na psychoakustickém modelu. * Možnost dosáhnout kompresního poměru řádově 1:10. * Alokace/přiřazování bitů vzorkům na základě odstupu signálu od masky/prahu (SMR = signal-to-mask ratio). * Pro stereo využívá joint-stereo, MS, separátní kódování. * CBR, VBR ==== Třívrstvová architektura ==== - [[wp>MPEG-1 Audio Layer I]] * 32 frekvenčních pásem (neodpovídá vlastnostem lidského ucha, nižší frekvence – užší pásma, vyšší frekvence – širší) * Každé pásmo má 12 vzorků (32*12=384 samples), Huffmanovo kódování - [[wp>MPEG-1 Audio Layer II]] * Rámec obsahuje 3 × 12 × 32 = 1152 vzorků * Definovány až 3 rozsahy/měřítka (scale factors) pro každé pásmo - [[wp>MPEG-1 Audio Layer III]] (MP3) * Frekvenční filtrace (sub-band filtering) + [[wp>Modified discrete cosine transform|MDCT]] (MDCT přidána pro zvýšení frekvenčního rozlišení) * Následuje neuniformní kvantování a Huffmanovo kódování