Uživatelské nástroje

Nástroje pro tento web


pitel:msz:komprese_zvuku

Komprese zvuku

Psychoakustický model

Psychoacoustics

Ještě vyššíí komperese je možné dosáhnout použitím psychoakustického modelu.

Jsou dva druhy maskování:

 • Frekvenční maskování – frekvence o definované intenzitě maskují okolní frekvence s menší intenzitou.
 • Časové maskování – signál o určité frekvenci a intenzitě i po odeznění maskuje jiné frekvence o menší intenzitě.

Kodér analyzuje data, určí množství frekv. vzorků, které mohou být zanedbány.

V podstatě se při kompresi založené na tomto modelu s vyšší citlivostí kvantují frekvence na které je ycho citlivější a ostatní se kvantují s menším krokem nebo se odstraňují.

Joint-stereo coding

Joint (audio engineering)

 • Znamená podporu pro více než jednu metodu kódování stereo kanálů (L/R)
 • Tyto metody se obyčejně vhodně mění pro jednotlivé rámce (i sub-rámce)

Metody:

 • Left-Right (Simple) Stereo – oba kanály jako samostatné entity (nevhodné, pokud jsou oba skoro identické)
 • Mid-side (MS) Stereo – vypočte středový kanál M = (L + R) / 2 a boční kanál S = (LR) / 2 a pak L = M + S, R = M - S
 • Intensity Stereo – nahrazuje L/R jedním součtovým kanálem společně s informací o směru (tedy poměrně ztrátové)

Algoritmy kódování ve frekvenční oblasti

Oba používají psychoakustický model pro řízení přiřazování bitů (bit-allocation) a kvantování.

MUSICAM

MPEG-1 Audio Layer II#MUSICAM

Sub-band filtering

 • Signál rozdělen do 32 pásem
 • Každé pásmo 12 vzorků
 • FFT k nalezení maskovacích frekvencí alokace bitů pro kvantování na základě minimalizace odstupu šumu od maskovacího prahu (NMR = noise-to-mask ratio)
 • Výpočet rozsahů (scale factors), adaptivní kvantování (vzorky v rozsahu [-1, 1])
 • Informace o počtu přidělených bitů a rozsazích je kódována a přidána k rámci

ASPEC

Použití MDCT pro převod do frekv. oblasti

 • Signál rozdělen do 32 pásem.
 • Definovány dvě délky bloků: 256 vzorků pro 128 a 9 kbps, 512 vzorků pro 64 a 32 kbps.
 • Snižování aliasingu: TDAC (Windowing, Time Domain Aliasing Cancellation).

MPEG-1 audio komprese

MPEG-1

 • Založena na psychoakustickém modelu.
 • Možnost dosáhnout kompresního poměru řádově 1:10.
 • Alokace/přiřazování bitů vzorkům na základě odstupu signálu od masky/prahu (SMR = signal-to-mask ratio).
 • Pro stereo využívá joint-stereo, MS, separátní kódování.
 • CBR, VBR

Třívrstvová architektura

  • 32 frekvenčních pásem (neodpovídá vlastnostem lidského ucha, nižší frekvence – užší pásma, vyšší frekvence – širší)
  • Každé pásmo má 12 vzorků (32*12=384 samples), Huffmanovo kódování
  • Rámec obsahuje 3 × 12 × 32 = 1152 vzorků
  • Definovány až 3 rozsahy/měřítka (scale factors) pro každé pásmo
  • Frekvenční filtrace (sub-band filtering) + MDCT (MDCT přidána pro zvýšení frekvenčního rozlišení)
  • Následuje neuniformní kvantování a Huffmanovo kódování
/var/www/wiki/data/pages/pitel/msz/komprese_zvuku.txt · Poslední úprava: 30. 12. 2022, 13.43:01 autor: 127.0.0.1