Kalábovi

Kalábovic wikina

Uživatelské nástroje

Nástroje pro tento web


pitel:msz:komprese_zvuku

Komprese zvuku

Psychoakustický model

Psychoacoustics

Ještě vyššíí komperese je možné dosáhnout použitím psychoakustického modelu.

Jsou dva druhy maskování:

  • Frekvenční maskování – frekvence o definované intenzitě maskují okolní frekvence s menší intenzitou.
  • Časové maskování – signál o určité frekvenci a intenzitě i po odeznění maskuje jiné frekvence o menší intenzitě.

Kodér analyzuje data, určí množství frekv. vzorků, které mohou být zanedbány.

V podstatě se při kompresi založené na tomto modelu s vyšší citlivostí kvantují frekvence na které je ycho citlivější a ostatní se kvantují s menším krokem nebo se odstraňují.

Joint-stereo coding

Joint (audio engineering)

  • Znamená podporu pro více než jednu metodu kódování stereo kanálů (L/R)
  • Tyto metody se obyčejně vhodně mění pro jednotlivé rámce (i sub-rámce)

Metody:

  • Left-Right (Simple) Stereo – oba kanály jako samostatné entity (nevhodné, pokud jsou oba skoro identické)
  • Mid-side (MS) Stereo – vypočte středový kanál M = (L + R) / 2 a boční kanál S = (LR) / 2 a pak L = M + S, R = M - S
  • Intensity Stereo – nahrazuje L/R jedním součtovým kanálem společně s informací o směru (tedy poměrně ztrátové)

Algoritmy kódování ve frekvenční oblasti

Oba používají psychoakustický model pro řízení přiřazování bitů (bit-allocation) a kvantování.

MUSICAM

MPEG-1 Audio Layer II#MUSICAM

Sub-band filtering

  • Signál rozdělen do 32 pásem
  • Každé pásmo 12 vzorků
  • FFT k nalezení maskovacích frekvencí alokace bitů pro kvantování na základě minimalizace odstupu šumu od maskovacího prahu (NMR = noise-to-mask ratio)
  • Výpočet rozsahů (scale factors), adaptivní kvantování (vzorky v rozsahu [-1, 1])
  • Informace o počtu přidělených bitů a rozsazích je kódována a přidána k rámci

ASPEC

Použití MDCT pro převod do frekv. oblasti

  • Signál rozdělen do 32 pásem.
  • Definovány dvě délky bloků: 256 vzorků pro 128 a 9 kbps, 512 vzorků pro 64 a 32 kbps.
  • Snižování aliasingu: TDAC (Windowing, Time Domain Aliasing Cancellation).

MPEG-1 audio komprese

MPEG-1

  • Založena na psychoakustickém modelu.
  • Možnost dosáhnout kompresního poměru řádově 1:10.
  • Alokace/přiřazování bitů vzorkům na základě odstupu signálu od masky/prahu (SMR = signal-to-mask ratio).
  • Pro stereo využívá joint-stereo, MS, separátní kódování.
  • CBR, VBR

Třívrstvová architektura

    • 32 frekvenčních pásem (neodpovídá vlastnostem lidského ucha, nižší frekvence – užší pásma, vyšší frekvence – širší)
    • Každé pásmo má 12 vzorků (32*12=384 samples), Huffmanovo kódování
    • Rámec obsahuje 3 × 12 × 32 = 1152 vzorků
    • Definovány až 3 rozsahy/měřítka (scale factors) pro každé pásmo
    • Frekvenční filtrace (sub-band filtering) + MDCT (MDCT přidána pro zvýšení frekvenčního rozlišení)
    • Následuje neuniformní kvantování a Huffmanovo kódování
/var/www/wiki/data/pages/pitel/msz/komprese_zvuku.txt · Poslední úprava: 03. 07. 2012, 13.53:34 (upraveno mimo DokuWiki)