Kalábovi

Kalábovic wikina

Uživatelské nástroje

Nástroje pro tento web


pitel:msz:rec

Analýza a předzpracování řeči, základní parametry řeči, cepstrum

Analýza a předzpracování řeči

Spektrální analýza

Spektrum reprezentuje signál ve frekvenční oblasti.

Spektrální funkce se dá vyjádřit pomocí Fourierovy transformace1), ovšem nedá se spočítat (nekonečná, integrál, …) a v praxi ji dokážeme pouze odhadnout pomocí Fourierovy transformace s diskrétním časem (DTFT)2).

Preemfáze

Pre-emphasis

Slouží k vyrovnání frekvenční charakteristiky, protože energie řeči ve vyšších frekvencích klesá.

Implementujeme např. FIR filtrem.

Rámce

Řečový signál je „náhodný“. Signál se ale lépe zpracovává když je periodický. Takže ho rozsekáme na krátké úseky (rámce) a předpokládáme že v nich periodický je.

  • Délka by měla být co nejmenší, ale dostatečná pro odhad parametrů. Typicky 20–25 ms.
  • Rámce se mírně překrývají. To proto, aby mezi nimi nedocházelo k prudkým změnám parametrů. Zpomaluje se tím ale zpracování signálu. Typický překryv je okolo 10 ms.

Základní parametry řeči

Energie

  • Detektor řečové aktivity.
  • Rozlíšení hlások na znělé3) (velká energie) a neznělé4).
  • Selhává při zašuměné řeči, ve které zanikají nizkoenergetické hlásky.
  • Počítá se jako průměr druhých mocnin intenzity.

Průchody nulou

  • Určuje, kolikokrát signál projde nulou.
  • Tato detekce umožňuje rozlišit hlásky na znělé (málo průchodů) a neznělé (hodně průchodů).
  • Také je extrémně citlivá na šum a posun stejnosměrné složky

Korelační koeficienty

Udávají podobnost signálu samého se sebou, pokud ho posuneme o k vzorků (signál vně rámce je nulový).

<m>R(k) = sum{n=0}{N-1-k}{s(n)s(n+k)}</m>

Cepstrum

Cepstrum

Cepstrum slouží k oddělení buzení a modifikačního ústrojí (artikulační trakt) v řeči, protože buzení nemá žádný význam při rozpoznávaní řeči (je příliš závislé na rečníkovi). Problém je, že buzení je v konvoluci s impulzní odezvou filtru artikulačního traktu (v kmitočtové oblasti v součinu), a ani v jedné z oblastí sa nedají složky od sebe dobře oddělit. Potřebujeme nelinearitu, která převede součin na součet.

  • Plíce – zdroj energie
  • Hrtan – buzení (šum nebo periodický signál)
  • Hlasový trakt (filtrace)

signal → [FT → abs → square] → log → [FT → abs → square] → power cepstrum

1)
<m>X(f) = int{-infty}{infty}{x(t)e^{-j2 pi ft}}</m>
2)
<m>X(k) = sum{n=0}{N-1}{x[n]e^{-j2 pi {nk}/N}}</m>
3)
a, z, …
4)
s, p, t, …
/var/www/wiki/data/pages/pitel/msz/rec.txt · Poslední úprava: 03. 07. 2012, 13.53:32 (upraveno mimo DokuWiki)