Obsah

Analýza a předzpracování řeči, základní parametry řeči, cepstrum

Analýza a předzpracování řeči

Spektrální analýza

Spektrum reprezentuje signál ve frekvenční oblasti.

Spektrální funkce se dá vyjádřit pomocí Fourierovy transformace1), ovšem nedá se spočítat (nekonečná, integrál, …) a v praxi ji dokážeme pouze odhadnout pomocí Fourierovy transformace s diskrétním časem (DTFT)2).

Preemfáze

Pre-emphasis

Slouží k vyrovnání frekvenční charakteristiky, protože energie řeči ve vyšších frekvencích klesá.

Implementujeme např. FIR filtrem.

Rámce

Řečový signál je „náhodný“. Signál se ale lépe zpracovává když je periodický. Takže ho rozsekáme na krátké úseky (rámce) a předpokládáme že v nich periodický je.

Základní parametry řeči

Energie

Průchody nulou

Korelační koeficienty

Udávají podobnost signálu samého se sebou, pokud ho posuneme o k vzorků (signál vně rámce je nulový).

<m>R(k) = sum{n=0}{N-1-k}{s(n)s(n+k)}</m>

Cepstrum

Cepstrum

Cepstrum slouží k oddělení buzení a modifikačního ústrojí (artikulační trakt) v řeči, protože buzení nemá žádný význam při rozpoznávaní řeči (je příliš závislé na rečníkovi). Problém je, že buzení je v konvoluci s impulzní odezvou filtru artikulačního traktu (v kmitočtové oblasti v součinu), a ani v jedné z oblastí sa nedají složky od sebe dobře oddělit. Potřebujeme nelinearitu, která převede součin na součet.

signal → [FT → abs → square] → log → [FT → abs → square] → power cepstrum

1)
<m>X(f) = int{-infty}{infty}{x(t)e^{-j2 pi ft}}</m>
2)
<m>X(k) = sum{n=0}{N-1}{x[n]e^{-j2 pi {nk}/N}}</m>
3)
a, z, …
4)
s, p, t, …