====== Analýza a předzpracování řeči, základní parametry řeči, cepstrum ======
===== Analýza a předzpracování řeči =====
==== Spektrální analýza ====
**Spektrum** reprezentuje signál ve frekvenční oblasti.
**Spektrální funkce** se dá vyjádřit pomocí [[wp>Fourier transform|Fourierovy transformace]]((X(f) = int{-infty}{infty}{x(t)e^{-j2 pi ft}})), ovšem __nedá se spočítat__ (nekonečná, integrál, ...) a v praxi ji dokážeme pouze odhadnout pomocí [[wp>Discrete-time Fourier transform|Fourierovy transformace s diskrétním časem (DTFT)]]((X(k) = sum{n=0}{N-1}{x[n]e^{-j2 pi {nk}/N}})).
==== Preemfáze ====
[[wp>Pre-emphasis]]
Slouží k vyrovnání frekvenční charakteristiky, protože energie řeči ve vyšších frekvencích klesá.
Implementujeme např. FIR filtrem.
==== Rámce ====
Řečový signál je "náhodný". Signál se ale lépe zpracovává když je periodický. Takže ho rozsekáme na krátké úseky (**rámce**) a předpokládáme že v nich periodický je.
* Délka by měla být co nejmenší, ale dostatečná pro odhad parametrů. Typicky 20--25 ms.
* Rámce se mírně překrývají. To proto, aby mezi nimi nedocházelo k prudkým změnám parametrů. Zpomaluje se tím ale zpracování signálu. Typický překryv je okolo 10 ms.
===== Základní parametry řeči =====
==== Energie ====
* Detektor řečové aktivity.
* Rozlíšení hlások na znělé((a, z, ...)) (velká energie) a neznělé((s, p, t, ...)).
* Selhává při zašuměné řeči, ve které zanikají nizkoenergetické hlásky.
* Počítá se jako průměr druhých mocnin intenzity.
==== Průchody nulou ====
* Určuje, kolikokrát signál projde nulou.
* Tato detekce umožňuje rozlišit hlásky na znělé (málo průchodů) a neznělé (hodně průchodů).
* Také je extrémně citlivá na šum a posun stejnosměrné složky
==== Korelační koeficienty ====
Udávají podobnost signálu samého se sebou, pokud ho posuneme o //k// vzorků (signál vně rámce je nulový).
R(k) = sum{n=0}{N-1-k}{s(n)s(n+k)}
===== Cepstrum =====
[[wp>Cepstrum]]
Cepstrum slouží k oddělení buzení a modifikačního ústrojí (artikulační trakt) v řeči, protože buzení nemá žádný význam při rozpoznávaní řeči (je příliš závislé na rečníkovi). Problém je, že buzení je v konvoluci s impulzní odezvou filtru artikulačního traktu (v kmitočtové oblasti v součinu), a ani v jedné z oblastí sa nedají složky od sebe dobře oddělit. Potřebujeme nelinearitu, která převede součin na součet.
* Plíce – zdroj energie
* Hrtan – buzení (šum nebo periodický signál)
* Hlasový trakt (filtrace)
signal → [FT → abs → square] → log → [FT → abs → square] → power cepstrum