====== Analýza a předzpracování řeči, základní parametry řeči, cepstrum ====== ===== Analýza a předzpracování řeči ===== ==== Spektrální analýza ==== **Spektrum** reprezentuje signál ve frekvenční oblasti. **Spektrální funkce** se dá vyjádřit pomocí [[wp>Fourier transform|Fourierovy transformace]]((X(f) = int{-infty}{infty}{x(t)e^{-j2 pi ft}})), ovšem __nedá se spočítat__ (nekonečná, integrál, ...) a v praxi ji dokážeme pouze odhadnout pomocí [[wp>Discrete-time Fourier transform|Fourierovy transformace s diskrétním časem (DTFT)]]((X(k) = sum{n=0}{N-1}{x[n]e^{-j2 pi {nk}/N}})). ==== Preemfáze ==== [[wp>Pre-emphasis]] Slouží k vyrovnání frekvenční charakteristiky, protože energie řeči ve vyšších frekvencích klesá. Implementujeme např. FIR filtrem. ==== Rámce ==== Řečový signál je "náhodný". Signál se ale lépe zpracovává když je periodický. Takže ho rozsekáme na krátké úseky (**rámce**) a předpokládáme že v nich periodický je. * Délka by měla být co nejmenší, ale dostatečná pro odhad parametrů. Typicky 20--25 ms. * Rámce se mírně překrývají. To proto, aby mezi nimi nedocházelo k prudkým změnám parametrů. Zpomaluje se tím ale zpracování signálu. Typický překryv je okolo 10 ms. ===== Základní parametry řeči ===== ==== Energie ==== * Detektor řečové aktivity. * Rozlíšení hlások na znělé((a, z, ...)) (velká energie) a neznělé((s, p, t, ...)). * Selhává při zašuměné řeči, ve které zanikají nizkoenergetické hlásky. * Počítá se jako průměr druhých mocnin intenzity. ==== Průchody nulou ==== * Určuje, kolikokrát signál projde nulou. * Tato detekce umožňuje rozlišit hlásky na znělé (málo průchodů) a neznělé (hodně průchodů). * Také je extrémně citlivá na šum a posun stejnosměrné složky ==== Korelační koeficienty ==== Udávají podobnost signálu samého se sebou, pokud ho posuneme o //k// vzorků (signál vně rámce je nulový). R(k) = sum{n=0}{N-1-k}{s(n)s(n+k)} ===== Cepstrum ===== [[wp>Cepstrum]] Cepstrum slouží k oddělení buzení a modifikačního ústrojí (artikulační trakt) v řeči, protože buzení nemá žádný význam při rozpoznávaní řeči (je příliš závislé na rečníkovi). Problém je, že buzení je v konvoluci s impulzní odezvou filtru artikulačního traktu (v kmitočtové oblasti v součinu), a ani v jedné z oblastí sa nedají složky od sebe dobře oddělit. Potřebujeme nelinearitu, která převede součin na součet. * Plíce – zdroj energie * Hrtan – buzení (šum nebo periodický signál) * Hlasový trakt (filtrace) signal → [FT → abs → square] → log → [FT → abs → square] → power cepstrum