flugi Creative Commons License 2007.04.11 0 0 4
Még vannak nyitott kérdések.
stream alatt folyamatos inputot értesz? Ez feltételezi, hogy real-time rendszerre van szükséged, pl rádióadások elemzéséhez.

Ha jól értem, akkor többféle hangjelenséget keresel párhuzamosan. Olyasmire gondolsz, mint egy inverz sampler, ami adott hangmintának bármilyen hangmagasságát vagy kitartási hosszát észreveszi? Ilyen esetekben pillanatonként jelenlevő spektrális tartalom alapján lehetséges a dolog, de igen nehéz, rossz pontosságú megoldások adhatóak. Ha a keresett hangminták pöccre egyformák, akkor hosszabb időintervallumokra is lehet támaszkodni, és akkor adható pontos megoldás is. Ehhez tehát az kell, hogy időben ismert legyen a hang tartalma. Erre volt példa az egy bizonyos mobiltelefoncsörgés, ennek van hossza, és az elejétől számított adott pillanatban mindig ugyanaz a tartalma.

Fontos paraméter, hogy miben különbözik az elkapandó hang a háttértől. Ha ugyanabban a spektrális eloszlásban van, és nem emelkedik ki semmilyen szempontból (pl az én telefonom és a többiek ugyanolyan telefonjai, kicsit más dallammal, amik akár egyszerre is szólhatnak) akkor nem lehet pontos megoldást csinálni. Ha garantálva van, hogy egy adott szempontból (pl frekvenciasáv) megkülönböztethető a hang, például meg csak egyedül szólal meg mindig egy adott frekvenciatartományban, akkor lehetséges figyelni. A word spotting alkalmazások például abból indulnak ki, hogy csak két beszélő van, és nem is akarnak akkor felismerni, amikor mindkettő beszél, tehát csak akkor működik jól, ha nem kell szűrni hátteret.

Most már talán érthető, hogy miért nincsenek ilyen alkalmazások a polcon :) nagyon szerteágazó terület.
Előzmény: SindbaD (3)