Index Fórum

Kis Ádám 2009.02.27		0 0 6974
Kedves Lájszló! Én a beszédhangok fizikai ábrázolásáról beszéltem, nem a beszédéről. Azt hiszem, a beszédgenerálás terán elég jó eredményeket értrek el, volt szerencsém hallgatni olyan beszélő fejeket, amelyek teljesen szabályosan ejtették a hangokat. Amint a kollégák elmesélték, nem is ez a probléma, hanem az, hogy a modulációkat nem tudják életszerűvé tenni. A beszédfelismerés az más kérdés. Ott a körülmények nem szintetikusak, sok a zaj, a felismerendő beszéd csak véletlenül hibátlan. Azt hiszem, a probléma hasonló az OCR-éhez, abban is, hogy csak a tökéletest közelítő szöveget lehet jól felismerni, és hogy ez a helyzet egyenletesen (ha nem is gyorsan) távolodik a tökéletestől.
Előzmény: Lájszló (6962)