Kis Ádám Creative Commons License 2009.02.27 0 0 6974

Kedves Lájszló!

 

Én a beszédhangok fizikai ábrázolásáról beszéltem, nem a beszédéről. 

 

Azt hiszem, a beszédgenerálás terán elég jó eredményeket értrek el, volt szerencsém hallgatni olyan beszélő fejeket, amelyek teljesen szabályosan ejtették a hangokat. Amint a kollégák elmesélték, nem is ez a probléma, hanem az, hogy a modulációkat nem tudják életszerűvé tenni.

 

A beszédfelismerés az más kérdés. Ott a körülmények nem szintetikusak, sok a zaj, a felismerendő beszéd csak véletlenül hibátlan. Azt hiszem, a probléma hasonló az OCR-éhez, abban is, hogy csak a tökéletest közelítő szöveget lehet jól felismerni, és hogy ez a helyzet egyenletesen (ha nem is gyorsan) távolodik a tökéletestől.

Előzmény: Lájszló (6962)