Nagyon PR-szagú a cikk. Nem kétlem, hogy elég szép eredményt értek el a fejlesztők, de koránt sem olyat, mint amit a cikk hangvétele sejtet. Erre bizonyíték a cikkben letölthető próbaolvasás.
A vakok is használnak beszédfelismerőket,nézd meg a " Vak diáknak diktafont keresünk " topicot,vagy keresd meg Qqberci nicket,ő foglalkozott a beszédfelismerőkkel.
No mert látom, hogy foglalkozol beszédfelismerőprogramozással, aztán érdekel, hogy mi mindent használsz hozzá. Merthogy mi mindent magunk írtunk meg, kivéve az FFT-t, aztán most meg akárhová nézek, mindenhol HTK, meg egyéb cuccokat használnak az emberek.
A másik, hogy szerinted el lehet-e jól helyezkedni olyan ismeretekkel, ami egy egyszerű beszédfelismerő (kötöttszótáras, szavankénti) megírásához kell, de azt tövirölhegyire.
Egyáltalán nem drágák szerintem. Olcsóbbak persze léteznek, de ahogy néztük őket, azíok elég gagyik voltak. A teszteléskor az volt a következtetésünk, hogy minél drágább, annál jobb a felismerés minősége. Mondjuk ezen nem csodálkozom. Úgyhogy vegyél drágábbat. :) Mondjuk az én kedvencem a D1 típusú.
A Cisco AS5xxx sorozatnak integralt vXML bongeszoje van. Ha a megoldasotok illeszkedik a Ciscohoz akkor utana gyakorlatilag ugy lehet voice alkalmazast irni mintha weboldalt irnal (tag stb formatum). A cisco pedig illesztheto szinte minden telefonos halozatba.
kzt: Mit kéne illeszteni a voiceXML-hez? A beszédfelismerést?
Degeczi: Nekem sem megy, lehet, hogy elkonfigurálták. De úgy látom elég régen frissítették az oldalt.
Bormann: Ha egy interfész erőforrásigényes, akkor nem lehet, hogy az rossz?
Aha, BME volt, valoban.
Mukodik most vkinek az interaktiv demojuk? Ugy remlik, mintha tavaly tetszett volna a minosege, de most nekem nem megy. Az idojarasjelentes igen, de az PC-Robot szinvonalu.
A húsz mikrofon egy irodában nem zavarná egymást, legfeljebb az emberek. :) De nemcsak nagyobb termekben, hanem otthon is lehet diktálni, sőt, van olyan helyzet amikor kifejezetten jó is, hogy nem kell abbahagyni valamilyen tevékenységet azért, hogy leírjon az ember valamit és utána folytassa a bütykölést. Általában azokban a helyzetekben nagyon előnyös a beszédfelismerés, ahol amúgy nehézkes gépelni.
A szinkrontolmácsnak egyszerre 3 dolgot kell tudnia, lásd lejjebb. A zajos környezet pedig nem a legfőbb probléma.
Szvsz nemigen. Kisebb szövegeket valahogy bepötyög az is aki nem tud, nagyobbakat meg szerintem könnyebb begépelni mint elmondani. Arról nem is beszélve hogy egy irodában huszan diktálnának húszfélét a gépeknek. Brrr. Persze az olyasminek mint a szinkrontolmács már lenne értelme, sőt szvsz vinnék mint a cukrot. Csak ahhoz k*rva jó algoritmus kellne: zajos környezetben kellene megérteni a beszédet, kiválasztva hogy az esetleg háttérben folyó beszélgetések közül mi az ami érdekes.
Degeczi: Akkor tehát mégegyszer: A Pc robotot én is ismertem, nekem mondjuk már akkor is gagyinak tűnt. :) Azt is és a mostani fejlesztéseket is a bme csinálta. A pcrobot után ha jól emléx, nem igazán fejlesztettek, inkább azt akarták eladni, ez mondjuk érthető.
Az igazi bibi szerintem az, hogy egész más az egyetemi és kutatóhelyi dolgozók hozzáállása a dolgokhoz, mint az kívánatos lenne. Ezeken a helyeken a fő értékmérő a minél több darab semmitmondó új kutatási eredményecskéről szóló cikk publikálása, lehetőleg minél több társszerzővel megtűzdelve, az igazi munkát végzők nevének lehagyásával esetleg a végére biggyesztésével. Egy kutatót nagyjából a cikkei száma alapján ítélnek meg. Ilyen mentalitással ne is várja el az ember, hogy valaha is elkészül egy sokak által használható, gyakorlati dolog. Sajnos nekem is volt bőven részem ebből, de ez már a múlté. :)
És minden igyekezetemmel azon vagyok, hogy legalább a magyar nyelvű beszédfelismerés ne juthasson erre a sorsra. Mert ezt rajtunk kívül nem fogja senki sem megcsinálni. Remélem a www.sigmoid.hu oldal ad egy kis reményt erre.
Szia ID!
Jelenleg meg nehez lenne kozerthetoen a projekt reszleteirol irkalnom. Meg az 'engine' keszul, eppen a morfologiai elemzo, es szintaktikai elemzo modulokkal foglalkozom. Az 'engine' mellett a projekt resze nehany eleg meretes nyelvi szabalybazis (morfologiai-szintatikai-szemantikai szabalyok XML fileokban), ami tul. keppen a program szotara. Ennek a korrekt feltoltesehez biztosan szuksegem lesz olyan emberekre, akik jol ismerik az angol/magyar nyelvet. Ez azonban meg kb. vagy egy honappal arrebb van; akkor majd jelentkezem, es a webre is felrakok mar infokat a www.cybertron.hu cimre. Mar 5 eve gondolkodom a teman, de a konkret megvalositasnak meg nagyon az elejen vagyok, most adom le a regi allasomat.
Azt fajlalom, h az ennel azert lenyegesen egyszerubb beszedszintezis sem nagyon akar itthon formaba lendulni!
Ugy egy evtizede kijott egy PC-Robot nevu kartya, elegge vacak (akkoriban mondjuk megfelelo) hangminoseggel, manapsag azonban mar altalanos minden gepben a 16 bites hangkartya, a procik is kelloen nagyok - tisztan szoftverbol is megoldhato a feladat. Amit (azt hiszem egyetemi fejleszteskent) gyonyoruen, nagyon jo minosegben meg is oldottak!
Lehet, h egyedul vagyok, de szivesen fizetnek egy sajat programokbol hivhato magyar beszedszintetizatorert (gyerkocoknek nagyon jo lenne), de kb egy eve hiaba jartam utana a dolognak, nem lett belole semmi, nem adtak belole.
Errol tud vki esetleg egy kicsit biztatobb fejlemenyt mondani?
naadaam: Bizony, hogy ismerjük egymást. :) Időjelzajozás? :)
Amúgy nagyon vigyázz, az a pár hónap roppant kevés arra, hogy akár egy kész dologból is pénzt csináljon. Én tudom...
ID: A terv az, hogy lehessen folyamatosan diktálni a gépnek. Természetesen első lépésben mindentől függetlenre tervezzük, olyanra, ami mindennel kompatibilis, még oprendszerfüggetlen is ráadásul. De ez csak egy icipici probléma. :)Nem lehet tudni, meddig maradhatna mindentől független. :)
Amúgy tőlem maradhat a fordítós téma. :)