Keresés

Részletes keresés

nadamhu Creative Commons License 2004-08-02 18:27:47 28
azaz nem nyelv1-nyelv2 fordítóké a jövő, hanem a nyelv1-ről egy közbülső nyelvre, történik a fordítás. És erről a küzbülső nyelvről kell a nyelv2-re fordítani.

A közbülső entitás nem is csak egy nyelv, hanem egy tudáshalmaz, amit folyamatosan aktualizálni kell.

Persze, ezt oktatják úgy, hogy 'interlingua' alapú gépi fordítás.

Ez azonban semmitmondó.

Nyilván minden magára picit is adó fordítóprogram használ valamilyen közbülső struktúrát. Ezt romantikusan közbülső nyelvnek is nevezhetjük.

A lényeg ugye az, hogy hogyan kapod meg ezt a struktúrát: Ezt hívják forrásszöveg morfológiai, szintaktikai, és szemantikai elemzésének. Ha megoldottad a szemantikai elemzést, onnantól már nyert ügyed van.

Az, hogy ez a közbülső nyelv független legyen a nyelvpártól jól hangzik, meg biztos fontos lesz, amikor az lesz a legnagyobb gondja az embernek, hogy 30 nyelv között fordít, de ma ez még fölösleges. Ugyanis, ha a közbülső struktúra függ a nyelvpártól, sokkal könnyebb erdeményt elérni, semmiképpen sem kell szenvedni olyan elemzési feladatokkal, amelyek az adott nyelvpár esetén feleslegesek, mert mindkét nyelv esetén ugyanolyan felszíni struktúra tartozik hozzá. Szóval interlinguan alapuló fordító írásásval kezdeni fölöslegesen megalomán hozzáállás lenne, tényleg nagyon sok fölösleges munkát kellene beleölni, mire készen lenne mondjuk egy angol-magyar fordító. Szerintem kereskedelmi forgalomban kapható más fordítóprogramok sem erőltetik túlzottan az interlinguan alapuló megoldásokat.

nadamhu Creative Commons License 2004-08-02 18:01:30 27

Szia Aller-gen-etikus!

 

Mára a garázsban összetákolt számítógépek mintájára az ilyen szoftverek kora is sajnos lejárt. 

Nem tudom, hogy pontosan mit értesz ez alatt, leírom hogy én hogy látom: (ha az összetákol szó negatív jelentésétől eltekintünk, és inkább behelyettesítjük a szebb kísérletezés szóra): a kísérletezés szerepe akkor csökken le, amikor egyértelművé, kiforrottá válik egy adott témakör technológiája. A gépi fordítás nem ilyen, még mindenki sötétben tapogatózik, tehát nem lépett még át a kiforrott nagy bizniszt jelentő 'szoftveriparba', tehát a kísérletezés ideje még nem járt le, javában tart.

 

Néhány fordítási kategóriát felvázolok:

Ezekkel nem sok újat mondtál, nyilván az alacsonyabb szinvonalat igénylő, megértést támogató fordítás az első bástya, amit a gépi fordítás megpróbél bevenni.

 

Gondold csak meg, nem csak neked jutott eszedbe ez, minden országban vannak nyelvtudományi intézetek, vállalkozások ezeknél kézenfekvő, hogy a nyelvi hátterét kidolgozzák s a piacra lépjenek egy ilyen termékkel. Elkéne gondolkozni azon, hogy miért nincs ilyen.

Egyrészt világszerte van ilyen. Tehát szűkítsük le a kérdésedet Magyaroszágra: A nyelvtudományi intézetek láthatólag nem képesek ilyesmire, úgy tudom voltak induló projektek, amiknek az eredményért nem látni. Másrészt gondolom nem is céljuk állandóan ekkora kihívásokkal küzdeni, ráadásul ez nem teljesen elméleti munka, programozási tudást is igényel, ami gondolom egy nyelvtudományi intézetben nem egy elfekvő erőforrás. Akár szégyennek is nevezhetjük, hogy amekkora erőforrásaik vannak, nem tudtak összehozni valamilyen fordítóprogramot, de ha láttál már akadémiai fejlesztést, akkor ezen nem csodálkozol.

Ami a cégeekt illeti, ma Magyarországon tudtommal egyetlen cég döntött úgy, hogy ebbe a kutatásba komoly pénzt hajlandó beleölni (több tíz emberévnyit), ez a Morphologic Kft., akiknek mostanában alakul(t) ki ilyen megértéstámogató eszközük, bár nem próbáltam még ki.

 

Szabadidőben legfeljebb a első szintjéig lehet eljutni.

Nem csak szabadidőmben akarom ezt csinálni, remélem ez egy múló állapot, hogy szabadidőmben csinálom. Az enginet és a mögötte lévő elméletet folyamatosan fejlesztem.

 

Ha már olyan nyelvre fordítunk ami nemeket is alkalmaz, és más neme van az asztalnak, mint a tányérnak ott már egyértelműsíteni kell és akkor mi alapján fog dönteni a gépi fordító tudáshalmaz hiányában?

Nem tudáshalmaz hiányában fog dönteni. Ma is van a rendszeremben egy primitív szemantikai modell, és nem félek szemantikai témájú könyveket olvasni, illetve komolyabb szemantikai modelleket kitalálni. A legújabb modell terveim szerint a 'szemantikai réteg' nem más mint döntések halamza. Ez élesen le van választva a nyelvtani elemző modultól. A nyelvtani elemző modul 'döntésképtelen', ezért olyan kimenetet ad ki, hogy hát vagy ez a struktúra érvényes itt, vagy az, itt lehet ez is, meg az is, kedves szemantikai modul, döntsél ebben a temérdek kérdésben.

A döntési modellt nem akarom előre rögzíteni. Többféle stratégiával is nekimegyek majd ugyanannak a problémának, bizonyára hibrid megoldásnál kötök majd ki: statisztikai módszereket fogok keverni szabályalapúakkal, a keresési térben lehet, hogy direktben fogok keresni, de lehet, hogy genetikus algoritmust is használok majd.

Hiába van jó szemantikai modell, a szintaktikai modell kulcsfontosságú, és az én esetemben még inkább itt bukik el sok mondat. Egy buta, döntésképtelen szintaktikai elemzőt sem gyerekjáték megírni, most elsősorban a szintaxis leíró nyelv leíróerejét próbálom növelni, ehhez olyan absztrakciókat kell bevezetnem, amelyeket eddig nem kezeltem. Pl. tipusfüggetlen generalizált elemző szabályok:

az and, or, stb... szavakkal való kombinációk a nyelv egy csomó szintjén előfordulnak. Pl. 'A, B and C' vagy 'A and-or B' stb... egy csomó esetben releváns szintaktikai elrendezés, ha A,B,C ugyanolyan típusúak, de mindegy milyen típusúak. Tehát bevezethető a * (csillag) 'kombináció': Ahol eddig a szabálybázisban A állt, oda tehetek *A-t, ekkor A mindenféle ilyen and-or stb... jellegű kombinációját leírtam. Ki fogom egészíteni a nyelvtani elemzőmet az opcionális elemek kényelmesebb leírásával, stb...

 

A magyar nyelv pedig az aglutináló jellege folytán még nehezebb helyzetben van a gépi felismerés terén mint pl a fuzionáló, flektáló nyelvek.

Ez a típushiba árulja el, hogy nem igazán értesz a dologhoz. A morfoszintaktika triviális probléma akár a magyar nyelv esetében is a többi felmerülő problémához képest. Elmondanám, hogy a Word-ben lévő helyesírásellenőrző már nagyon régen tud 'ragozni', egyébként ezt az alfeleadatot az én programom is gyakorlatilag tökéletesen kezeli.

 

Nem beszélve arról, hogy még nem készült mahgyar nyelv tudományos igényű leírása ami nélkül nem teljes a dolog.

Ez megint egy vicces kijelentés. Mi az hogy tudományos igényű leírás? Szegény nyelvészek ezen dolgoznak, ez egy nagyon nem triviális munka. Az egész nyelvészet erről szól: Modelleket alkotnak, melyek egyre egzaktabbak, egyre jobban közelítik magát a nyelvet, de már ne is haragudj, soha nem lesznek tökéletesek, ls persze hogy gyerekcipőben járnak, hiszen a nyelv iszonyatosan bonyolult. Tulajdonképpen én magam is az angol és a magyar nyelv 'tudományos igényű' modelljén dolgozok, hiszen egy fordítóprogram nem más, mint 2 nyelv egyfajta modellezése.

 

Az az érzésem, hogy csak egy-két fát látsz mindössze. S közben nem vetted észre, hogy erdőben vagy, mit erdőben: dzsungelban.

Amennyiben célod használható, eladható termék lenne, szóval ezt nem lehet így kalákában, fusiban létrehozni

Érdekes, hogy pont olyan ember mondja ezt, aki láthatólag nem ért komolyabban a témához. Eddig akivel leveleztem erről, az volt a benyomásom, hogy minél jobban ért valaki a nyelvészethez, annál pozitívabban áll a dologhoz, egy nyelvésszel szokam is levelezni részproblémák lehetséges megoldási stratégiáiról.

Ami meg a fusit illeti: az informatikához konyítok valamelyest, erről még papírom is van:) nyelvészetből pedig folyamatosan hozom fel magam szakkönyveket olvasva, és sokat elmélkedve, nem hiszem, hogy kevesebb esélyem lenne eben a témában, mint másnak.

5 év múlva meglátjuk, én egy végtelenül türelmes ember vagyok.:)

A hozzászólás:
Aller-gen-etikus Creative Commons License 2004-08-02 13:23:10 26

Szia nadamhu!

 

Nagy fába vágja a fejszéjét az aki egy ilyenre vállalkozik. Mára a garázsban összetákolt számítógépek mintájára az ilyen szoftverek kora is sajnos lejárt. 

 

Néhány fordítási kategóriát felvázolok:

 

Tartalmát illetően:

  • műfordítás
  • ujságszöveg fordítása
  • szakszöveg fordítása
  • hétköznapi szöveg fordítás
  • beszélgetések fordítása

 

Fordítási pontosságát illetően

  • teljes értékű
  • értelmi
  • lényegvisszaadó
  • szórakoztató (használhatatlan, nevetünk az output szövegen)

 

Emberi beavatkozás

  • szükséges
  • nem szükséges

 

Megbízhatóság, garancia

  • jogi szöveg,
  • hiteles fordítás,

 

Egyik végletet azaz teljes értékű műfordítás, hitelesítve emberi beavatkozás nélkül.

 

Másik véglet a szórakoztató célú kategória. Szabadidőben legfeljebb a első szintjéig lehet eljutni.

 

Gondold csak meg, nem csak neked jutott eszedbe ez, minden országban vannak nyelvtudományi intézetek, vállalkozások ezeknél kézenfekvő, hogy a nyelvi hátterét kidolgozzák s a piacra lépjenek egy ilyen termékkel. Elkéne gondolkozni azon, hogy miért nincs ilyen.

 

Onogurral értek egyet én is, azaz nem nyelv1-nyelv2 fordítóké a jövő, hanem a nyelv1-ről egy közbülső nyelvre, történik a fordítás. És erről a küzbülső nyelvről kell a nyelv2-re fordítani.

 

A közbülső entitás nem is csak egy nyelv, hanem egy tudáshalmaz, amit folyamatosan aktualizálni kell.

 

A topikban eddig csak a nyelvi szempontokat vették figyelembe, az itt viszont nem elég. A világ és a szavak között a szemantika teremt kapcsolatot, itt még az sem elég. Az egyének nyelven kívüli tudását, tapasztalatát is be kellene építeni a fordítóba.

 

 

Egy példa:

 

A tányér ráesett az asztalra és összetört.

 

Ebben a mondatban a nyelvi elemzés nem mondja meg hogy mi törtött össze.

 

Általában a tányér (a kisméretű, porcelán vagy üveg) törik össze a (nagyméretű, fa) asztalon. De mi van ha az asztal gyenge és űvegből van és a tányér nehéz és törhetetlen üvegből van.

 

Ha a tojást ütjük a kőhöz a tojás törik össze, ha a követ ütjük a tojásahoz akkor is a tojás törik össze. Tartja a mondás.  Az asztal, tányér viszonylatban ez már nem ilyen egyértelmű.

 

Természetesen a kontextusból ki lehet következtetni sokmindent.

S maradhat így a mondat, csak nem derül ki hogy mi törött össze.

 

Ha már olyan nyelvre fordítunk ami nemeket is alkalmaz, és más neme van az asztalnak, mint a tányérnak ott már egyértelműsíteni kell és akkor mi alapján fog dönteni a gépi fordító tudáshalmaz hiányában?

 

A magyar nyelv pedig az aglutináló jellege folytán még nehezebb helyzetben van a gépi felismerés terén mint pl a fuzionáló, flektáló nyelvek.

Nem beszélve arról, hogy még nem készült mahgyar nyelv tudományos igényű leírása ami nélkül nem teljes a dolog.

 

Szóval ezzel a példával csak azt akartam, megmutatni, hogy nem elég csak nyelvtani (szintatkika, szemantika, lexikális elemzés, mondattrani szabályok,  szófajok) modulokat beépíteni a fordítóba, hanem a világról és annak részeiről való tudást, a felgyülemlett tapasztalatot is bele kell építeni s ebben a tudáshalmazban kutatva kell a fordítónak a helyes választ kiválasztania, így még mestersegéges intelligenciára is szükség lehet, van.

 

A 22. hozzászólásodból azt látom, hogy még a lexikai fázissal sem végeztél.

Az az érzésem, hogy csak egy-két fát látsz mindössze. S közben nem vetted észre, hogy erdőben vagy, mit erdőben: dzsungelban.

 

Saját és barátok szórakoztatására természetesen jó móka egy ilyen fordítóval történő játszadozás.

Amennyiben célod használható, eladható termék lenne, szóval ezt nem lehet így kalákában, fusiban létrehozni.   

 

üdvözlettel:

aller

Előzmény:
nadamhu Creative Commons License 2004-07-08 07:56:00 20

Az 'are' és az 'out' olyan szavak, amelyek csak más szavakkal együtt vannak értelmezve, és sajnos nem tudta értelmezni a program úgy, ahogy éppen abban a mondatban volt. (A figure out igekötős igét sajna úgy látszik még nem ismeri.)

 

Egyébként ha az első napokban néha lehalna az online rendszer (eddig nem tette) elnézést kérek, nem volt igazán béta stressz-tesztelve, de a tapasztalat szerint 1-2 napon belül az ilyen hibák kijönnek és kijavíthatóak.

Ha kedveled azért, ha nem azért nyomj egy lájkot a Fórumért!