Keresés

Részletes keresés

nadamhu Creative Commons License 2004.08.16 0 0 33

Szia bountys,

 

Köszi a biztató szavakat.

Most kb. 12000-13000 szót ismer a rendszer, nehéz ezt pontosan megmondani, mert ugye ez függ attól, hogy mit tekintünk egy szónak. (A becslésemet úgy adtam meg, hogy ugyanaz a szóalak külön számolódik pl. főnévként és igeként mondjuk az 'access' szó esetében.) Ezt hamarosan fogom bővíteni egy 1.1-es verzió keretében, rádásul bizonyos, a lexikonjában nem szereplő szóképzéseket is fel fog ismerni a rendszer.

A sebesség nem függ jelentősen a szóadatbázis méretétől, (a kritikus helyeken hashtáblákat használok, amelyeknek konstans elérése van.)

Nem használok adatbáziskezelőt. A mai memóriaméretek mellett a teljes 'adatbázis' elfér a memóriában, és a speciális algoritmusokhoz úgy érzem hatékonyabra tudom megcsinálni a saját adatszerkezeteimet.

Előzmény: bountys (31)
nadamhu Creative Commons License 2004.08.16 0 0 32

Szia, nyaralni voltam, ezért reagálok ilyen későn.

 

Jelenleg hol tartanak a profik a művelt nyugaton? A mo-i helyzetet leírtad.

Túl sok ismeretem nincs ezen a téren. Egyszer egy Németországi cég megvett nekünk egy nem túl olcsó Német->Angol fordítóprogramot (Systran). A fordítás éppen csak hogy érthető volt (már ahol érthető volt): amennyire én tudom, még a művelt nyugaton is csak alacsony minőségű, szövegértést támogató fodítások születnek.

 

Meddig fogsz tenmagad eljutni? Mi a célod, mit látsz reálisnak a magad esetében.

Amit eddig csináltam (1.* verzió), azt egy viszonylag ad-hoc 'prototípusnak' tekintem, ami segített abban, hogy valamennyire megismerjem a feladat minden részét, de egyiket sem túl mélyen. (Kivéve a morfológiát, ott leástam addig, hogy 'megoldottam' a feladatot.) Ezt kb. úgy lehet tekinteni, mintha építettem volna egy viskót.

Már készítem a 2.0-ás verziónak nevezett valamit, ami kevéssé szoftverfejlesztésnek indul: dokumentumokat írogatok, kísérleteket végzek kisebb korpuszokon, modulokat tervezek, nagyon sok kérdést nyitva hagyok, alternatív megoldásokon gondolkodom. Eddig mindenáron egy működő fordítót akartam magam előtt látni minél gyorsabban, de most, hogy már látom, hogy ez valamilyen szinten megoldható, megelégszem azzal, ha mondjuk egy év után még mindig csak egy angol nyelvtani elemzőm van, de az 'olyan'. Szóval olyan ez, mintha egyedül kezdenék építeni egy piramist, de ezt semmiképpen nem egyedül akarom majd végigcsinálni, időközben keresek majd társakat. Ha van kedved ilyesmivel foglalkozni, téged is szívesen látlak majd, ez egy hosszútávú projekt lesz.

Érdekes kérdés a szemantika, de mint említettem, a jelenlegi fordítómon még szintaktikai szinten is lehetne bőven javítani. Első részfeladatként tehát egy viszonylag igényes angol szintaktikai elemző írását tűztem ki célul. (Olyat, ami legalább több alternatíva között egy esetként felismeri a helyes szerkezetét minden, az 500 oldalas 'Gyakorlati Angol Nyelvtan' című könyv példamondatának. :)

(Sőt, ennél többre van szükség, mert ezek e példamondatok bizonyos szempontból még mindig túl szabályosak.)

Előzmény: Aller-gen-etikus (30)
bountys Creative Commons License 2004.08.10 0 0 31
Szia Nadamhu!

 

Kipróbáltam az on-line fordítást, és nagyon tetszik! Gratulálok! Bár néha még vicces fordítást produkál, de szerintem nagyon bíztató. Olvastam a régi hozzászólások között, hogy 2 éve 3000 db szót tartalmazott a rendszer. Gondolom ez mára már többszörösére duzzadt, de tapasztaltam, hogy még mindig vannak le nem fordított szavak. Hány szót tartalmaz most a rendszer, és mennyit tervezel? Az is meglepett, hogy a hasonló ilyen jellegű progikhoz képest, nagyon gyors a fordítás és ez nagy előny. Nálam okosabbak azt mondták, hogy biztos azért olyan gyors, mert még viszonylag kevés szóval dolgozik. Nyugtass meg, hogy az adatbázis méretének növekedése nem megy majd a sebesség rovására. Az ismeretségi körömben sok az informatikus, akik már fogadásokat kötöttek egymással, hogy vajon saját adatstruktúrát használsz-e, vagy valamilyen ismert adatbáziskezelőt (te biztos érted miről van szó :-).

Egyelőre ennyi, és még egyszer gratulálok!

Üdv.

Aller-gen-etikus Creative Commons License 2004.08.06 0 0 30
Szia Nadamhu!

 

Garázs, összetákolt

 

A garázs volt inkább a fontos mintsem az összetákol. Akkor pontosítok:

az a kor járt le, amikor egy két ember gazdasági potenciál, háttér nélkül összehajol és minimális eszközigénnyel egy kereskedelmileg sikeres applikációt létrehoz. Például olyan jellegűeket mint az Excel, Winword, stb.

 

Azt ugye belátjuk, hogy egy (természetes nyelv) fordító komplexitásában nem hasonlítható egyetlen ilyen jellegű applikációhoz sem. 

Az applikáció használói hajlandóak voltak a számukra újat elfogadni és megtanulni.

Fordítás esetében a legkisebb eltérésen, szokatlanságon fanyalogni fognak.

 

A fordítónál a nyelvi háttér iszonyúan komplex modellt feltételez.

 

Magát a programozási részt nem tartom akkora kihívásnak mint amekkora kihívást a nyelvészeti, és nyelvművelői munkák felhasználásával a fordítói modell megalkotása jelent.

 

Nem véletlen a nyelvművelői terület említése részemről, a köznyelvi, vagy az irodalmi színvonalú output mint kívánalom esetén ez elkerülhetetlen. 

 

Egy jó fordítónak pl. adaptívnak is kellene lennie, fel kell ismernie például, hogy valaki bizonyos rövidítéseket használ,  pl. a „hogy” helyett csak „h”-t. Az esetleges nem értelemzavaró félregépeléseket.

Azt is ha az input szöveg valamelyik szabálynak nem felel meg, de a mondanivalója nem kétséges, ha ember fordít.

Új összetételt kezdek el használni mint pl. te tetted az alfeladat-tal.

 

(Jó ezeket persze egynyelvű emberi beavatkozással meg lehet oldani és már csak szabályos szöveg kerül a fordítóra.)

fordítási kategóriák

 

A kategóriák felvázolása után hiányzott a kérdésem, amit végülis részben meg megválaszoltál.

Akkor most teszem fel azokat a kérdéseimet, amik akkor kimaradtak. Ebben vagy ehhez hasonló koordináta, kategória rendszerben hogy látod a gépi fordítás jelenét, jövőjét.

 

Jelenleg hol tartanak a profik a művelt nyugaton? A mo-i helyzetet leírtad.

Van-e kitűzött cél? Hol tartanak ott ahol van pénz, paripa és fegyver. Ismered vannak e ezen a területen?

 

Meddig fogsz tenmagad eljutni? Mi a célod, mit látsz reálisnak a magad esetében.

 

Van két kérdésem is.

Milyen modelled van az adaptivitás illetve a kontextus kezelésére? 

 

Azt ugye beláthatjuk, hogy nem lehet valami olyan felfedezésre, durranásra várni, számítani, ami alapjaiban megrengetné ezt a területet, és egyik napról születnének a használhatóbbnál használhatóbb a fordítók.

 

A nyelvek ilyen, olyan szinten le vannak írva :-). 

Nyelvművelés is megfogalmazta szabályszerűségekbe és kivételekbe foglalva a maga elvárásait a köznyelvről és az irodalmi nyelvről.  

Programozási eszközök sem jelentenek akadályt. 

Nem beszélve a gépi kapacitásokról.

Ez nem egy új téma, már húsz évvel ezelőtt is írtak róla.

Igény is van rá

 

Mégsem vehetek le az üzlet polcáról ilyen terméket, a következő egy két

év(tized)ben) biztosan.

 

Lehet, hogy a fordítói lobby, mafffia akadályozza ezt is mint a nullponti energia kicsatolását a olajlobby? :-)))

 

agglutináció

Elismerem, hogy a nyelvünk erősen agglutináló jellege, csak egy behatárolt többletfeladatot támaszt a fordítóval szemben. Ez valóban csak egy alfeladat, ez esetben a tökéletes megoldás sem kizárt. 

 

hozzáértésem

Egyébként miből, melyik mondatomból olvastad ki, hogy a laikusi szintnél magasabbat vindikálok magamnak?

 

Fa, erdő, dzsungel

Nem hiszem, hogy én ellendrukkered lettem volna a levelemben, sőt.

Inkább nagyra értékelem, ezt a fajta hozzáállást. Azt hiszem, csak az elérhető cél távoliságának és az odavezető út göröngyösségének megítélésében van köztünk hangyányi különbség.

 

Ne vedd fenyegetésnek, de a vigyázó szememet e fórumra és ameddig publikus a fordítódra vetem.

 

üdvözlettel:

aller

 

 

Előzmény: nadamhu (27)
nadamhu Creative Commons License 2004.08.02 0 0 29

Sőt, közbülső nyelv tervezésekor mindenképpen ismerni kell az összes nyelvet, ami közötti fordításhoz használjuk: Az összes nyelv legkisebb közös többszöröse kell, hogy legyen kifejezőerőben. Ez néhány eléggé különböző nyelvet alapul véve nagyon nagy munka.

Én megelégszem az angol és a magyar legkisebb közös többszöröseként adódó közbülső struktúrával. Elég bonyolult az is.

Előzmény: nadamhu (28)
nadamhu Creative Commons License 2004.08.02 0 0 28
azaz nem nyelv1-nyelv2 fordítóké a jövő, hanem a nyelv1-ről egy közbülső nyelvre, történik a fordítás. És erről a küzbülső nyelvről kell a nyelv2-re fordítani.

A közbülső entitás nem is csak egy nyelv, hanem egy tudáshalmaz, amit folyamatosan aktualizálni kell.

Persze, ezt oktatják úgy, hogy 'interlingua' alapú gépi fordítás.

Ez azonban semmitmondó.

Nyilván minden magára picit is adó fordítóprogram használ valamilyen közbülső struktúrát. Ezt romantikusan közbülső nyelvnek is nevezhetjük.

A lényeg ugye az, hogy hogyan kapod meg ezt a struktúrát: Ezt hívják forrásszöveg morfológiai, szintaktikai, és szemantikai elemzésének. Ha megoldottad a szemantikai elemzést, onnantól már nyert ügyed van.

Az, hogy ez a közbülső nyelv független legyen a nyelvpártól jól hangzik, meg biztos fontos lesz, amikor az lesz a legnagyobb gondja az embernek, hogy 30 nyelv között fordít, de ma ez még fölösleges. Ugyanis, ha a közbülső struktúra függ a nyelvpártól, sokkal könnyebb erdeményt elérni, semmiképpen sem kell szenvedni olyan elemzési feladatokkal, amelyek az adott nyelvpár esetén feleslegesek, mert mindkét nyelv esetén ugyanolyan felszíni struktúra tartozik hozzá. Szóval interlinguan alapuló fordító írásásval kezdeni fölöslegesen megalomán hozzáállás lenne, tényleg nagyon sok fölösleges munkát kellene beleölni, mire készen lenne mondjuk egy angol-magyar fordító. Szerintem kereskedelmi forgalomban kapható más fordítóprogramok sem erőltetik túlzottan az interlinguan alapuló megoldásokat.

Előzmény: Aller-gen-etikus (26)
nadamhu Creative Commons License 2004.08.02 0 0 27

Szia Aller-gen-etikus!

 

Mára a garázsban összetákolt számítógépek mintájára az ilyen szoftverek kora is sajnos lejárt. 

Nem tudom, hogy pontosan mit értesz ez alatt, leírom hogy én hogy látom: (ha az összetákol szó negatív jelentésétől eltekintünk, és inkább behelyettesítjük a szebb kísérletezés szóra): a kísérletezés szerepe akkor csökken le, amikor egyértelművé, kiforrottá válik egy adott témakör technológiája. A gépi fordítás nem ilyen, még mindenki sötétben tapogatózik, tehát nem lépett még át a kiforrott nagy bizniszt jelentő 'szoftveriparba', tehát a kísérletezés ideje még nem járt le, javában tart.

 

Néhány fordítási kategóriát felvázolok:

Ezekkel nem sok újat mondtál, nyilván az alacsonyabb szinvonalat igénylő, megértést támogató fordítás az első bástya, amit a gépi fordítás megpróbél bevenni.

 

Gondold csak meg, nem csak neked jutott eszedbe ez, minden országban vannak nyelvtudományi intézetek, vállalkozások ezeknél kézenfekvő, hogy a nyelvi hátterét kidolgozzák s a piacra lépjenek egy ilyen termékkel. Elkéne gondolkozni azon, hogy miért nincs ilyen.

Egyrészt világszerte van ilyen. Tehát szűkítsük le a kérdésedet Magyaroszágra: A nyelvtudományi intézetek láthatólag nem képesek ilyesmire, úgy tudom voltak induló projektek, amiknek az eredményért nem látni. Másrészt gondolom nem is céljuk állandóan ekkora kihívásokkal küzdeni, ráadásul ez nem teljesen elméleti munka, programozási tudást is igényel, ami gondolom egy nyelvtudományi intézetben nem egy elfekvő erőforrás. Akár szégyennek is nevezhetjük, hogy amekkora erőforrásaik vannak, nem tudtak összehozni valamilyen fordítóprogramot, de ha láttál már akadémiai fejlesztést, akkor ezen nem csodálkozol.

Ami a cégeekt illeti, ma Magyarországon tudtommal egyetlen cég döntött úgy, hogy ebbe a kutatásba komoly pénzt hajlandó beleölni (több tíz emberévnyit), ez a Morphologic Kft., akiknek mostanában alakul(t) ki ilyen megértéstámogató eszközük, bár nem próbáltam még ki.

 

Szabadidőben legfeljebb a első szintjéig lehet eljutni.

Nem csak szabadidőmben akarom ezt csinálni, remélem ez egy múló állapot, hogy szabadidőmben csinálom. Az enginet és a mögötte lévő elméletet folyamatosan fejlesztem.

 

Ha már olyan nyelvre fordítunk ami nemeket is alkalmaz, és más neme van az asztalnak, mint a tányérnak ott már egyértelműsíteni kell és akkor mi alapján fog dönteni a gépi fordító tudáshalmaz hiányában?

Nem tudáshalmaz hiányában fog dönteni. Ma is van a rendszeremben egy primitív szemantikai modell, és nem félek szemantikai témájú könyveket olvasni, illetve komolyabb szemantikai modelleket kitalálni. A legújabb modell terveim szerint a 'szemantikai réteg' nem más mint döntések halamza. Ez élesen le van választva a nyelvtani elemző modultól. A nyelvtani elemző modul 'döntésképtelen', ezért olyan kimenetet ad ki, hogy hát vagy ez a struktúra érvényes itt, vagy az, itt lehet ez is, meg az is, kedves szemantikai modul, döntsél ebben a temérdek kérdésben.

A döntési modellt nem akarom előre rögzíteni. Többféle stratégiával is nekimegyek majd ugyanannak a problémának, bizonyára hibrid megoldásnál kötök majd ki: statisztikai módszereket fogok keverni szabályalapúakkal, a keresési térben lehet, hogy direktben fogok keresni, de lehet, hogy genetikus algoritmust is használok majd.

Hiába van jó szemantikai modell, a szintaktikai modell kulcsfontosságú, és az én esetemben még inkább itt bukik el sok mondat. Egy buta, döntésképtelen szintaktikai elemzőt sem gyerekjáték megírni, most elsősorban a szintaxis leíró nyelv leíróerejét próbálom növelni, ehhez olyan absztrakciókat kell bevezetnem, amelyeket eddig nem kezeltem. Pl. tipusfüggetlen generalizált elemző szabályok:

az and, or, stb... szavakkal való kombinációk a nyelv egy csomó szintjén előfordulnak. Pl. 'A, B and C' vagy 'A and-or B' stb... egy csomó esetben releváns szintaktikai elrendezés, ha A,B,C ugyanolyan típusúak, de mindegy milyen típusúak. Tehát bevezethető a * (csillag) 'kombináció': Ahol eddig a szabálybázisban A állt, oda tehetek *A-t, ekkor A mindenféle ilyen and-or stb... jellegű kombinációját leírtam. Ki fogom egészíteni a nyelvtani elemzőmet az opcionális elemek kényelmesebb leírásával, stb...

 

A magyar nyelv pedig az aglutináló jellege folytán még nehezebb helyzetben van a gépi felismerés terén mint pl a fuzionáló, flektáló nyelvek.

Ez a típushiba árulja el, hogy nem igazán értesz a dologhoz. A morfoszintaktika triviális probléma akár a magyar nyelv esetében is a többi felmerülő problémához képest. Elmondanám, hogy a Word-ben lévő helyesírásellenőrző már nagyon régen tud 'ragozni', egyébként ezt az alfeleadatot az én programom is gyakorlatilag tökéletesen kezeli.

 

Nem beszélve arról, hogy még nem készült mahgyar nyelv tudományos igényű leírása ami nélkül nem teljes a dolog.

Ez megint egy vicces kijelentés. Mi az hogy tudományos igényű leírás? Szegény nyelvészek ezen dolgoznak, ez egy nagyon nem triviális munka. Az egész nyelvészet erről szól: Modelleket alkotnak, melyek egyre egzaktabbak, egyre jobban közelítik magát a nyelvet, de már ne is haragudj, soha nem lesznek tökéletesek, ls persze hogy gyerekcipőben járnak, hiszen a nyelv iszonyatosan bonyolult. Tulajdonképpen én magam is az angol és a magyar nyelv 'tudományos igényű' modelljén dolgozok, hiszen egy fordítóprogram nem más, mint 2 nyelv egyfajta modellezése.

 

Az az érzésem, hogy csak egy-két fát látsz mindössze. S közben nem vetted észre, hogy erdőben vagy, mit erdőben: dzsungelban.

Amennyiben célod használható, eladható termék lenne, szóval ezt nem lehet így kalákában, fusiban létrehozni

Érdekes, hogy pont olyan ember mondja ezt, aki láthatólag nem ért komolyabban a témához. Eddig akivel leveleztem erről, az volt a benyomásom, hogy minél jobban ért valaki a nyelvészethez, annál pozitívabban áll a dologhoz, egy nyelvésszel szokam is levelezni részproblémák lehetséges megoldási stratégiáiról.

Ami meg a fusit illeti: az informatikához konyítok valamelyest, erről még papírom is van:) nyelvészetből pedig folyamatosan hozom fel magam szakkönyveket olvasva, és sokat elmélkedve, nem hiszem, hogy kevesebb esélyem lenne eben a témában, mint másnak.

5 év múlva meglátjuk, én egy végtelenül türelmes ember vagyok.:)

Előzmény: Aller-gen-etikus (26)
Aller-gen-etikus Creative Commons License 2004.08.02 0 0 26

Szia nadamhu!

 

Nagy fába vágja a fejszéjét az aki egy ilyenre vállalkozik. Mára a garázsban összetákolt számítógépek mintájára az ilyen szoftverek kora is sajnos lejárt. 

 

Néhány fordítási kategóriát felvázolok:

 

Tartalmát illetően:

  • műfordítás
  • ujságszöveg fordítása
  • szakszöveg fordítása
  • hétköznapi szöveg fordítás
  • beszélgetések fordítása

 

Fordítási pontosságát illetően

  • teljes értékű
  • értelmi
  • lényegvisszaadó
  • szórakoztató (használhatatlan, nevetünk az output szövegen)

 

Emberi beavatkozás

  • szükséges
  • nem szükséges

 

Megbízhatóság, garancia

  • jogi szöveg,
  • hiteles fordítás,

 

Egyik végletet azaz teljes értékű műfordítás, hitelesítve emberi beavatkozás nélkül.

 

Másik véglet a szórakoztató célú kategória. Szabadidőben legfeljebb a első szintjéig lehet eljutni.

 

Gondold csak meg, nem csak neked jutott eszedbe ez, minden országban vannak nyelvtudományi intézetek, vállalkozások ezeknél kézenfekvő, hogy a nyelvi hátterét kidolgozzák s a piacra lépjenek egy ilyen termékkel. Elkéne gondolkozni azon, hogy miért nincs ilyen.

 

Onogurral értek egyet én is, azaz nem nyelv1-nyelv2 fordítóké a jövő, hanem a nyelv1-ről egy közbülső nyelvre, történik a fordítás. És erről a küzbülső nyelvről kell a nyelv2-re fordítani.

 

A közbülső entitás nem is csak egy nyelv, hanem egy tudáshalmaz, amit folyamatosan aktualizálni kell.

 

A topikban eddig csak a nyelvi szempontokat vették figyelembe, az itt viszont nem elég. A világ és a szavak között a szemantika teremt kapcsolatot, itt még az sem elég. Az egyének nyelven kívüli tudását, tapasztalatát is be kellene építeni a fordítóba.

 

 

Egy példa:

 

A tányér ráesett az asztalra és összetört.

 

Ebben a mondatban a nyelvi elemzés nem mondja meg hogy mi törtött össze.

 

Általában a tányér (a kisméretű, porcelán vagy üveg) törik össze a (nagyméretű, fa) asztalon. De mi van ha az asztal gyenge és űvegből van és a tányér nehéz és törhetetlen üvegből van.

 

Ha a tojást ütjük a kőhöz a tojás törik össze, ha a követ ütjük a tojásahoz akkor is a tojás törik össze. Tartja a mondás.  Az asztal, tányér viszonylatban ez már nem ilyen egyértelmű.

 

Természetesen a kontextusból ki lehet következtetni sokmindent.

S maradhat így a mondat, csak nem derül ki hogy mi törött össze.

 

Ha már olyan nyelvre fordítunk ami nemeket is alkalmaz, és más neme van az asztalnak, mint a tányérnak ott már egyértelműsíteni kell és akkor mi alapján fog dönteni a gépi fordító tudáshalmaz hiányában?

 

A magyar nyelv pedig az aglutináló jellege folytán még nehezebb helyzetben van a gépi felismerés terén mint pl a fuzionáló, flektáló nyelvek.

Nem beszélve arról, hogy még nem készült mahgyar nyelv tudományos igényű leírása ami nélkül nem teljes a dolog.

 

Szóval ezzel a példával csak azt akartam, megmutatni, hogy nem elég csak nyelvtani (szintatkika, szemantika, lexikális elemzés, mondattrani szabályok,  szófajok) modulokat beépíteni a fordítóba, hanem a világról és annak részeiről való tudást, a felgyülemlett tapasztalatot is bele kell építeni s ebben a tudáshalmazban kutatva kell a fordítónak a helyes választ kiválasztania, így még mestersegéges intelligenciára is szükség lehet, van.

 

A 22. hozzászólásodból azt látom, hogy még a lexikai fázissal sem végeztél.

Az az érzésem, hogy csak egy-két fát látsz mindössze. S közben nem vetted észre, hogy erdőben vagy, mit erdőben: dzsungelban.

 

Saját és barátok szórakoztatására természetesen jó móka egy ilyen fordítóval történő játszadozás.

Amennyiben célod használható, eladható termék lenne, szóval ezt nem lehet így kalákában, fusiban létrehozni.   

 

üdvözlettel:

aller

Előzmény: nadamhu (20)
C.C.Viki Creative Commons License 2004.07.21 0 0 25

Sziasztok!

 

Itt is érdeklődöm, hátha szerencsém lesz. Sürgősen szükségem lenne sajnos részvétnyílvánításhoz francia kifejezés(ek)re.  Tudna nekem valaki segíteni gyorsan?

 

Előre is köszi minden választ!

 

Üdv,

Viki

Mitoszkiller Creative Commons License 2004.07.11 0 0 24
Ne add fel!! 
Előzmény: nadamhu (23)
nadamhu Creative Commons License 2004.07.08 0 0 23
Nagyon le tud romlani egy fordítás minősége nagyon választékos nyelvezetnél, és ha nem tudja szegmentálni a szöveget. Az első problémán a közeljövő verziói némileg segíteni fognak. A második probléma nehezebb. Irásjelek használata esetén könnyű szegmentálni. Dupla soremelést is szegmenshatárnak veszek. A sima soremelés viszont nem számít szegmenshatárnak, így pl. egy írásjel nélküli verset nagyon rosszul fordít a program.
Előzmény: nadamhu (22)
nadamhu Creative Commons License 2004.07.08 0 0 22

Igen, a gépi fordítások nagyon szórakoztatóak szoktak lenni, a legtöbb meber nagyon élvezi, amikor először találkozik egy gépi fordítóval. Sajnos a gépi fordítások összetett szövegre ma még ilyen viccesek.

 

miért nem érti a weightless-et meg az endlessnes-t?

Mert még nem ismeri őket. Nem tartoznak a leggyakrabban használt szavak közé.

 

a lefordított szövegből az internetes próbánál  az egyes alternatívák közötti választás után a többi változatot már ki lehetne hagyni)

Igen, én ezt hívom véglegesítésnek. Az asztali szoftverben van ilyen lehetőség, (ott három gomb van: fordítás, korrigálás, véglegesítés.) Ez az online verzióban a véglegesítés még nincs benne.

 

-----

 

A korrigálás gombnak az értelme nem biztos, hogy mindenkinek egyértelmű:

 

Az

 

I bought a car.

 

példával egyértelművé válik, hogy miért kell a 'korrigál' gombot lenyomni.

Előzmény: pert1 (21)
pert1 Creative Commons License 2004.07.08 0 0 21

Kipróbáltam, igen szórakoztató, van olyan programotok is ami ezt vissza tudja fordítani az eredeti angolra? :

 

"Az összes idod (tölt)költsél egy törésnek (szünet), annak második esélyre várva, ami ezt készítené
(tesz) oké vannak mindig néhány tapintás (érzethez) lévo ok nem áru elég és ez nehéz (kemény) a
 nap végénél én szükség néhány distraction
ó gyönyöru kiadás memóriák seep üres legyek az ereimbol ó és weightless akkor talán néhány békét fogok találni este

Az angyal (repülés)röpte(légy) karjaiban away -ból itt ebbol a sötét, hideg szálloda szobából
(hely terem) és a endlessness azt érzed téged húznak -ból a wreckage
-ból your csendes reverie
az angyal május, amelyiket találod, karjaiban vagy néhány kényelem itt "

 

miért nem érti a weightless-et meg az endlessness-t?

 

( a lefordított szövegből az internetes próbánál  az egyes alternatívák közötti választás után a többi változatot már ki lehetne hagyni)

Előzmény: nadamhu (18)
nadamhu Creative Commons License 2004.07.08 0 0 20

Az 'are' és az 'out' olyan szavak, amelyek csak más szavakkal együtt vannak értelmezve, és sajnos nem tudta értelmezni a program úgy, ahogy éppen abban a mondatban volt. (A figure out igekötős igét sajna úgy látszik még nem ismeri.)

 

Egyébként ha az első napokban néha lehalna az online rendszer (eddig nem tette) elnézést kérek, nem volt igazán béta stressz-tesztelve, de a tapasztalat szerint 1-2 napon belül az ilyen hibák kijönnek és kijavíthatóak.

Előzmény: Silan (19)
Silan Creative Commons License 2004.07.08 0 0 19
Tetszik, hogy megad alternatív fordításokat is.
Viszont miért van az, hogy időnként a legegyszerűbb szavakat fordítatlanul hagyja? Pl.
Aren't we there yet? --> Are nem Mi ott még?
Figure out --> ábra out.
Előzmény: nadamhu (18)
nadamhu Creative Commons License 2004.07.08 0 0 18

Sziasztok!

 

Na szóval nem adtam fel a gépi fordítást, mint olyat, csak csöndben fejlesztgettem, és még fogom ezek után is.

Jelenleg elérhető a fordítóm 1.0-ás verziója.

Ugyan már 2002-ben megírt verziót is 1.0-nak neveztem, de mivel úgyis csak nagyon kevesen látták azt, úgy döntöttem, hogy ez az 1.0-ás verzió.

 

Tökéletes fordítást közel se várjatok, de egy 1.0 verziót ideje volt kiadni a kezem közül. Ahogy a lapon is leírom, ez közel sem helyettesíti az emberi fordítást, de olyanoknak, akik egyáltalán nem tudnak angolul, segít betájolni, hogy miről van szó a szövegben.

 

A link:

http://www.cybertron.hu

 

Onogur Creative Commons License 2003.10.29 0 0 17
Kedves nadamhu!

Elméleti síkon elgondolkoztam a gépi fordításról, s az alábbi koncepcionális elképzelésem születet róla - előrebocsájtva, hogy semmiféle szakirodalmat nem ismerek e téren:

Első és legfontosabb szerintem, hogy csak kétlépcsősen lehet hatékonyan megoldani. Először egy "metanyelv"-re fordítani és onnan tovább a fordítandó nyelvre. A metanyelv írná le precízen és teljesen absztrakt formában a szöveg által meghatározott közlendő információt. Ezen információt, élethelyzetet, szituációt, stb-t (nehéz pontosan leírni, értsd jól) minden nyelv máshogy írja le, s az adott nyelvi fordító a nyelv-metanyelv viszonylatban transzformál. Ez azzal az előnnyel is jár, hogyha írnak hozzá egy újabb nyelvi kapcsolatot, akkor a rendszer által már ismert nyelvekről/re rögtön lehet fordítani.

Már e topikban is elhangzott, hogy a szótár mellett vaskos kifejezéstárat is létre kell hozni.

Az említett metanyelv leírásához alapos nyelvészeti és matematikai kutatásokra lenne szükség.

Mindezek mellet az MI tapasztalatokat is erősen figyelembe kellene venni, de erről nincs ismeretem.

Üdv: Onogur

nadamhu Creative Commons License 2003.09.08 0 0 16
Eleg jol latod a dolgokat. Csak nem foglalkoztal ilyesmivel?
>Ha jól értem, akkor ketten dolgoztok rajta 5 >éve, lényegileg a szbadidötökben
Ennyire sok munka nincs azert benne. Vegul is egyedul csinalom, es igazan aktivan "csak" 2001 oktobere ota. De tenyleg csak szabadidomben. (Amit viszont jo sokat kell ra aldozni:))

Abban igazad van, hogy igazan jo eredmenyt igy nem fogok elerni, mert itt tenyleg nem eleg nehany jo otlet, rendgeteg 'verejtekes munka' is kell a rendszer elkeszultehez.

Ugyhogy a celom az, hogy amikor mar eleg komoly eredmenyt tudok felmutatni, valahogyan be akarok vonni masokat. Eddig nem igazan neztem befekteto utan sem, ha ugy erzem eleg jo demot tudok prezentalni, akkor ezt a tevekenyseget is elkezdem.

A rendszer termeszetesen modularis, a modulok:

- angol morfologiai elemo
- angol nyelvtani elemzo (nem a hagyomanyos nyelvtanrol van szo,annal magasabb szintu, pl. az aktiv es passziv igeidoben mondott mondatot ugyanabba a strukturaba elemzi.)
- 'jelentes finomitas' (gyakorlatilag egyes szavak jelenteset valasztja ki a tobbi fuggvenyeben.)
- magyar nyelvtani generalas
- magyar morfologiai generalas.

Ha van kedved szivesen bemutatom a rendszert szemelyesen is, (a forrasat is) es esetleg megbeszelhetjuk, hogy te milyen modulokat kepzelsz el.

Előzmény: rhaurin (15)
rhaurin Creative Commons License 2003.09.07 0 0 15
Ha jól értem, akkor ketten dolgoztok rajta 5 éve, lényegileg a szbadidötökben. Ebböl igy nem lesz soha semmi. Értem, hogy arról álmodoztok, hogy ez valamikor kitünö üzlet lesz és visszajön a pénz kamatostul, de ez valószinütlen. Egy igazán használható rendszerhez rengeteg pénz kell, rengeteg munka, mindenesetre sokkal több, mint pár emberév. Nem hiszem, hogy ezt meg tudjátok finanszirozni.

Ugyanakkor - különösen most, az EU csatlakozás után - biztos, hogy hatalmas kereslet lesz gyors, szük szakterületekre koncentráló gépi forditás-segitö (nyersforditó) rendszerekre. Nincs kizárva, hogy erre egy-két nagy cég ráugrik és kivásárolnak titeket, meg még azt a pár csapatot, aki ilyesmivel foglalkozik a konyhaasztal sarkán. Ez talán hozhat nektek valami zsozsót, de a témáról akkor le kell mondanotok, hacsak el nem adjátok magatokat is a progival együtt.

Ezt én nem tartom jó végkifejletnek. Egy normális világban inkább az történne, hogy az állam, az adófizetök pénzéböl kivásárolná az ilyen forráskódokat és GNU GPL alatt publikálná. Aztán mögé tenne egy közpézekböl finanszirozott csapatot, amelyiknek a kódbázis karbantartása, az interfészek szabványositása lenne a feladata valamint a dokumentációk publikálása és a kapcsolódó szakirodalom hozzáférhetövé tétele, röviden: a munka összefogása.

A tényleges munkába szerintem nagyon sokan beszállnának. Egy részük egyszerüen kedvtelésböl, de nyilván vannak olyan egyetemi kutatóhelyek is, amelyek bekapcsolódnának, söt, jó esélyjel lehetne szponzorokat is szerezni olyan cégek köréböl, akik érdekeltek abban, hogy egy müködöképes és lehetöleg teljes magyar nyelvi környezet összeálljon. Azt talán már észrevettétek, hogy a természetes nyelv-feldolgozás jól modularizálható feladat, ugyanaz a modul egészen eltérö alkalmazásokban is használható. Ha a fejlesztés publikusan folyna, ki lehetne dolgozni a szabványos interfészeket és mindegyik modul többé-kevésbé függetlenül fejleszthetövé és tesztelhetövé válna.

Mivel a magyar piac nem olyan nagy, szerintem ezzel a módszerrel sokkal hamarabb (és sokkal olcsóbban) jutnánk magas szinvonalú megoldásokhoz, mintha arra várunk, hogy majd valamelyik nagy nemzetközi cég elöbb-utóbb beleteszi azt a rengeteg pénzt, amire itt szükség lenne. Egy ilyen közös alapon sokkal nagyobb esélyjel lehetne aztán valódi kereskedelmi termékeket is épiteni.

Persze nehéz megitélni, hogy milyen minöségü az eddig elvégzett munkátok: talán érdemes lenne addig is felhúzni egy szervert és csinálni vmi kis cgi interfészt, amin keresztül bárki tesztelhetné (kisebb szövegekkel) a progitokat. Ez szerintem nektek is tanulságos lenne.

Ha érdekel, elmondhatom azt is, hogy nagy vonalakban milyen nyelvi modul-rendszert képzelek és milyen potenciális alkalmazási területeket látok.

Előzmény: nadamhu (14)
nadamhu Creative Commons License 2003.09.07 0 0 14
Hu, mar nagyon regen nyitottam ezt a topicot, de a program fejlesztese (egy feleves szunet kivetelevel) azota is folyik. Szinte a teljes rendszer at lett irva. Jovo tavasszal ismet kiadom a programot, de most mar erezhetoen jobb minosegu lesz, mint az elozo verzio.

Egy keveset lehet olvasni a technikarol, legalabbis az angol elemzes reszrol az oldalamon.
http://www.cybertron.hu

A gepi forditasrol altalaban annyit tudni kell, hogy a kozelebe nincs annak, hogy olyan eredmenyt produkaljon, mint az emberi forditas, es a kozeljovoben szvsz nem is fog, hacsak nem az emberi gondolkodast is modellezni tudjuk.

Ezzel szemben technikai szovegek gyors megertesere mar hasznalhato, mar vannak cegek, akik boven megelnek belole: Pl. Systran.

>Még csak nem is az a baj, hogy egy szónak több >jelentése van; a problémát az a teljes mértékben >téves feltételezés, hogy a nyelv alapegysége a >szó.
Valoban melyebb szinten nem a szo az alapegyseg, (en pl. entitas-relaciokkal valositom meg a belso nyelvet) Mar egy egyszeru angol-magyar zsebszotar sem szavak, hanem kifejezesek forditasat irja le, - persze sajnos nem formalis modon -.

Előzmény: Újlaki (13)
Újlaki Creative Commons License 2003.09.07 0 0 13
Még csak nem is az a baj, hogy egy szónak több jelentése van; a problémát az a teljes mértékben téves feltételezés, hogy a nyelv alapegysége a szó. Nem igaz, a nyelv alapegysége a kifejezés, esetleg a teljes mondat.

Ha el is fogadnánk, hogy a szó az alapegység, és a nyelvet le lehet írni egy szótárral és egy véges szabályhalmazzal, akkor is az a probléma, hogy ahány beszélő és ahány hallgató, annyi különböző nyelv van, azaz annyi különböző szótár és nyelvtan. A fordítás mindig attól függ, hogy ki mondta kinek, és hogy ezt a fordító mennyire képes megérteni és valakinek elmondani.

Ráadásul még akkor is baj van, ha megtaláljuk a végtelen sok közül az adott esetre jól-rosszul alkalmazható szótárt és nyelvtant, ugyanis mind a kettő akár egyetlen közlés során, menet közben is változik. Gondoljunk egy nyelvtanulásra, vagy tárgyalásra, udvarlásra, ahol folyamatosan változik a résztvevők tudása, stratégiája és taktikája, és menet közben dinamikusan ehhez igazítják az éppen használt nyelvet.

Előzmény: bastyaelvtars (5)
Biga Cubensis Creative Commons License 2003.08.15 0 0 12
Nézegettem ezt az index által is említett GIZÁ-t, érdekesnek tűnik. Van valakinek tapasztalata, netán élesben? Egyelőre letöltöttem, de nem az a felhasználóbarát felület :-)
Fabien Creative Commons License 2002.06.25 0 0 11
Érdekes az ötlet!
Ha bejön, egy csomó ismerősöm munkanélküli lesz... Több fordítónak is van szerencsém dolgozni, és azt vettem észre, hogy - annak ellenére, hogy számos nyelven és meglehetősen magas szinten űzik a dolgot - hatalmas különbségek vannak köztük. Van, amelyik angolra, van amelyik magyarra fordít szebben. Ugyanazt a szerződést pedig öten ötféleképpen. Érzék kérdése.
Én pont azt látom problémásnak a gépi fordításban; szubjektíve is fontos, hogy egy szerződésről, egy versről vagy egy bulvárcikkről van-e szó. Vannak olyan fordulatok, amelyeket nem lehet nélkülözni, illetve amelyek erősen nyelvterület vagy kultúrafüggőek egy adott szövegben.
De mindezek ellenére megéri a fáradságot az ötlet!
Jó munkát kívánok: Fabien.
escargot Creative Commons License 2002.06.22 0 0 10
valamennyire ismerem a problémát, foglalkoztam vele néhány évvel ezelőttig, a mesterséges intelligencia oldaláról megközelítve elsősorban. a legnagyobb problémák az angol-magyar fordításban (a teljesség igénye nélkül) a következők:
- a magyar nyelvtannak nincs gépiesíthető leírása, tehát nem létezik (egyelőre) olyan konkrét szabályhalmaz, amelynek ha megfelel egy szöveg, akkor biztosan helyes nyelvtanilag.
- a szinonímák közül való válogatás a kontextusnak megfelelően... ide vagy emberi segítség kell, vagy nagyon ügyes MI megoldások sokasága. ha olvasgattatok pszicholingvisztikát, sokmindent világosabban lehet látni. az emberi agy szövegképzése elég összetett folyamat. a téma specialistái nem mondják, hogy lehetetlen, de hogy nem egyszerű, és - egyelőre talán - nem is célszerű, azt mondják.
- műfordításhoz, tehát irodalmi szövegek fordításához használni a számítógépet amellett, hogy még nehezebb (hisz előjönnek olyasmi dolgok, mint stílus, meg egyebek), sokak szerint nem is etikus. arról nem is beszélve, hogy irodalmi szövegek nem kevés esetben alkalmaznak a kül. nyelvektől részben eltérő, mégis, emberi tudat számára felfogható nyelveket, szavakat. (pl. a Gépnarancs tipikus példa erre: "szlúsálom, mit gavarittyolnak, és horrorsón szmeháltam is rajta", meg ilyenek.)
- az fordítandó szövegben előforduló más nyelvű kifejezések fordítása... és annak eldöntése, milyen nyelvű a dolog. és hogy egyáltalán, le kell-e fordítani őket. pl. latin megnevezések, vagy műszaki szakkifejezések.
- tulajdonnevek - fordítani, vagy nem fordítani valók-e? bizonyos speciális esetekben nehéz eldönteni.
- az adott nyelv szólásainak, közmondásainak esete. erre tipikus példa az angol "carry coals to Newcastle" (vagy mencseszter, nem emlékszem rá pontosan:), aminek a magyar megfelelője a "vizet hordani a Dunába". eldönteni, hogy szó szerint értendő-e, vagy átvitt értelemben... hm...
- meg még ami nem jut eszembe hirtelen.

tehát, no... szókincs bővítés nagyon kevés ehhez. javaslom a szakirodalom áttekintését.
ha pl. műszaki szövegekre állnátok rá, akkor sokkal könnyebb az ügy, ott ugyanis a problémahalmaz szűkül valamelyest. egyelőre azonban az ember által segített gépi fordítás megvalósítását javaslom barátilag:) különben pedig: sok sikert:)
[esc]

paul2 Creative Commons License 2002.06.04 0 0 9
Fél év után nem rossz eredmény, még akkor sem, ha tudjuk, hogy ez nem árokásás, azaz a látható haladás időben nem lesz egyenletes. (Magyarul: egy megoldott probléma 10 újat generál majd)
nadamhu Creative Commons License 2002.06.03 0 0 8
Vagy egy masik jo pelda a szo helyes jelentesenek eldontesere:

A fordítandó angol szöveg:

I dry the plate.
The plate dries.

A lefordított magyar szöveg:

Megszárítom a tányért.
A tányér szárad.

Itt a targy jelenlete donti el a jelentest. Sok igenel mukodik az a rendszerben, hogy bizonyos vonzat jelenlete befolyasolja a jelentest.

Előzmény: bastyaelvtars (5)
nadamhu Creative Commons License 2002.06.03 0 0 7
"hogy a legtöbb szónak több jelentése van"
Magad is megygyozodhetsz rola, hogy pl. a 'light' szot mar most is megprobalja igekent, es fonevkent is kezelni:

I light my fire.
The speed of the light.

A lefordított magyar szöveg:

Meggyújtom a tüzemet.
A fény sebessége.

Tehat en pontositanek: A gond nem akkor van, hogy egy szonak tobb jelentese van, hanem akkor, ha ezek a jelentesek nyelvtanilag ugyanabba a kategoriaba tartoznak.
Ekkor is lehet heurisztikat kidolgozni: Kell allapotautomata, ami jegyzi, hogy kab milyen temarol van szo. Igy e szerint probalja az ertelmet kivalasztani. Pl egy politikai szovegnel a 'Board' szo megkapja a 'Tanacs' ertelmet, mig egy gordeszkas szovegnel a 'deszka'-t.
Ilyet a rendszer meg nem tartalmaz, de ezt is tervezem kesoob belerakni.

Előzmény: bastyaelvtars (5)
nadamhu Creative Commons License 2002.06.03 0 0 6
A szokincs egyelore csak 3000 alapszobol all.
Ezert fordulnak elo ismeretlen alapszavak is.
A kovetkezo honapokban ezt fel fogjuk tornaszni a tobbszorosere.
Ez egy 1.0 - as verzio, ami remelhetoleg a kezdet kezdete, de mar igy is fel ev munka van benne.
Egy ilyen rendszer elkeszitese nagyon sok idot es munkat igenyel, bizonyos cegek erre tobb tiz embereveket szannak.

Nagyon sok olyan otletem van, amit a jovoben bele fogok tenni a rendszerbe, de IDO-m nem volt ra.

Peldaul a tobb lehetseges nyelvtani reprezentacio kozul most az elsot valasztja, pedig lehetne prioritasokat rendelni az egyes lehetseges szerkezetekhez...

Talan hiba volt kirakni a progit a netre 3000 szoval, szoval most szokincs bovitesi idoszak kovetkezik...

Előzmény: bastyaelvtars (5)
bastyaelvtars Creative Commons License 2002.06.03 0 0 5
Na azért illene némi indoklás is a részemről :))

Szóval ha megnézel egy angol (vagy szinte bármilyen) szótárt, abban az látszik, hogy a legtöbb szónak több jelentése van. Soknak akár 10-20 féle. Hogy fogja kiválasztani a program a szöveg tényleges "megértése" nélkül, hogy a több jelentésből éppen melyik illik oda? Minden szó helyére tesztek egy legördülő listát, amiből a felhasználó majd választ? :)

Különösen az olyan szavak esetében, amelyek nyelvtani összefüggéseket képviselnek. Pl. a Dr. lecter példájában, ahol az "on" tartozhat az előtte és az utána álló szóhoz is. És itt a legördülő lista sem megoldás, mert a választól függően teljesen más lesz a magyar mondat szerkezete, szórendje stb.

Szóval szerintem ott a tanulság, hogy ha egy "intelligencia" nem "érti" a mondat jelentését, akkor esélye sincs azt egy másik nyelvre áttenni.

bastyaelvtars Creative Commons License 2002.06.03 0 0 4
Arról nem beszélve, hogy naponta csak 5 próbát enged. Na persze ezek után megértem :))

Szerintem nem kell annyira félteni, tegyétek korlátlanná a kísérletezési lehetőséget, én nem hiszem, hogy egyelőre bárki rajtatok fog meggazdagodni :))

De ha a topic komoly, és nem csak reklám, akkor szerintem arról nem hülyeség elbeszélgetni, hogy egyáltalán van-e esély a belátható jövőben arra, hogy viszonylag normális fordítóprogram készüljön. Szerintem nincs. Aztán ezzel lehet vitatkozni :))

Előzmény: Dr. Lecter (3)

Ha kedveled azért, ha nem azért nyomj egy lájkot a Fórumért!