Szerintem érdekes dolog; érdemes ezt kutatni.
Mindenképpen erre érdemes az államnak tudomány címén pénzt áldoznia, nem pedig olyan dolgokra, hogy 700millió forintból felépítik a magyar nyelv házát.
(Persze jó lenne, ha engem is támogatna az állam, de ez más kérdés..:))
Én a magam részéről kíváncsian várom az eredményt, remélem nyilvános lesz.
Szigorúan magánvéleményem a következő:
Szerintem még nem érkeztünk igazán el arra szintre, hogy a jó minőségű gépi fordítást cakkompakk tisztán statisztikai vagy gépi tanulásos módszerekkel megoldjuk.
Túlságosan bonyolult a probléma ahhoz, hogy elvárhassuk, hogy adunk a rendszernek egy korpuszt, és várjuk, hogy megtanuljon fordítani.
Kénytelenek vagyunk bizonyos mértékig a saját tudásunkra, fogalmainkra, modularizációs elképzeléseinkre hagyatkozni. Kénytelenek vagyunk magunk modelleket építeni. A statisztikai módszereket csak részfeladatok megoldására látom jónak: egy bizonyos modul szabályait megpróbálhatjuk tanítani a gépnek. Ez sokszor leginkább annotált, illetve előfeldolgozott korpusz alapú tanítást jelent.
Az én megközelítésem az, hogy addig fejlesztgetem, gyúrom, refactorolom a modelljeimet, amíg aggyal bírom, és amikor ennek látni fogom a határait, vagy végképp nem bírom cérnával, akkor pedig én is nekiindulok az egyes modulok szabálybázisainak automatikus tanításának, fokozatosan egyre önállóbbá, egyre öntanulóbbá fejlesztve a rendszert. Szóval nem zárkozom el az öntanuló rendszerektől, csak még az én fejlesztési stratégiámban nem jött el ennek az ideje.
(Képzeljük el a következő scifi-be illő scenáriót: valaki elkezd írni az egyszerűség kedvért modjuk C nyelven egy programot, ami nem öntanuló. Viszont lassan behardcodeolja a rendszerbe azt, hogy hogyan kell C programokat írni, így a rendszer lassan lassan elkezsi magát is elemezni, és lassan átírni. Egy idő után annyira átyrja magát, hogy rá sem lehet ismerni. Nos valahogy így szeretném én is, ha a rendszeremben szépen lassan fokozatosan átvennék a hatalmat az öntanuló részek az ember által kódoltak felett.)
A statisztikai módszereknek egy nagy előnye az iszonyatosan erős 'valóságkontroll'. Én, mint egyelőre kézi szabályokat létrehozó ember, ebben hátrányban vagyok, hiszen, lehet, hogy a modelljeim nem felelnek meg a 'valóságnak'. Ezzel tisztában vagyok, így a lehető legerősebb valóságkontrollt kell használnom. Ezt most úgy érem el, hogy van egy nagy input.txt-m tele angol mondatokkal, amiből a programom output.txt-t generál. Minden programmódosítás után meg kell néznem, hogy volt-e változás az output.txt-ben, és ha nem javított a helyzeten, a változtatást vissza kell csinálni. Ez végülis a test driven development egy formája. Ha elég nagy az input.txt, akkor ez egy picit rokonságban van a korpuszalapú megközelítéssel. Igazából ez egy szemi-evolúciós fejlesztési módszer, hiszen a jó változtatások (mutációk) élnek túl, csak ezek a mutációk nem véletlenszerűek, hanem én hozom létre őket a legjobb tudásom szerint. De az evolúciós kontroll (valóságkontrol) minden pillanatban ott van, és kegyetlenül lecsap a rossz mutációkra. |