|
|
 |
Kis Ádám
2005-05-07 21:33:06
|
195
|
Azért is elsiklottam volna felette, mert nem szeretek helyesírást ellenőrizni. Semmiféle elégtételt nem érzek, ha valakinél hibát találok, alapvetően nem érdekel, hacsak nem épp az a dolgom, hogy javítsam. Ezért, a kiadóban korrektort alkalmazunk.
Ami az 'ellenőr' összetettségét illeti, nem mondhatnám, hogy nem értek egyet vele. A magyar nyelvleírás egyik lehetősége, hogy az igekötőt szónak tekinti, és ez főleg azzal magyarázható, hogy önálló szóként is megjelenhet. Néha az az érzésem, inkább kötött morfémának kellene tekinteni, még akkor is, ha hátravetve vagy közbeékelés esetén külön szóként jelenik meg.
Ami az éneket illeti, én nem mondtam azt, hogy nem kell vele foglalkozni. Csak azt mondtam, hogy nem tartozik abba a kérdéskörbe, amivel kapcsolatban szóba került. Egyébként nem az 'ének'-kel kell foglalkozni, hanem a maradékkal. Antal szerint egy fonémakonfuguráció csak akkor tekinthető morfémának, ha nemcsak magának van jelentése (esetünkben benne van a szótárban), hanem a környezetének is, amiből elvontuk.
(pl. szirének - ha előlről elemezzük, ezt a sort csináljuk végig:
NM - nem morféma, M- morféma
sz (NM) - irének (M) - illegális bontás
szi- (NM) - rének (NM) - illegális
szir - (NM) - ének (M) - illegális
sziré - (NM) - nek (M) - illegális
szirén (M) - ek (M) legális
sziréne (NM?) - k (M) illegális - legális
nézzük a szirénéneket (a dőlt az illegális)
sz - irénének illegális
szi - rénének
szir - énének
sziré - nének
szirén - ének
sziréné - nek
Látható, hogy az elemzés két legális eredményt adhat. Az elválasztás szempontjából ez releváns,, mert az első esetben lehetséges elválasztás a szi-rén-ének, a másodikban pedig szi-ré-né-nek.
Azt hiszem, egyelőre abban maradhatunk, hogy ezt a kettősséget gépi eszközkkel nem tudjuk megszüntetni, tehát kettőt tehetünk:
1. Semmit, azaz nem választunk el automatikusan. A tördelő tudja, hogy kell kézzel elválasztani, és észreveszi, hogy itt a gép nem választott el.
2. Alternatívát ajánlunk, mint a helyesírásnál, és a felhasználó választ.
Ha a tördelő anyanyelvi, szerintem ez a két megoldás egyenértékű, viszont az első a rendszer szempontjából sokkal egyszerűbb.
Amit a helyesírás-ellenőrzést ilelti, ez a párbeszéd folyt le közöttünk:
'A program azt próbálja megállapítani, hogy a szövegszó [...] megegyezik-e az előre tárolt alakok valamelyikével.
Semmiképpen nem. Magyarul így nem lehet jó helyesírás-ellenôrzôt írni, mert nincs esély az összes lehetséges alakot elôre szintetizálni és eltárolni. Angolul elmegy, de magyarul analizálni kell, nem szintetizálni."
Volnál olyan kedvesmegmutatni, hol mondtam, hogy magyarul? Ez az általános elv, amelynek nem az a lényege, hogy a két összehasonlított elemnek mi a neve a nyelvi struktúrában. Mi azt szoktuk mondani, hogy a magyar (agglutináló) helyesírás-ellenőrző annyiban más, mint az angol, hogy nem szótárat, hanem morfématárat alkalmaz. A lényeg akkor is az, hogy pozitív összehasonlítás történik.
Mivel a tagolás vonatkozásában szemantikafüggetlenül csak formális jegyekre lehet támaszkodni, egyelőre kevés az esély arra, hogy az úgynevezett helyesírási szó (a magyarban nem, de a németben létező terminus technicus: ortographisches Wort") helyébe más lépjen. Ez ellentmond a pozitív összehasonlítás elvének, ugyanis a generált szerkezetek teljesen nyílttá teszik a rendszert.
Kis Ádám
|
|
A hozzászólás:
 |
DJG
2005-05-07 20:36:22
|
193
|
Ádám,
Na ja, a kérdés az, hogy ha nem hívom fel a figyelmedet, akkor talán elsiklottál volna felette... :-)) Egyébként semmi mást nem jelez, mint idegenkedésemet, hogy az 'ellenôr', 'ellenôriz' szavakat összetett szónak tekintsük: nekem az összes ismert és felhozható érvek ellenére nem tûnik természetesnek...
De, mégsem rossz példa az 'ének', figyelembe véve azt is, amit a kezdô magánhangzó leválasztásáról írtál (bár arra válaszoltam az imént). Ugyanis te statikusan nézed a kérdést, számodra a szó egy ránézésre elemezhetô és ugyanígy hozod meg az ítéletedet. A program viszont nem tud így mûködni. Neki elôbb kell elemeznie a szót, és utána dönteni a kötôjelekrôl. A szókezdô magánhangzót levágásáról-otthagyásáról azután tud csak dönteni, miután megtalálta az összetevôket. Az -énekkel tehát elôbb foglalkozni kell, és ha szükséges, utólag ejteni az elemzés eredményét.
A helyesírás-ellenôrzéssel (na jó, legyen kötôjel...) kapcsolatban talán nem voltam elég egyértelmû, de azt írtam: a szótagolómodul nem végez ilyet, csak bizonyos mértékig. Ez valóban pontatlan egy kicsit, mert nem tettem világossá, hogy nem nyelvi, hanem algoritmikus megközelítésrôl beszéltem: a szótagolómodul olyan jellegû elemzési lépéseket is elvégez (toldalékok, összetett szavak felismerése), amelyre a helyesírás-ellenôrzésnek is szüksége van, csak ez utóbbi továbbmegy, és olyan dolgokat is elemez, amelyekre a szótagolónak már nincs szüksége a végsô döntés meghozatalához. A programozási részleteket illetôen tehát sok közös van ebben a két feladatban.
A program azt próbálja megállapítani, hogy a szövegszó [...] megegyezik-e az előre tárolt alakok valamelyikével.
Semmiképpen nem. Magyarul így nem lehet jó helyesírás-ellenôrzôt írni, mert nincs esély az összes lehetséges alakot elôre szintetizálni és eltárolni. Angolul elmegy, de magyarul analizálni kell, nem szintetizálni.
Ami a téves egybeírást illeti, a gyakorlatban az is akadálya, hogy nem tudok olyan programról, amely a szótagolómoduljától nem izolált szavakat kérdezne le. Persze, lehetne másképp is, de így van. És még az sem biztos, hogy a szöveg összes szavát egymás után megkapja a szótagolómodul, lehet, hogy csak a ténylegesen a sor végére esôket, tehát kontextusnak a halvány esélye sem létezik a számára.
Üdv, Gábor
|
|
Előzmény:
 |
Kis Ádám
2005-05-07 20:02:24
|
191
|
Kedves Gábor!
A helyesírás-ellenőrzést voltál szíves elhibázni.
Amúgy több ponton vitatni lehet az írtakat.
Az első vitatható dolog a konkrét eset komoly problémának tekintése. Az előző hozzászólásomból kiderült, hogy se nem komoly, se nem komolytalan - az 'ének' egyszerűen alkalmatlan példa.
A második vitatható dolog, hogy a szótagolóprogram helyesírás-ellenőrzést végez. Ez azt a látszatot kelti, mintha a szótagokra való bontásnak köze lenne a helyesíráshoz - úgy általában. Ez azonban nem igaz.
A helyesírás-ellenőrzés (egy része, melynek egyáltalán köze van a szótagoláshoz) pozitív mintával való hasonlításos eljárás. A program azt próbálja megállapítani, hogy a szövegszó (amely adott eseteben két szóközzel vagy szóközzel és írásjellel, bekezdésjellel stb. határolt karaktersorozat) megegyezik-e az előre tárolt alakok valamelyikével. Ha igen, nem tes semmit, ha nem, akkor jelez.
Ennek önmagában semmi köze nincs a helyesíráshoz. Az így "hibás"-nak (ezt a szót rendes spell checker nem ejti ki aí képernyőjén!) jelölt alak lehet helyes, és olya alak, amelyet a program nyugodt lélekkel átlép, mert helyesnek ítéli, hibás.
Kedvenc példám: "Az edző ellőtt elsőtétült a világ a felelőtlenül előtt labdák miatt". A mondatban két hibás szó minimálisan van, a program viszont nem fog jelezni egyet sem, és még a kiritkus zsenik sem tudják elérni (no, nem ezt a konkrét esetet, hanem az elvet).
Más részről ezt a klasszikus verssort "Orrán feszítve fel s alá lépked az orrobém" hibásnak fogja jelezni, pusztán azért, mert az orrobémről ő sem tud, nemcsak a Brehm, a Mayer s a Révai. ("Lantomból a nap s az ájer épp e percben csalta ki" - írta Ch. Morgenstern, illetve Szabó Lőrinc).
Más kérdés, hogy a helyesírás-ellenőrzésnek nem is elegendő a szótagolás, ennél többre is szüksége van, az úgynevezett stemmerre (a kutya esetében a ku-tya tagolás irreleváns, ennél fontosabb a kuty-a, illetve kuty-á, ami ugye, a szótagolóval nem is produkálható.)
Tovább menve, ha ezt a hibakört akarjuk géppel ellenőrizni, felemás a helyzetünk, ugyanis a gép csak azt tudja megállapítani, hogy valamit tévesen egyebírtunk, azt sokkal kevésbé, ha valamit különírással hibázunk el. Ez alapvetően a helyesírási szó fogalmával függ össze. A hibás különírás minimum 3 szóközt feltételez.
Az sem igazá üdvöz, hogy a magyarban elvileg bármilye két főnév egybeírható (jelentésfüggetlenül).
Kis Ádám |
|
|
Ha kedveled azért, ha nem azért nyomj egy lájkot a Fórumért!
|