|
|
 |
DJG
2005-05-07 20:36:22
|
193
|
Ádám,
Na ja, a kérdés az, hogy ha nem hívom fel a figyelmedet, akkor talán elsiklottál volna felette... :-)) Egyébként semmi mást nem jelez, mint idegenkedésemet, hogy az 'ellenôr', 'ellenôriz' szavakat összetett szónak tekintsük: nekem az összes ismert és felhozható érvek ellenére nem tûnik természetesnek...
De, mégsem rossz példa az 'ének', figyelembe véve azt is, amit a kezdô magánhangzó leválasztásáról írtál (bár arra válaszoltam az imént). Ugyanis te statikusan nézed a kérdést, számodra a szó egy ránézésre elemezhetô és ugyanígy hozod meg az ítéletedet. A program viszont nem tud így mûködni. Neki elôbb kell elemeznie a szót, és utána dönteni a kötôjelekrôl. A szókezdô magánhangzót levágásáról-otthagyásáról azután tud csak dönteni, miután megtalálta az összetevôket. Az -énekkel tehát elôbb foglalkozni kell, és ha szükséges, utólag ejteni az elemzés eredményét.
A helyesírás-ellenôrzéssel (na jó, legyen kötôjel...) kapcsolatban talán nem voltam elég egyértelmû, de azt írtam: a szótagolómodul nem végez ilyet, csak bizonyos mértékig. Ez valóban pontatlan egy kicsit, mert nem tettem világossá, hogy nem nyelvi, hanem algoritmikus megközelítésrôl beszéltem: a szótagolómodul olyan jellegû elemzési lépéseket is elvégez (toldalékok, összetett szavak felismerése), amelyre a helyesírás-ellenôrzésnek is szüksége van, csak ez utóbbi továbbmegy, és olyan dolgokat is elemez, amelyekre a szótagolónak már nincs szüksége a végsô döntés meghozatalához. A programozási részleteket illetôen tehát sok közös van ebben a két feladatban.
A program azt próbálja megállapítani, hogy a szövegszó [...] megegyezik-e az előre tárolt alakok valamelyikével.
Semmiképpen nem. Magyarul így nem lehet jó helyesírás-ellenôrzôt írni, mert nincs esély az összes lehetséges alakot elôre szintetizálni és eltárolni. Angolul elmegy, de magyarul analizálni kell, nem szintetizálni.
Ami a téves egybeírást illeti, a gyakorlatban az is akadálya, hogy nem tudok olyan programról, amely a szótagolómoduljától nem izolált szavakat kérdezne le. Persze, lehetne másképp is, de így van. És még az sem biztos, hogy a szöveg összes szavát egymás után megkapja a szótagolómodul, lehet, hogy csak a ténylegesen a sor végére esôket, tehát kontextusnak a halvány esélye sem létezik a számára.
Üdv, Gábor
|
|
A hozzászólás:
 |
Kis Ádám
2005-05-07 20:02:24
|
191
|
Kedves Gábor!
A helyesírás-ellenőrzést voltál szíves elhibázni.
Amúgy több ponton vitatni lehet az írtakat.
Az első vitatható dolog a konkrét eset komoly problémának tekintése. Az előző hozzászólásomból kiderült, hogy se nem komoly, se nem komolytalan - az 'ének' egyszerűen alkalmatlan példa.
A második vitatható dolog, hogy a szótagolóprogram helyesírás-ellenőrzést végez. Ez azt a látszatot kelti, mintha a szótagokra való bontásnak köze lenne a helyesíráshoz - úgy általában. Ez azonban nem igaz.
A helyesírás-ellenőrzés (egy része, melynek egyáltalán köze van a szótagoláshoz) pozitív mintával való hasonlításos eljárás. A program azt próbálja megállapítani, hogy a szövegszó (amely adott eseteben két szóközzel vagy szóközzel és írásjellel, bekezdésjellel stb. határolt karaktersorozat) megegyezik-e az előre tárolt alakok valamelyikével. Ha igen, nem tes semmit, ha nem, akkor jelez.
Ennek önmagában semmi köze nincs a helyesíráshoz. Az így "hibás"-nak (ezt a szót rendes spell checker nem ejti ki aí képernyőjén!) jelölt alak lehet helyes, és olya alak, amelyet a program nyugodt lélekkel átlép, mert helyesnek ítéli, hibás.
Kedvenc példám: "Az edző ellőtt elsőtétült a világ a felelőtlenül előtt labdák miatt". A mondatban két hibás szó minimálisan van, a program viszont nem fog jelezni egyet sem, és még a kiritkus zsenik sem tudják elérni (no, nem ezt a konkrét esetet, hanem az elvet).
Más részről ezt a klasszikus verssort "Orrán feszítve fel s alá lépked az orrobém" hibásnak fogja jelezni, pusztán azért, mert az orrobémről ő sem tud, nemcsak a Brehm, a Mayer s a Révai. ("Lantomból a nap s az ájer épp e percben csalta ki" - írta Ch. Morgenstern, illetve Szabó Lőrinc).
Más kérdés, hogy a helyesírás-ellenőrzésnek nem is elegendő a szótagolás, ennél többre is szüksége van, az úgynevezett stemmerre (a kutya esetében a ku-tya tagolás irreleváns, ennél fontosabb a kuty-a, illetve kuty-á, ami ugye, a szótagolóval nem is produkálható.)
Tovább menve, ha ezt a hibakört akarjuk géppel ellenőrizni, felemás a helyzetünk, ugyanis a gép csak azt tudja megállapítani, hogy valamit tévesen egyebírtunk, azt sokkal kevésbé, ha valamit különírással hibázunk el. Ez alapvetően a helyesírási szó fogalmával függ össze. A hibás különírás minimum 3 szóközt feltételez.
Az sem igazá üdvöz, hogy a magyarban elvileg bármilye két főnév egybeírható (jelentésfüggetlenül).
Kis Ádám |
|
Előzmény:
 |
DJG
2005-05-07 18:58:48
|
187
|
Továbbra sem érzem, hogy az ének az automatikus elválasztás szempontjából komoly probléma lenne.
Nem jó kifejezés erre a komoly probléma, nem feltétlenül az, de mindenképpen speciális eset, megoldandó feladat: valami, amire ha nem fordítasz külön figyelmet, magától nem lesz jó. Van még sok ilyen amúgy, egy tucatnyi biztosan.
Amit az egybeírásról-különírásról írtatok, az nem feltétlenül jó érv egy szótagolóprogramnak. A szótagolómodul bizonyos mértékig helyesírásellenôrzést is végez, de nem teljes mértékig (például, nem tisztje ismeretlenként visszautasítani a 'városak' szót, mondván, hogy az nem jó, hanem 'városok' a helyes: ez, legalábbis az én véleményem szerint, és az enyém eszerint is mûködik, nem a szótagoló feladata — neki helyesen kell elválasztania a (felismerhetôen) rosszul megalkotott szavakat is. Ezen megengedôbb álláspont miatt nem építhet az elemzés ennyire szigorúan a helyesírás eme szabályaira.
Arról már nem is beszélve — persze, ezért fájjon a programozó feje —, hogy ez katasztrófálisan nehezen követhetô és karbantartható programhoz vezetne. Az algoritmikus megközelítés alapvetô jellege, hogy szabályos, rendszerezett fogalmakkal dolgozik, márpedig ha van területe a nyelvnek, ahol nincs könnyen kezelhetô rend és szabály, az az egybeírás-különírás; hol is lenne ez nyilvánvalóbb, mint éppen ebben a topikban? :-))
Üdv, Gábor
|
|
|
Ha kedveled azért, ha nem azért nyomj egy lájkot a Fórumért!
|