|
|
 |
DJG
2005-05-07 18:31:30
|
186
|
Ádám,
még egy klasszikus, gyakran idézett példa van, a 'gépelem'. Meg, természetesen, nagyon sok egyéb van, amelyek viszont nem okoznak szótagolási eltérést, tehát mindegy, melyik módon okoskodik a program, a kötôjel ugyanoda kerül, tehát végeredményben mindegy.
Nálam csak a 'megint' és a 'felül' szerepel kezdetben a kivételszótárban, a többit a felhasználó teheti hozzá (lehetne akár több is, ez valahogy így alakult ki, még senki nem panaszkodott miatta).
Az, hogy a szavakat kétséges esetben elsôként inkább összetételnek vagy inkább toldalékolt szónak érdemes-e tekinteni, nem igazán elvi kérdés. Régen volt, amikor a modulomban ezekkel az elemi kérdésekkel foglalkoztam, de nagyon úgy emlékszem, hogy pusztán gyakorlati megfontolás döntött mellette: a végül választott elemzési sorrend lényegesen kevesebb hamis találatot, rossz értelmezést eredményezett, mint a fordítottja tette volna. Persze, egy más algoritmussal mûködô program könnyen juthat pont fordított eredményre.
Viszont az algoritmikus elemzésbe nem illeszkednek jól a statisztikai megfontolások. Ha a két értelmezési lehetôség közül az egyik gyakrabban fordul elô a gyakorlatban, attól még ha az elemzés a másik mellett dönt, akkor amellett dönt. Ezt legfeljebb kivételszótár módjára lehet kezelni, legalábbis az algoritmikus elemzés keretein belül. Az OpenOffice-hoz csinált magyar szótagolás teljesen más koncepcióval mûködik (nem analizál, hanem szintetizál), ott ezeket a kérdéseket másképp lehet megoldani, a statisztikai szempontokat is figyelmbe véve.
Üdv, Gábor
|
|
 |
Tecs
2005-05-07 17:37:48
|
177
|
"Azt taláéltam, hogy az 'ének' igen kevés szóban fordul elő utótagként, és ezek közül is igen kevés okozhat zavart. A legszebb a kiküszöbölendő példák közül valószínűleg a szirénének, és a legmókásabb (persze ez nem reális, mint összetétel) az énekének."
melegének hidegének öregének betegének kerekének örökének ősének hősének
regösének
...szerintem még nagyon sok életszerű előfordulás van. |
|
A hozzászólás:
 |
Kis Ádám
2005-05-07 17:23:40
|
176
|
Kedves DJG!
A probléma azóta ismerős, amióta próbálom oktatni a szövegszerkesztőt és az elválasztómodult.
Kedvenc példáim a megint, a felül és a legelőre.
Gondolom, a MorphoLogic a szóösszetételt valamiképp a kötött morfémák illesztése elé helyezi. A felsorolt példáid félreérthetők, például a
virágok az én rendeszeremben vi-rá-gok tagolással választódik el.
Véleméányem szerint ebben az esetben a Morfó nem jól okoskodott, mert az üzemzavarok, töréskárok összetett szóként esetleges, sőt erőltetett.
Azt azonban jó megoldásnak tartom, hogy a szemantikai alapon eltérően tagolható szavakat inkább tiltólistára teszik. Ugyanis figyelembe kell venni, hogy elválasztani nem muszáj, a nemelválasztás nem helyesírási hiba (hanem törderdelési, nem véletllen, hogy te precízebb vagy).
A viharosan iderondító bizonyára fiatalember felvetésein elgondolkodva kerestem példákat az 'ének' okozta zavarokra. Azt taláéltam, hogy az 'ének' igen kevés szóban fordul elő utótagként, és ezek közül is igen kevés okozhat zavart. A legszebb a kiküszöbölendő példák közül valószínűleg a szirénének, és a legmókásabb (persze ez nem reális, mint összetétel) az énekének.
Kis Ádám |
|
Előzmény:
 |
DJG
2005-05-06 23:32:11
|
160
|
Az idézett eseteket a számítógép sajátosan kezeli. Minthogy ezek a szavak morfológiai homonimák (alakilag egybeesnek, de eltérő a morfológiájuk), a magyar elválasztó nem tudja őket következetesen jól kezelni. Az automatikus elválasztás alapból a következőt produkálja:
üzemzavar-ok zava-rok virá-gok törés-károk (a károk szót nem hajlandó elválasztani, sem magában, sem összetételben)
Az enyém (többféle tördelôprogramhoz írt szótagolómodul) ilyenkor inkább nem tekinti ôket összetett szónak, tehát:
ü-zem-za-va-rok za-va-rok vi-rá-gok tö-rés-ká-rok ká-rok
A 'károk' a Morphologicnál nyilván azért került tiltólistára, mert a kár-ok gyakran elôforduló forma. Mivel én tördelôprogramhoz írtam a szótagolómodult, ahol a kivételszótár mindennapos dolog, én inkább úgy döntöttem, hogy ilyen esetekben sem döntök a felhasználó helyett, ha az ô praxisában az egyik vagy a másik változat gyakoribb, vegye fel magának a kivételszótárba. Egyébként a modul készítése közben százszámra találkoztam ilyen többféleképpen értelmezhetô szóval, közülük sok mulatságossal, meg is akartam jegyezni ôket, aztán elfelejtôdtek. Egyre még emlékszem: Lázár kontra láz-ár.
Üdv, Gábor
|
|
|
Ha kedveled azért, ha nem azért nyomj egy lájkot a Fórumért!
|