Itt sajnos félreértés folyik, és nagyon tisztelem Ádámot, de cáfolnom kell. Te a számítógépek által használt bit-bájt rendszert kevered az információelméleti bittel. Persze, a számítógép bite ugyanannyi információt hordoz, mint az információelméleti, ám a számítógép iszonyatosan redundánsan kódolja az szöveges információt a klasszikus kódolásokban. Az sem igaz, hogy az algoritmus gépkódját bele kellene számolni, ha információelméleti arányokról beszélsz.
Az információelmélet a matematika egy ágazata, egyébként nagyon fontos és aktívan, persze, a számítástechnikában alkalmazzák.
Leegyszerűsítve, a nebulónak X+Y+Z bitnyi információt kell megtanulniuk, ahol X = a [j] hangot tartalmazó szótövek száma, Y = a [j] hangot tartalmazó egyéb morfémák száma, Z pedig egy kicsi (tényleg!) szám, amely olyan információk bit(információ)-tartalmát hordozza, mint pl. hogy morfémahatáron ejtett [j] hiátustöltőt nem írunk (hogy a [mijért]-tel is tudjunk mit kezdeni).
Tehát az ly-lyel írt szavak számánál (ca. 500?) több bitnyi infót kell megtanulnunk (mert az adott [j] hangra kell ráhúznunk a tanult információt), de szigorúan számolva, információelméletileg, bitekben, akkoris legfeljebb néhány ezer.
Az ly-t tartalmazó szavak nagyságrendje 102. Kellenek emellett az e gyéb morfémák is. A ragozási esetek szótárazhatók, de algoritmussal kereshetők is. Emellett azonban a j-t tartalmazó szvakra is szükség lehet. További probléma az ly-t nem ely-ként tartalmazó szavak listája is. Így ez együtt mondjuk n×103, ahol n <10. Ha egy szót átlag 4 karakternek tekintünk, akkor alulbecsült kompromisszummal 104 karakter méretű halmazzal van dolgunk. Ha egy karakter 8 bit, akkor kevésbé alulbecsült kompromisszum a 105 bit.
A tömörítés szerintem csak tárolás és szállítás során alkalmazható, a feldolgozás során nem.
Ez nem lehet jó reprezentáció Ödönkének, ha minimalizálni akarod a tartalmaznivaló információt, mert feltételezel egy szótárat, amihez ezeket a biteket rendeled, ami szótár raktározásában bizony nem elég a szavak ismerete, hanem a sorrendjük/összerendelésük a lényeg, mert ugye az 500 bitet kb úgy érted, hogy "az első ilyen lehetséges szóban ly van, a másodikban j..". Hogy melyik-melyik, azt az igazán nehéz "megjegyezni".
Javaslok a további példálózáshoz egy épeszűbb hozzáállást, ami az ly-t tartalmazó szótövek végességét kihasználva egyszerűen ezeket a szavakat valamilyen kódolással tömörítve tartalmazza. Nincs más teendő, mint egy lexikon ly-t tartalmazó szavait becsomagolni valami jó tömörítővel, és máris van egy aránylag jó felső becslésed arra az információmennyiségre, amire Ödönkének tényleg szüksége van.
Najó, persze barátunknak abban igaza van, hogy az, hogy egy adott helyen egy [j] hang ly vagy nem ly, elvileg tényleg 1 bit információkülönbség. Csak azt nem veszi figyelembe, hogy 1 bit információkülönbség még nem információ, azt meg végképp nem, hogy műszakilag 1 bit különbséggel szart se lehet kezdeni. Azt meg, hogy biologice vagy mentálisan mit, még a jóisten se tudja.
Mellesleg azé' szívesen összeereszteném 500 bites barátunkat, mondjuk, Szilágyi N. Sándorral, vittassa meg vele, mi a franc is az a szótő. Elég lesz csak a házak szóban, és csak fonológiailag...
Ami a redundanciát illeti, egy ilyen szabályozáshoz semmiképp nem elegendő a létező alakok felsorolása.
479-ben említettem azt a lehetőséget, hogy nevekben, idegen szavakban lehetséges l+y digráf, amely nem j-nek ejtendő, hanem li-nek vagy lü-nek. Ezeket is ki kell szűrni.
Emellett illenék előre látni a helyesírási hibákat is.
Egyébként az 500 bitbe például a morfológiai elemző program nehezen férne el. Ahhoz kell talán 520 is.
Hát, ha arra gondolok, hogy az akadémia 1922-ben elfogadta ezeket az újításokat, és ekkor ismét egyesült a magyar helyesírás, felötlik bennem, hogy közben volt pár Balkán- és egy világháború, néhány forradalom, nem is beszélve a vérvörös csütürtökről.
„nem minden szóra vonatkozik, hanem csak szótövekre.” Pontosabban minden morfémára. Ezért is írtam először úgy, csak ismétlésként a közérthetőség oltárán feláldoztam a szabatosságot. Ugyanakkor biztos nagyobb redundanciára van szükség, mint elméletileg gondolnánk. Ha nem lenne, akkor ugyanis nem lett volna a nyolcvanas években nagy vita a csevej szó írásmódjáról, és nem írták volna komoly emberek is le, hogy a csevely a helyes írásmód. Pedig hát ez sem monomorfematikus szó, a cseveg-ből is kielemezhető fiktív csev- tőhöz járul az -Aj képző.
*flame* Nem volt népszavazás sem? Nem vonultak ki a népek az utcára, hogy így "hülyén néz ki"? Tényleg olyan, mintha most abban élnénk, hogy lám, itt vagyunk a nyelv fejlődésének végpontján, innen már nem megyünk sehová.
Írtam is az imént egy példát: régebben a' határozott névelő lekopott z hangját írásban aposztrófával helyettesítettük, minden különösebb jelentés nélkül, pusztán megszokásból; azután, hagyomány ide vagy oda, szépen leszoktunk róla."
A lényeget illetően igazad van, csak nemm szomplán leszoktunk róla, hanem az okostojás nyelvészek szóvá tették, hogy ez felesleges, és javasolták, hogy ne tanítsák az iskolában. Ez egy csomagban volt a cz-vel. Miután a kulutszminiszter úgy döntött, hogy az iskolai helyesírásan elhagyják az aposztrófot, persze, hogy leszoktunk róla. Igaz, ez 1903-ban vol.
Nem tehetnénk egy kicsit félre a biteket? Ennél talán fontosabb kérdés, hogy mennyi létjogosultsága van annak az érvnek, hogy "rosszul nézne ki, ha másképp lenne írva, mint ahogy megszoktam". Szerintem például semennyi, hiszen ugyanannyi (vagy kevesebb) idő alatt, megszoknánk az új írásképet, mint amennyi a régi megszokásához kellett... Írtam is az imént egy példát: régebben a' határozott névelő lekopott z hangját írásban aposztrófával helyettesítettük, minden különösebb jelentés nélkül, pusztán megszokásból; azután, hagyomány ide vagy oda, szépen leszoktunk róla.
"Átgondolva a dolgot ebben is valszeg igazad van, bár nem minden szóra vonatkozik, hanem csak szótövekre. Vannak szabályok ugyebár, amelyek lehetővé teszik a tömörítést. "
Miért csak a szótövekre vonatkozik, a toldalékokra miért nem? Vigyázó szemed vesd a hasonulásra ("Folyjon ki a szeme, ha hellyel kínállak")
A másik része pedig a dolognak az, hogy a számítógép nem hall. A számítógép számára minden betűt egy számmal kódolnak. Az egyes betűk eltérhetnek egymástól egy-egy bitben, de az ly esetében két megoldás lehetséges: ha fonológiai alapon kódolják, akkor egy bájt terjedelmű, ha grafematikusan (miképp a UNICODE magyar táblázatban), akkor két bájt. Szerintem nincs értelme a j-ly különbségre koncentrálni, a számítógép számára az ly-t meg kell különböztetni az ábécé összes többi betűjétől.
Ekkor még nem beszéltünk arról az esetről, amikor az ly-t esetleg li-nek kell kiolvasni (Moholy-Nagy (?), lymphoma, Lysistrata, Lyon). Ez azért gáz, mert ez még a betűkódba sem fér bele, kiegészítőleg nyelvkódot is kell adni.
Persze, van egy olyan megoldás is, hogy alkalmaznak valamilyen fonetikus átírást, de abban a j és az ly jele szükségképpen ugyanaz lesz. Ezért jobb, ha az írott nyelv szintjén maradunk, mert ha a beszélt nyelvet kódolnánk, akkor nem lehetne a j-t és az ly-t megkülönböztetni.
Nem, itt arról van szó, hogy ZXSpectrum Ödönkének hány bitnyi információt kell elraktároznia a kis buksijában ahhoz, hogy helyesen használja az elyt. Nem túl sokat, ha nem is 500 (figyelembe véve azt, amit rumci írt), de max nehány ezer bitet.
Kár elvinni erre a filozófiai síkra a dolgot. A nyelv ábrázolásának alapja a megfelelő kódrendszer. Két dolgot meg lehet különböztetni egy bittel, de itt nem két dolgot kell megkülönböztetni, hanem lényegesen többet. A teljes ábécét.
"Saussure óta ismerjük a zéró fokon való jelölést. Ergo ha a lexikonban megjelölöd az ly-os morfémákat, legalább zéró fokon megjelölted a j-seket is (a technológiai ügyeskedés információelméleti szempontból indifferens; különben is, mikor lenne 0 értékű nálad az�ellipszilonbit�?)."
Na ebben valszeg igazad van. Az elipszilon bit "nálam" akkor lenne nulla, ha a szó nem ly-os.
"Ergo minden olyan szót meg kell jelölnöd, amely tartalmaz /j/ fonémát "
Átgondolva a dolgot ebben is valszeg igazad van, bár nem minden szóra vonatkozik, hanem csak szótövekre. Vannak szabályok ugyebár, amelyek lehetővé teszik a tömörítést. Pl. Még véletlenül sem írnánk, hogy ne loply..., mert a felszólító mód jele nem ly, hanem j. Ja és lásd még amit a foly|ik és fojtról írtam.
(arról nem beszélve, hogy valójában nem is binaritásról, hanem terinalitásról van szó, hiszen a [mijért] szónál se j-t, se ly-t nem írsz)."
Ezt ne keverjük ide, ez egy ly-tól független probléma.
Saussure óta ismerjük a zéró fokon való jelölést. Ergo ha a lexikonban megjelölöd az ly-os morfémákat, legalább zéró fokon megjelölted a j-seket is (a technológiai ügyeskedés információelméleti szempontból indifferens; különben is, mikor lenne 0 értékű nálad az„ellipszilonbit”?). Ergo minden olyan szót meg kell jelölnöd, amely tartalmaz /j/ fonémát (arról nem beszélve, hogy valójában nem is binaritásról, hanem terinalitásról van szó, hiszen a [mijért] szónál se j-t, se ly-t nem írsz).
Ha a most általánosan használatos kódrendszerből indulunk ki, az UTF-8 ból, akkor az ly ábrázolásához 16 bit kell (8 az l és 8 az y). Ha egy teljesen általános kódrendszerben gondolkodunk, annak maximális kihasználásával, akkor 32 (feltételezve, hogy ebben az esetben egytelen grafémaként kódolják. Ha nem, akkor 64).
Igenám, de elgendő-e az ly használatához a két alkotó betűt ismerni? Aligha. Ha a számítógép intellektuális képességeihez igazodva gondolkodunk, akkor bizony ismerni kell minden egyes szót, amelyben ly van, ráadásul külön-külön azokat a ragozott alakokat is, ahol az ly hasonulás folytán megkettőződik (hellyel). De ez még nem elég, a hangzási homonímia eseteiben a nem ly-os homonímákat is ismerni kell (foly... - foj...). Ezekben az esetekben azonban nem elegendő az ly 16...64 bitje, hanem a teljes szó, jó, engedek, a teljes lemma szükséges. Ez nem fér el 500 biten."
Hülyeség. Információelméletileg 1 bit a különbség. Indifferens, hogy egy betűt hány biten ábrázolok [elipszilon - nem elipszilon]. A hasonulás pedig egy egyszerű szabály. Ez nehány bit összesen az összes ely-es szóra.
"De ez még nem elég, a hangzási homonímia eseteiben a nem ly-os homonímákat is ismerni kell"
Ismerni kell a szótöveket. Ha azt mondom fojtogat, akkor tudom, hogy abban a fojt és nem foly|ik a tő. Itt a ly többlet információértéke 0 bit.
Már miért lenne? A legismertebbek, akik két l-lel írják, a zeneszerző Szőllősy András és a fordító Szöllősy Klára. És "Nagyszőllős"-re is kiad a gugli 2920 találatot - régen ez volt a főalak, úgy emlékszem. De pl. "Medgyes" város nevében a Községi Törzskönyvbizottság is meghagyta annak idején a hagyományos írásmódot.
Nos ebben a bo-dza, ma-dzag dologban valóban a bodz-dza, madz-dzag valahogy természetesebbnek tűnik.
(A természetes alatt most azt értem, hogy a kiejtés alapján gondolkodás nélkül ezt írnám le ösztönösen.)
A problémát az okozza, hogy a magyar helyesírás majdnem fonetikus és ezért az írásképből a kiejtés viszonylag egyszerűen következik. (Talán ezért is bonyolult megtanulni más nyelvek írását-kiejtését.)
Azért kíváncsi lennék a véleményetekre a szőlő, szöllő ügyben. Mert a helységnevekben, családnevekben szöllő egyébként pedig szigorúan szőlő. Még akkor is, ha bizonyos helyeken kifejezetten szöllőnek ejtik.
Tegyük ehhez hozzá, hogy Thienemann szerint a rovásírás valójában epigrafikus írás volt, azaz nem tekinthető egyértelműen a ma is használatos fonematikus (grafematikus) írással azonosnak. Az a megállapításod, hogy ez reneszánszkori spekuláció, az valószínűleg a rovásírás fonematikus megfeleltetéseire irányult. Az epigrafikus írásról röviden annyit, hogy a célja nem gondolatokmközlése, hanem az olvasó emlékeztetése ismert dolgokra, illetve felismertetésre szolgál. Ilyenek a feliratok, amelyek többnyire helyettesíthetők képekkel, piktogrammokkal. A rovásírás is ilyesmi lehetett, adatok rögzítésére, esetleg közlésére szolgálhatott. (Ha igaza van Thienemannak)
Ez az úr elég rossz bizonyítványt állít ki magáról. Az egész magatrtása arra val, hogy politikus. Méghozzá aktuálpolitikus.
Egy csomó dolgot nem tud:
1. Népszavazás a nyelvről. Ilyen van. Csakhogy nem vasárnap hajnali 6-tól este hétig, hanem évtizedeken, évszázadokon keresztül. Hanem úgy, ahogy a nyelvújítással történt: vagy 40 éven keresztül folyt, kitaláltak több tízezer szót, amelyből a magyar nyelvközösség megtartott vagy egyharmadnyit. Ez szavazás volt. Vagy pl. a 'cz' esete. A 19. század végéig így rendelték írni a 'c'-t. Az emberek többsége megunta, ezért a főmagyartanár, aki egy olyasfajta nyelvész volt, mint akikről ez az úr véleményt alkot, azt javasolta, hogy ne írjunk többé cz-t. Az iskolák elfogadták, mert az emberek unták már ezt a fölösleges betűkettőzést, ezért az iskolai oktatásban 1903-tól nem használták. Aztán 1922-ben az MTA is belenyugodott.
Itt jön az, amit rumci írt: 1954-ben a nyelvészek javasolták az eltörlését, az akadémia Helyesírási Bizottsága (amelyben nincsenek a nyelváészek többségben) nem járult hozzá.
Ha elmenne ez az úr a nyelvészek fórumára, és ott ugyanezt előadná, hamar megérezné, milyen az, amikor egy virtigli nyelvész (nem olyan fél-nyelvművelők, mint mi) vagy megvetően átnéz valakin, vagy hülyét csinál belőle.
2. Ötszáz bit.
Ha a most általánosan használatos kódrendszerből indulunk ki, az UTF-8 ból, akkor az ly ábrázolásához 16 bit kell (8 az l és 8 az y). Ha egy teljesen általános kódrendszerben gondolkodunk, annak maximális kihasználásával, akkor 32 (feltételezve, hogy ebben az esetben egytelen grafémaként kódolják. Ha nem, akkor 64).
Igenám, de elgendő-e az ly használatához a két alkotó betűt ismerni? Aligha. Ha a számítógép intellektuális képességeihez igazodva gondolkodunk, akkor bizony ismerni kell minden egyes szót, amelyben ly van, ráadásul külön-külön azokat a ragozott alakokat is, ahol az ly hasonulás folytán megkettőződik (hellyel). De ez még nem elég, a hangzási homonímia eseteiben a nem ly-os homonímákat is ismerni kell (foly... - foj...). Ezekben az esetekben azonban nem elegendő az ly 16...64 bitje, hanem a teljes szó, jó, engedek, a teljes lemma szükséges. Ez nem fér el 500 biten.
Általában az írásbeliség az államisággal együtt szokott kialakulni. Az állami adminisztráció igényli igazából az írásbeliséget. A nyelveknek ma is csak egész kis töredéke (3-5%-a) rendelkezik írásbeliséggel, holott a többi nyelven is komoly orális kultúra él. Szóval elvben nem lenne meghökkentő, hogy a honfoglalás előtt nem merült volna fel a magyar nyelv használóiban az igény az írásbeliségre. Tegyük fel úgy a kérdést: mire használták volna? Ettől persze lehetett. Félreértés ne essék, nem állítom, hogy nem volt akár rovásos, akár más írásbeliség. Csak nem érezném meglepőnek, ha nem lett volna.