Ez még annyiban kivédhető, hogy nem szótári szó, csak szóalak, hiszen jelek ismétlődnek rajta, de ugyanez eljátszható a -sÁg és az -s képzős váltott ismételgetésével is, és akkor már elvben korlátlan hosszúságú szótári szót is létre tudunk hozni.
nincs értelme leghosszabb szó keresésének, ha csak a nyelvtan szorít meg, pl a "leges" tetszőleges sokszor jöhet egymás után bármilyen felsőfok előtt, pl legeslegeslegeslegjobb. Nincs olyan nyelvtani szabály, ami tiltaná a tetszőlegesen sok "leges"-t, noha nem használunk két-háromnál többet.
Ha a Népszabadság két évfolyamának leghosszabb szavát kérdezed, utánanézhetek, kérek egy kis időt.
(a fenti technikai megszorítások nem torzítják a mérést, bármi, aminek a gyakorisága a fenti 19 karakteres szavak gyakoriságát meghaladta, azt kézzel összeadtam. 1-2 százalékos eltérés lehetséges legfeljebb, nyilván csak a 10% körüli értékek esetén. A vizsgált anyag a Népszabadság 98-as évfolyama)
Elenyésző a számuk, szerintem ha először megfogod a ssz-t, aztán a sz-t, és utána a többit, akkor statisztikailag elenyésző lesz a hibaszázalékod. Sokkal inkább stílus- és egyénfüggő ez annál, hogy ez a minimális hiba érzékelhető lenne. A meggyón, részsír szavakat azonban még szószintű ellenőrzéssel sem lehet egyértelműsíteni. :-))
A betűjegygyakoriság oké. A betűgyakoriságot viszont szóellenôrzô és tômeghatározó nélkül nem lehet pontosan mérni: nem tudhatod, hogy a házsor és a házsártos zs-t avagy z+s-et tartalmaz. Hasonlók: meggyel és országgyűlés, malachit és malacháj, jobbágy és arabbarát, vazze és vázzörgés, bocócság és bocócsors és bocsom, karosszéria és karosszék, fehérruha-vásár és berreg, meggátol és reggel stb. stb.
Persze lehet, hogy mindezek összességükben sem torzítják el lényegesen a statisztikát.
jajj! A Basictól kiráz a hideg :) már a pascal se igen mozgatna meg, de az még elmegy. De hogy basic! :))
Az open project dolgokkal az a helyzet, hogy nincs túl sok id?m, viszont mivel éppen szövegfeldolgozás melóm is akad, ez az abc-akármi épp kézre áll, no ezért a nagy jótékonyság.
Viszont nagyon szeretek informálva lenni az aktuális lelkes magánfejlesztések ügyében, hátha van kit-mit közvetíteni. Másszóval esetleg találkozok valakivel, akinek az érdekl?dése passzol.
Szia Flugi!
Megnéztem a honlapodat, látom foglalkozol területfoglalós jellegű játékkal is (war). Én éppen egy stratégiai játékot írok QuickBasicben. Ahhoz is kell majd néhány algoritmus. Esetleg érdekelne egy együttműködés? (Open project)
Ami eddig elkészült a "Hegemony 3.0.e"-ből, az letölthető az alábbi címen:
http://www.angelfire.com/ego/akos/games.htm
Írtam egy programot, ami hasznos lehet számodra ha ilyen dolgokra vagy kiváncsi. A címe "Lingua-meter 1.0.m" és (ingyen) letölthető az alábbi címről:
http://www.angelfire.com/ego/akos/nyelvek.htm
Ez bármilyen szövegfájlban meghatázozza a betűk előfordulási arányát. Sajnos csak az angol ABC betűit vizsgálja, mert eredetileg az volt a célom, hogy különböző nyelveket hasonlítsak össze vele.
Füredi Mihály–Kelemen József (szerk.) 1989. A mai magyar nyelv szépprózai gyakorisági szótára (1965–1977). Akadémiai Kiadó, Budapest. információi alapján a magyar nyelv betűjegygyakoriságai a következők:
a 255844
á 88782
b 53066
c 20699
d 60542
e 280637
é 86051
f 27425
g 100593
h 47562
i 104597
í 12622
j 32010
k 131743
l 168677
m 112510
n 167841
o 118804
ó 22636
ö 30991
ő 22938
p 26047
q 0
r 107379
s 153606
t 242293
u 26306
ú 10630
ü 16461
ű 4393
v 52517
w 3
x 185
y 63940
z 110731
- 2037
Jékel Pál–Papp Ferenc 1974. Ady Endre összes költői műveinek fonémastatisztikája. Akadémiai Kiadó, Budapest. a következő fonémagyakoriságokat adja:
ä 1
cz 22
q 0
qu 1
w 5
x 14
y 38
ch 15
cch 1
a 50132
á 19782
b 9077
bb 1106
c 1310
cc 28
cs 3834
ccs 12
d 14044
dd 311
dz 13
ddz 0
dzs 5
ddzs 0
e 55383
é 18909
f 5075
ff 17
g 13674
gg 213
gy 8261
ggy 51
h 11304
hh 5
i 23235
í 2347
j 8759
jj 301
k 30655
kk 504
l 28453
ll 1939
ly 1712
lly 16
m 26930
mm 375
n 33216
nn 1034
ny 3235
nny 441
o 25449
ó 5528
ö 6899
ő 4008
p 4639
pp 129
r 23807
rr 421
s 21461
ss 634
sz 10286
ssz 1135
t 31692
tt 4070
ty 146
tty 33
u 6630
ú 2600
ü 3779
ű 1032
v 12775
vv 78
z 8914
zz 399
zs 545
zzs 1
Meglehetősen nagy különbségek vanna a különféle statisztikákban műfajtól, szerzőtől függően, így érdemesebb az adott korpuszból gyártani egyet.