Több mint tíz éve igen sokat használtam a Magyar nemzeti szövegtárat, és határozottan állítom, hogy igen jól ki lett balanszírozva a korpusz. (Azt nem mondanám, hogy reprezentatív, mert ahhoz, hogy reprezentatív legyen, tudnunk kellene, mire nézve az. Ugyanakkor az alapsokaság is eléggé nehezen megragadható.)
A probléma, amit leírsz, másból ered, és a nyelvstatisztikában régóta ismeretes. Arról van szó, hogy ha különféle mintákat összesít az ember, akkor az egyes minták leggyakoribb szavai túlzottan fel fogják húzni az egészben mért gyakoriságot. Erre találták ki az ún. úzust mint mérőszámot, amelyben ez a túlugrás már le van simítva. A magyar nyelv szépprózai gyakorisági szótárában például használták, de sajnos abban a kötetben nem írták le a számítási módot. Megjelent azonban egy tanulmány az egyik szerzőtől egy konferenciakötetben, amelyben ezt ismerteti részletesen – de sajnos sajtóhibával. Épp ezért, az alábbi cikkem 36. lapján található lábjegyzetben közlöm a helyes képletet:
http://magyarnyelv.c3.hu/14-1/martonfi14-1.pdf
Ennek a használata vsz. hátrébb tolná a csak némely alkorpuszban kiugró értékeket.
Van, amikor az ellenkezőjére van szükség. Így például amikor újonnan szótározandó szavakat próbál gyűjteni az ember korpusz alapján, rendkívül hasznos, ha épp ezek lokálisan gyakori szavak ugranak ki még inkább. Arra más számítási módot érdemes használni (ezt sajnos nem sikerült most felidéznem, pedig az Osiris Helyesírás készítése során magam dolgoztam ki egy ilyet). |