Keresés

Részletes keresés

A hozzászólás:
rumci Creative Commons License 2014-12-03 02:42:27 10850

Több mint tíz éve igen sokat használtam a Magyar nemzeti szövegtárat, és határozottan állítom, hogy igen jól ki lett balanszírozva a korpusz. (Azt nem mondanám, hogy reprezentatív, mert ahhoz, hogy reprezentatív legyen, tudnunk kellene, mire nézve az. Ugyanakkor az alapsokaság is eléggé nehezen megragadható.)

 

A probléma, amit leírsz, másból ered, és a nyelvstatisztikában régóta ismeretes. Arról van szó, hogy ha különféle mintákat összesít az ember, akkor az egyes minták leggyakoribb szavai túlzottan fel fogják húzni az egészben mért gyakoriságot. Erre találták ki az ún. úzust mint mérőszámot, amelyben ez a túlugrás már le van simítva. A magyar nyelv szépprózai gyakorisági szótárában például használták, de sajnos abban a kötetben nem írták le a számítási módot. Megjelent azonban egy tanulmány az egyik szerzőtől egy konferenciakötetben, amelyben ezt ismerteti részletesen – de sajnos sajtóhibával. Épp ezért, az alábbi cikkem 36. lapján található lábjegyzetben közlöm a helyes képletet:

http://magyarnyelv.c3.hu/14-1/martonfi14-1.pdf

Ennek a használata vsz. hátrébb tolná a csak némely alkorpuszban kiugró értékeket.

 

Van, amikor az ellenkezőjére van szükség. Így például amikor újonnan szótározandó szavakat próbál gyűjteni az ember korpusz alapján, rendkívül hasznos, ha épp ezek lokálisan gyakori szavak ugranak ki még inkább. Arra más számítási módot érdemes használni (ezt sajnos nem sikerült most felidéznem, pedig az Osiris Helyesírás készítése során magam dolgoztam ki egy ilyet).

Előzmény:
scasc Creative Commons License 2014-12-01 21:31:45 10849

Hadd fejtsem kicsit ki, mert ez így flegmának tűnhet.

 

Nos, a sajtó és a hivatalos kategóriában nyilván gyakori a "kormány".

 

 

De a maradék három kategóriának, úgy gondolom, ezt ellensúlyoznia kéne.

 

Amúgy ugyancsak a hivatalos szövegeknek (és a politika szócsőjeként működő sajtónak) tudom be a "magyar" gyakoriságát is. Beszédben, de pl. személyes írott kommunikációban is keveset használom, biztos nincs az első 10 mellékév között, nemhogy az első helyen.

Ha kedveled azért, ha nem azért nyomj egy lájkot a Fórumért!