A probléma ezzel, hogy először egy nagy adag tanítás kell, és itt látom a problémát, hogy a régebbi magyar írásra nem nagyon van betanító alapanyagunk (a mostani magyarra talán van), és persze kétséges írásmódoknál az emberi agy használja a környezet adatait (pl tudjuk, hogy nincs olyan, hogy Vonács, hanem Kovácsnak kell annak lenni, és onnantól, ha V betűt látunk akkor K-nak értelmezzük, de ehhez fel kellett ismernünk, hogy az egy vezetéknév). Egyébként is a felismerésnél nem 100%-os találatot kapsz, hanem valószínűséget mondjuk 80% V, 50% K.
Szóval emberi interakció biztosan kell, ami néha az lesz, hogy egyszerűbb begépelni, amit látsz, de néha elfogadható lesz az eredmény...
Szerintem a használható kézírásfelismerés, és főleg az ezen alapuló indexelés még nagyon, nagyon távol van. A nyomtatott betűfelismerés is telis-tele van hibával, és a géppel-indexelt gyászjelentések csupa zagyvaságot gyártanak. Például Liszt Ferencről közölt egy Michigan-i újság gyászjelentést, amiből a gép megállapította, hogy életkora 9, rokona pedig Legende Von Der Heiligen Elisabeth (https://www.familysearch.org/ark:/61903/1:1:Q57X-KSYW?from=lynx1UIV8).
egyébként a katolikus anyakönyveknél szépen újrafényképezték a nem civileket (legalábbis, amit láttam eddig a matriculaban), az legalább már szemmel olvasható (ott az AI sem nagyon tud mit csinálni...)
bocs mindenkitől, hogy összezavartam a társaságot, csak néha elkeseredek mennyire nem érdekel senki döntéshozót a (valódi) múlt, és akkor ez van... ...de már összeszedtem magam...
A kézírás digitális felismerése nagyon gyerekcipőben jár, -nem lehetetlen, már vannak próbálkozások ha szépen van írva, na de a régi macskakaparásos írásra nem lesz soha digitális megoldás
mert még egy hozzáértő kutatónak is néha olyan nehézkes a kiolvasása, hogy csak na.
Ezek csak is manuális feldolgozással lehetséges, -legalábbis mai szemmel.
Szóval akkor most arról beszélgetünk, hogy az Arcanum OCR rendszerrel álljon neki a civil könyveknek, és ne képalapon, hanem adatbázist építve dolgozza fel őket?
A kézírás-felismerést jelentősen rontani fogja az a hülye alányomás, ami az anyakönyvi papírokon ott van, apró hullámok, vagy mik. Mivel a könyv színes, ez kiszűrhető lenne, de ehhez az is kéne, hogy Arcanumék szkenneljék újra, mert ami most elérhető, az ugye FF. Vagy nem? Ráadásul még Arcanum nélkül sem ártana újra fotózni digitálissal, mert amióta azok a filmek készültek, nagyságrendekkel javult minden, az optikák minősége, a digitális rögzítés ténye, stb. Némelyik kép olyan ótvar, hogy a széleken alig lehet elolvasni a torzítási hibák miatt.
nem rossz, de a magyar írásmód még megtanítandó, ás elég sok fajtával találkoztam, és biztos kell emberi ellenőrzés, maximum lenti számolásomnál kell kevesebb munka per rekord.
(miután lejjebb nyomtuk a számokat, már 2-4 milliárd is elég lenne, egyszeri...)
Szerintem 2020-ban nem kézi indexeléssel kellene számolnunk. Pont a polgáriknál, amelyek rubrikázottak és rendezettek, belátható távolságban van a használható kézírásfelismerés. Nem rég futottam bele az Innsbrucki Egyetem egyik projektjébe, ami kifejezetten történelmi szövegek digitalizálásáról szól (transkribus.eu). Néhány év alatt simán lehet belőle olyan, amit ha megfelelő előkészítés után értő kezek ráeresztenek a filmekre, akkor teljesen használható adatbázist dob ki a másik oldalon.
tehát csak 1900-1910 között összesen 7 millió születés történhetett, a születésszámod biztos nem jó, ezáltal a halálozásnak is magasabbnak kell lennie...
Since FamilySearch indexing began in 2006, this unprecedented crowdsourcing effort has produced more than one billion searchable records.
Magyarországon, mint írtam kb 70 millió rekord lehet a civil anyakönyvezésben.
Mint írtam a Macsenak már most 5 millió rekordot sikerült indexelni a civil anyakönyvek közül.
Civil anyakönyvekről beszélek, amelyeknek a minősége alapvetően jó, nem kell silabizálgatni annyit, mint egy egyházit az 1700as évekből.
Egy adatrögzítő 1 perc alatt 1 rekordot talán fel tud ezekből dolgozni (napi 250 talán nem lehetlen elvárás), évente ez 50ezer per fő, 100 fő esetén 5 millió rekord.
Ez alapján beszélünk kb 1500 emberév (fte) munkáról (legyen 50% ellenőrzés, szoftver valószínűleg eléggé jó állapotban van az arcanumnál, de legyen 100 millió megcsinálni (ez már multi ár :))
Tehát az erőfeszítés költsége mondjuk legyen 6-9 milliárd egyszeri költség, üzemeltetés az arcanum adatok alapján nem több, mint évi 50 millió (nevetséges méretek adatbáziskezelésben - 70 millió index adat, 7 terabyte kép adat) - az arcanumnak most 300 terabyte adatbázisa van...
nem lehetetlen ez, csak akarni kellene, de senki nem akarja...
"Egyébként a levéltár, akár önkéntesekkel együtt, megtehetné, hogy a kérdéses anyagokat (ami nem a teljes állomány) digitalizálja, és pl csinál egy adatbázist (tudom-tudom pénz, de ha már mindenre van pénz, a múltunk megismerésére is kéne, mert ez az igazi haza-család szeretet)."
Tudod Te egyáltalán mennyi munka egy ilyen adatbázis felépítése?
Anyakönyvek átnyálazása, adatok feldolgozása, majd adatbázisba írása, már ez több 100 ember több éves munkája + adatellenőrzés, stb.
Aztán még ott a digitalizálás, adat ellenőrzés a védett adat kitakarása, stb.
Szóval ezt azért Te se gondoltad komolyan?
-És a pénz a legkevesebb ebben a projektben.
Az FS már vagy 20 éve építgeti az adatbázist, és még sehol sincs.
Pedig ott több 10 ezer felhasználó indexel -több-kevesebb sikerrel, mert némelyiknek levágnám a kezét amilyen baromságokat irkál.
De hogy lásd a pénz oldalát is 100 ember 400E-s kiadással havi 40M évi ~500M
-És akkor ők csak ezzel foglalkoznak, a többiről nem is beszéltem.
(a bevételi adat nem elég beszédes. Iszonyatos költségeik lehetnek, hiszen irgalmatlan adatmennyiséget tároltatnak az Amazonon, biztosan nem két forintnyi összegért.)
egyébként megnéztem az Arcanum bevételeit, régebben 100 milliós éves bevétele volt, most inkább a 300 millió felett van. Tehát éves 300 millióból simán megcsinálható lenne, az Arcanum tényleg hihetetlen mennyiségú munkát csinál (lásd ADT, Hungaricana, mapire ...)
a magyar nemzeti levéltár alá tartozik az országos, és a megyei levéltárak (a fővárosi nem, hmm), kb 700 fő, éves teljes költségvetésük 2019-ben 3,5 milliárd forint volt.
Ettől még a TAO kedvezmény a sportnak is több (ez nem a stadion):
"Hat év alatt legalább 360 milliárd forintnyi adóbevételről mondott le az állam a látványcsapatsportok javára."
Nos a levéltárosoknak most jobb dolguk is van, mint hogy egy-két ember igényére ilyen adatbázisokat készítsenek:
Derék honatyáink - ugyanazok akik a "130 éves" többféleképpen értelmezhető* szabályt is hozták - foglalkoztatják őket rendesen. Pl. épp most ebrudalják őket kifelé a közalkalmazotti státusból a legnagyobb korlátozások között (húsvétkor) meghozott törvénnyel: https://net.jogtar.hu/jogszabaly?docid=a2000032.tv
*nekem sem tetszett ez a szigorítás (kutatásnál meg is szívtam), és különösen az, hogy a korábbi törvénnyel (30-60-90) ellentétben abszolút nem volt egyértelmű, megyénként máshogy tartották be, s volt egy darabig zavar az időhatárok értelmezése körül.
Én a 130 évet sehogy sem értem. Egy 120 éves születési anyakönyvben milyen védett adat fordulhat elő? Mindenki, akiről valami ott rögzítve van, minimum 120 éves -- vagyis már nem él (https://en.wikipedia.org/wiki/List_of_the_oldest_living_people). A halottaknak nincs adatvédelmi joguk, viszont nekünk, élő kutatóknak állítólag van adathozzáférési jogunk. Hogyan tehetik a levéltárak a nemlétezőt a létező fölé?