Szóval akkor most arról beszélgetünk, hogy az Arcanum OCR rendszerrel álljon neki a civil könyveknek, és ne képalapon, hanem adatbázist építve dolgozza fel őket?
A kézírás-felismerést jelentősen rontani fogja az a hülye alányomás, ami az anyakönyvi papírokon ott van, apró hullámok, vagy mik. Mivel a könyv színes, ez kiszűrhető lenne, de ehhez az is kéne, hogy Arcanumék szkenneljék újra, mert ami most elérhető, az ugye FF. Vagy nem? Ráadásul még Arcanum nélkül sem ártana újra fotózni digitálissal, mert amióta azok a filmek készültek, nagyságrendekkel javult minden, az optikák minősége, a digitális rögzítés ténye, stb. Némelyik kép olyan ótvar, hogy a széleken alig lehet elolvasni a torzítási hibák miatt.
nem rossz, de a magyar írásmód még megtanítandó, ás elég sok fajtával találkoztam, és biztos kell emberi ellenőrzés, maximum lenti számolásomnál kell kevesebb munka per rekord.
(miután lejjebb nyomtuk a számokat, már 2-4 milliárd is elég lenne, egyszeri...)
Szerintem 2020-ban nem kézi indexeléssel kellene számolnunk. Pont a polgáriknál, amelyek rubrikázottak és rendezettek, belátható távolságban van a használható kézírásfelismerés. Nem rég futottam bele az Innsbrucki Egyetem egyik projektjébe, ami kifejezetten történelmi szövegek digitalizálásáról szól (transkribus.eu). Néhány év alatt simán lehet belőle olyan, amit ha megfelelő előkészítés után értő kezek ráeresztenek a filmekre, akkor teljesen használható adatbázist dob ki a másik oldalon.
tehát csak 1900-1910 között összesen 7 millió születés történhetett, a születésszámod biztos nem jó, ezáltal a halálozásnak is magasabbnak kell lennie...
Since FamilySearch indexing began in 2006, this unprecedented crowdsourcing effort has produced more than one billion searchable records.
Magyarországon, mint írtam kb 70 millió rekord lehet a civil anyakönyvezésben.
Mint írtam a Macsenak már most 5 millió rekordot sikerült indexelni a civil anyakönyvek közül.
Civil anyakönyvekről beszélek, amelyeknek a minősége alapvetően jó, nem kell silabizálgatni annyit, mint egy egyházit az 1700as évekből.
Egy adatrögzítő 1 perc alatt 1 rekordot talán fel tud ezekből dolgozni (napi 250 talán nem lehetlen elvárás), évente ez 50ezer per fő, 100 fő esetén 5 millió rekord.
Ez alapján beszélünk kb 1500 emberév (fte) munkáról (legyen 50% ellenőrzés, szoftver valószínűleg eléggé jó állapotban van az arcanumnál, de legyen 100 millió megcsinálni (ez már multi ár :))
Tehát az erőfeszítés költsége mondjuk legyen 6-9 milliárd egyszeri költség, üzemeltetés az arcanum adatok alapján nem több, mint évi 50 millió (nevetséges méretek adatbáziskezelésben - 70 millió index adat, 7 terabyte kép adat) - az arcanumnak most 300 terabyte adatbázisa van...
nem lehetetlen ez, csak akarni kellene, de senki nem akarja...
"Egyébként a levéltár, akár önkéntesekkel együtt, megtehetné, hogy a kérdéses anyagokat (ami nem a teljes állomány) digitalizálja, és pl csinál egy adatbázist (tudom-tudom pénz, de ha már mindenre van pénz, a múltunk megismerésére is kéne, mert ez az igazi haza-család szeretet)."
Tudod Te egyáltalán mennyi munka egy ilyen adatbázis felépítése?
Anyakönyvek átnyálazása, adatok feldolgozása, majd adatbázisba írása, már ez több 100 ember több éves munkája + adatellenőrzés, stb.
Aztán még ott a digitalizálás, adat ellenőrzés a védett adat kitakarása, stb.
Szóval ezt azért Te se gondoltad komolyan?
-És a pénz a legkevesebb ebben a projektben.
Az FS már vagy 20 éve építgeti az adatbázist, és még sehol sincs.
Pedig ott több 10 ezer felhasználó indexel -több-kevesebb sikerrel, mert némelyiknek levágnám a kezét amilyen baromságokat irkál.
De hogy lásd a pénz oldalát is 100 ember 400E-s kiadással havi 40M évi ~500M
-És akkor ők csak ezzel foglalkoznak, a többiről nem is beszéltem.
(a bevételi adat nem elég beszédes. Iszonyatos költségeik lehetnek, hiszen irgalmatlan adatmennyiséget tároltatnak az Amazonon, biztosan nem két forintnyi összegért.)
egyébként megnéztem az Arcanum bevételeit, régebben 100 milliós éves bevétele volt, most inkább a 300 millió felett van. Tehát éves 300 millióból simán megcsinálható lenne, az Arcanum tényleg hihetetlen mennyiségú munkát csinál (lásd ADT, Hungaricana, mapire ...)
a magyar nemzeti levéltár alá tartozik az országos, és a megyei levéltárak (a fővárosi nem, hmm), kb 700 fő, éves teljes költségvetésük 2019-ben 3,5 milliárd forint volt.
Ettől még a TAO kedvezmény a sportnak is több (ez nem a stadion):
"Hat év alatt legalább 360 milliárd forintnyi adóbevételről mondott le az állam a látványcsapatsportok javára."
Nos a levéltárosoknak most jobb dolguk is van, mint hogy egy-két ember igényére ilyen adatbázisokat készítsenek:
Derék honatyáink - ugyanazok akik a "130 éves" többféleképpen értelmezhető* szabályt is hozták - foglalkoztatják őket rendesen. Pl. épp most ebrudalják őket kifelé a közalkalmazotti státusból a legnagyobb korlátozások között (húsvétkor) meghozott törvénnyel: https://net.jogtar.hu/jogszabaly?docid=a2000032.tv
*nekem sem tetszett ez a szigorítás (kutatásnál meg is szívtam), és különösen az, hogy a korábbi törvénnyel (30-60-90) ellentétben abszolút nem volt egyértelmű, megyénként máshogy tartották be, s volt egy darabig zavar az időhatárok értelmezése körül.
Én a 130 évet sehogy sem értem. Egy 120 éves születési anyakönyvben milyen védett adat fordulhat elő? Mindenki, akiről valami ott rögzítve van, minimum 120 éves -- vagyis már nem él (https://en.wikipedia.org/wiki/List_of_the_oldest_living_people). A halottaknak nincs adatvédelmi joguk, viszont nekünk, élő kutatóknak állítólag van adathozzáférési jogunk. Hogyan tehetik a levéltárak a nemlétezőt a létező fölé?
Személy szerint én helyeslem a szigorítás mértékét (bár családfakutatóként annyira nem örülök neki), az indoklással viszont már van problémám. Véleményem szerint a még élő személyek személyes adatainak védelme, és ez esetben személyazonosító adatokra gondolok (úgymint születési hely, születési idő, vallás) fontos. Tehát ne tudhassa meg bárki ezeket az anyakönyvekből. Márpedig ha a régi 90-60-30 éves szabályt vesszük figyelembe, viszonylag sok idős ember adataihoz lehetett (a Familysearch-ön keresztül a mai napig lehet) hozzájutni. A 100-75-30 éves határon kívül már viszonylag kevés ember van, de még vannak. Tudom, hogy manapság már mindenhez meg kell adni ezeket az adatokat, de a megadásukról mégis az ember dönt. (Aminek nincsen értelme az a szlovák száz éves szabály.)
Igazából kár ennyit vesződni a halálozással, mert a levéltárakban 1980-ig vannak halálozási anyakönyvek, tehát mind kutatható, az anyakönyvi hivatalban meg kiadják az adatokat, ha igazolod hogy a felmenőd. A probléma a születési és házassági anyakönyvvel van.
Ha valaki 1920-ban született akkor a születést kutathatod, és mondjuk meghalt 2000-ben, akkor a halálozási anyk-t nem kutathatod mivel nem telt el 30év, a születést igen mivel eltelt 100év
Az FS-n 1920-ig van születés.
Viszont ha 1940-ben született és 1970-ben halt meg akkor a halálozási anyk-hoz hozzáférhetsz (eltelt 30 év), de a születésihez nem mivel ott még nincs meg a 100év.
Sok anyk hivatal a biztonság kedvéért használ 130évet mert akkor biztos nem fognak jogi vitába keveredni.
Tehát a törvény szerint pl kutatsz egy személyt akiről tudod hogy 1919-ben született de nem tudod mikor halt meg, akkor a halálozási anyk-ban 1990-ig kereshetsz.
Ha tudod hogy valaki 1940-ben született, és 1989-ben halt meg akkor nem kutathatod a születést, csak a halálozást.
Ha meg nem tudsz semmit akkor ott a törvény 1920-ig születés, 1990-ig halálozás.
Minden más esetben ott a meghatalmazás ha másnak keresel, és az anyk-ban kikeresik kiadják/megküldik azt a részt amely érintett személyt tartalmazza.