Keresés

Részletes keresés

czsandor Creative Commons License 2020.08.27 0 0 21247

Bocsi, elírtam, szóval 1876-ban született a Frenc

Előzmény: czsandor (21246)
czsandor Creative Commons License 2020.08.27 0 0 21246

Czigler Károly születési anyakönyvében láttam, hogy Cziegler Franciscus 1902-ben 26 éves volt, és Kozák Anna 21. Ebből úgy számoltam, hogy 1867-ben született Franciscus és 1881-ben Anna. Ezért +/- 1 évben átlapoztam az mohácsi/hímesi könyveket. 

Előzmény: Némedi László __ (21243)
Némedi László __ Creative Commons License 2020.08.27 0 0 21245
Előzmény: czsandor (21241)
vaclav Creative Commons License 2020.08.27 0 0 21244

Igen, külön tanítás kell a magyar szövegre, ez mindenképp probléma. A Transkribusnál a jelenlegi modelljükkel 15000 szóra teszik a betanítási volument kézírásfelismerés esetén. Ez mondjuk nem kevés, de nem is annyira sok, hogy ne lehessen bármikor létrehozni. A konkrét folyamatról itt egy leírás, ha érdekel valakit: https://transkribus.eu/wiki/images/3/34/HowToTranscribe_Train_A_Model.pdf

Előzmény: Némedi László __ (21238)
Némedi László __ Creative Commons License 2020.08.27 0 0 21243

ránézésre elég gyenge az indexelés a mohácsi katolikus anyakönyveknél, átlapoztad őket, vagy az indexben kerestél csak?

Előzmény: czsandor (21241)
Higroszkópos Sándor Creative Commons License 2020.08.27 0 0 21242

Esély mindenre van, de ami érdekes, hogy bár Kozák Anna katolikus, de az indexált anyakönyvek között nincsen semmi nyoma (legalábbis én nem találtam meg), és Baranyában a 19. században sem igen születnek Kozák Annák. Ellenben a hímesházai anyakönyvben van 1862-ben egy szabari Kozák Erzésbet, lehet, hogy az ő testvére volt Kozák Anna? A szüleiknek több gyerekük is született, igaz az utolsó 1869 körül.

 

A későbbi házasság lehet a volt férj második házassága. Esetleg Kozák Anna valamikor nem sokkal 1927 előtt halhatott meg, talán Mohácson. Úgy látom, hogy a mohácsi polgári anyakönyvek '19 után már nem elérhetőek, és a pécsi egyházmegyei levéltárban is csak Mohács-sziget van meg. Pedig jó lett volna megnézni, hogy ha megvan a halottija, akkor mit írnak bele.

 

 

Előzmény: czsandor (21241)
czsandor Creative Commons License 2020.08.27 0 0 21241

Sziasztok, ismét a segítségeteket kérném. Apai nagyapám ágán kutakodok jelenleg. Ez (https://www.familysearch.org/ark:/61903/3:1:33SQ-GPBH-RQG?from=lynx1UIV8&treeref=GWLW-LYF&i=39) alapján tudom, hogy Czigler Károly szülei Czigler Ferenc és Kozák Anna voltak. Kozák Anna 1902-ben volt 21 éves, tehát 1881. körül született. A dokumentum azt állítja, hogy Szabarban (feltételezem ez a mai Székelyszabar). Megnéztem a hímesházai anyakönyveket, de nem találom a születési bejegyzését. Van rá esély, hogy máshol anyakönyvezték? 

 

A házassági anyakönyvi bejegyzésüket sem találom sem a mohácsi, sem a szabari könyvekben. 

 

Ugyancsak zavarba ejtő, hogy az egyetlen Cziegler Franciscus, akit találtam (https://www.familysearch.org/ark:/61903/3:1:939F-SMT9-J?cc=1743180&personaUrl=%2Fark%3A%2F61903%2F1%3A1%3A2S1W-VP5) neve mellett azt jegyezték fel, hogy egy bizonyos Wágner Erzsébettel lépett házasságra 1927-ben (tehát 1876-os születéséhez képest viszonylag későn) nem pedig Kozák Annával.

 

Előre is köszönöm a segítséget!

 

Némedi László __ Creative Commons License 2020.08.27 0 0 21240
Előzmény: Némedi László __ (21238)
Némedi László __ Creative Commons License 2020.08.27 0 0 21239

ahh Vovács inkább :))

Előzmény: Némedi László __ (21238)
Némedi László __ Creative Commons License 2020.08.27 0 0 21238

ez a kedvenc cikksorozatom a neural networkről, és ebben a részben éppen a kézírásfelismerésről írnak:

https://medium.com/@ageitgey/machine-learning-is-fun-part-3-deep-learning-and-convolutional-neural-networks-f40359318721

 

A probléma ezzel, hogy először egy nagy adag tanítás kell, és itt látom a problémát, hogy a régebbi magyar írásra nem nagyon van betanító alapanyagunk (a mostani magyarra talán van), és persze kétséges írásmódoknál az emberi agy használja a környezet adatait (pl tudjuk, hogy nincs olyan, hogy Vonács, hanem Kovácsnak kell annak lenni, és onnantól, ha V betűt látunk akkor K-nak értelmezzük, de ehhez fel kellett ismernünk, hogy az egy vezetéknév). Egyébként is a felismerésnél nem 100%-os találatot kapsz, hanem valószínűséget mondjuk 80% V, 50% K.

 

Szóval emberi interakció biztosan kell, ami néha az lesz, hogy egyszerűbb begépelni, amit látsz, de néha elfogadható lesz az eredmény...

 

Előzmény: JPmiaou (21237)
JPmiaou Creative Commons License 2020.08.26 0 0 21237

Szerintem a használható kézírásfelismerés, és főleg az ezen alapuló indexelés még nagyon, nagyon távol van. A nyomtatott betűfelismerés is telis-tele van hibával, és a géppel-indexelt gyászjelentések csupa zagyvaságot gyártanak. Például Liszt Ferencről közölt egy Michigan-i újság gyászjelentést, amiből a gép megállapította, hogy életkora 9, rokona pedig Legende Von Der Heiligen Elisabeth (https://www.familysearch.org/ark:/61903/1:1:Q57X-KSYW?from=lynx1UIV8).

Előzmény: vaclav (21227)
Némedi László __ Creative Commons License 2020.08.26 0 0 21236

egyébként a katolikus anyakönyveknél szépen újrafényképezték a nem civileket (legalábbis, amit láttam eddig a matriculaban), az legalább már szemmel olvasható (ott az AI sem nagyon tud mit csinálni...)

Előzmény: rferi (21232)
Némedi László __ Creative Commons License 2020.08.26 0 0 21235

bocs mindenkitől, hogy összezavartam a társaságot, csak néha elkeseredek mennyire nem érdekel senki döntéshozót a (valódi) múlt, és akkor ez van...  ...de már összeszedtem magam...

Előzmény: killbill1980 (21233)
Némedi László __ Creative Commons License 2020.08.26 0 0 21234

jaja, kicsit emeltem a tétet :) (és még az sem tűnik sok pénznek, és egyszeri lenne)

 

mondjuk a civil szerintem egész jól van fényképezve, de az alányomást én sem értettem mire kellett...

 

az új (mostani) anyakönyvek már digitálisak, csak az már nem nekem készül :)

Előzmény: rferi (21232)
killbill1980 Creative Commons License 2020.08.26 0 0 21233

:)

Csak részben neked, hogy kérdezted hogy mit is akarunk megcsinálni/mecsináltatni.

Nos egy digitális online adatbázist, ami tartalmazza a szabadon hozzáférhető anyk. adatokat (index) ami tartalmazza a védett időszakot

és azon kívülit is, persze a védett adatokból csak a védelem nélkülihez való hozzáférést.

 

Másik dolog vaclav

 

A kézírás digitális felismerése nagyon gyerekcipőben jár, -nem lehetetlen, már vannak próbálkozások ha szépen van írva, na de a régi macskakaparásos írásra nem lesz soha digitális megoldás

mert még egy hozzáértő kutatónak is néha olyan nehézkes a kiolvasása, hogy csak na.

Ezek csak is manuális feldolgozással lehetséges, -legalábbis mai szemmel.

Előzmény: rferi (21231)
rferi Creative Commons License 2020.08.26 0 0 21232

Szóval akkor most arról beszélgetünk, hogy az Arcanum OCR rendszerrel álljon neki a civil könyveknek, és ne képalapon, hanem adatbázist építve dolgozza fel őket?

 

A kézírás-felismerést jelentősen rontani fogja az a hülye alányomás, ami az anyakönyvi papírokon ott van, apró hullámok, vagy mik. Mivel a könyv színes, ez kiszűrhető lenne, de ehhez az is kéne, hogy Arcanumék szkenneljék újra, mert ami most elérhető, az ugye FF. Vagy nem? Ráadásul még Arcanum nélkül sem ártana újra fotózni digitálissal, mert amióta azok a filmek készültek, nagyságrendekkel javult minden, az optikák minősége, a digitális rögzítés ténye, stb. Némelyik kép olyan ótvar, hogy a széleken alig lehet elolvasni a torzítási hibák miatt.

Előzmény: Némedi László __ (21229)
rferi Creative Commons License 2020.08.26 0 0 21231

öööö....izé....

:)))))))))))

Gondolom ezt nem nekem akartad

Előzmény: killbill1980 (21223)
killbill1980 Creative Commons License 2020.08.26 0 0 21230

Persze mindent lehet csak akarni kell.

De ez óriási munka és beruházás, ha most megnézed az online adatbázisokat akkor láthatod hogy 99%-a az FS-n alapszik.

Több millió index-t leszedtem már Én is az FS-ről és írtam adatbázisba, de hihetetlen munka a javítás, és még a kapcsolódás sehol sincs.

Hogy mennyire érné meg egy Mo.-i adatbázis -komplex- az kérdéses.

Előzmény: Némedi László __ (21229)
Némedi László __ Creative Commons License 2020.08.26 0 0 21229

nem rossz, de a magyar írásmód még megtanítandó, ás elég sok fajtával találkoztam, és biztos kell emberi ellenőrzés, maximum lenti számolásomnál kell kevesebb munka per rekord.

 

(miután lejjebb nyomtuk a számokat, már 2-4 milliárd is elég lenne, egyszeri...)

Előzmény: vaclav (21227)
Némedi László __ Creative Commons License 2020.08.26 0 0 21228

látom miből dolgoztál, csak az lehet, hogy a 1920 előtt is a trianoni határokra számolja vissza

 

legyen a kettő között a jó szám :)

Előzmény: killbill1980 (21224)
vaclav Creative Commons License 2020.08.26 0 0 21227

Szerintem 2020-ban nem kézi indexeléssel kellene számolnunk. Pont a polgáriknál, amelyek rubrikázottak és rendezettek, belátható távolságban van a használható kézírásfelismerés. Nem rég futottam bele az Innsbrucki Egyetem egyik projektjébe, ami kifejezetten történelmi szövegek digitalizálásáról szól (transkribus.eu). Néhány év alatt simán lehet belőle olyan, amit ha megfelelő előkészítés után értő kezek ráeresztenek a filmekre, akkor teljesen használható adatbázist dob ki a másik oldalon.

Némedi László __ Creative Commons License 2020.08.26 0 0 21226

hmm a KSH könyv szerint a 1900 évek elejént az átlag születésszám 700ezer felett volt

http://konyvtar.ksh.hu/inc/kb_statisztika/Manda/MSE2/MSE2_1910.pdf

tehát csak 1900-1910 között összesen 7 millió születés történhetett, a születésszámod biztos nem jó, ezáltal a halálozásnak is magasabbnak kell lennie...

Előzmény: killbill1980 (21224)
Némedi László __ Creative Commons License 2020.08.26 0 0 21225

az FSnek már 1 milliárd indexelt rekordja van:

Since FamilySearch indexing began in 2006, this unprecedented crowdsourcing effort has produced more than one billion searchable records.

 

Magyarországon, mint írtam kb 70 millió rekord lehet a civil anyakönyvezésben.

 

Mint írtam a Macsenak már most 5 millió rekordot sikerült indexelni a civil anyakönyvek közül.

Civil anyakönyvekről beszélek, amelyeknek a minősége alapvetően jó, nem kell silabizálgatni annyit, mint egy egyházit az 1700as évekből.

 

Egy adatrögzítő 1 perc alatt 1 rekordot talán fel tud ezekből dolgozni (napi 250 talán nem lehetlen elvárás), évente ez 50ezer per fő, 100 fő esetén 5 millió rekord.

Ez alapján beszélünk kb 1500 emberév (fte) munkáról (legyen 50% ellenőrzés, szoftver valószínűleg eléggé jó állapotban van az arcanumnál, de legyen 100 millió megcsinálni (ez már multi ár :))

 

Tehát az erőfeszítés költsége mondjuk legyen 6-9 milliárd egyszeri költség, üzemeltetés az arcanum adatok alapján nem több, mint évi 50 millió (nevetséges méretek adatbáziskezelésben - 70 millió index adat, 7 terabyte kép adat) - az arcanumnak most 300 terabyte adatbázisa van...

 

nem lehetetlen ez, csak akarni kellene, de senki nem akarja...

 

Előzmény: killbill1980 (21223)
killbill1980 Creative Commons License 2020.08.26 0 0 21224

 

1900-2020

 

Sz.:   10 649 418
Hal.:    9 617 523

Ház.:   5 486 472

 

És ebből még hiányzik 50 év 1900-1950 ig eben az időszakban csak 10évente ven adat, az akkori szül/hal adat átlag évi 250E/150E

+12M szül.

+7,5M hal

Előzmény: Némedi László __ (21222)
killbill1980 Creative Commons License 2020.08.26 0 0 21223

"Egyébként a levéltár, akár önkéntesekkel együtt, megtehetné, hogy a kérdéses anyagokat (ami nem a teljes állomány) digitalizálja, és pl csinál egy adatbázist (tudom-tudom pénz, de ha már mindenre van pénz, a múltunk megismerésére is kéne, mert ez az igazi haza-család szeretet)."

 

Tudod Te egyáltalán mennyi munka egy ilyen adatbázis felépítése?

Anyakönyvek átnyálazása, adatok feldolgozása, majd adatbázisba írása, már ez több 100 ember több éves munkája + adatellenőrzés, stb.

Aztán még ott a digitalizálás, adat ellenőrzés a védett adat kitakarása, stb.

Szóval ezt azért Te se gondoltad komolyan?

-És a pénz a legkevesebb ebben a projektben.

Az FS már vagy 20 éve építgeti az adatbázist, és még sehol sincs.

Pedig ott több 10 ezer felhasználó indexel -több-kevesebb sikerrel, mert némelyiknek levágnám a kezét amilyen baromságokat irkál.

De hogy lásd a pénz oldalát is 100 ember 400E-s kiadással havi 40M évi ~500M

-És akkor ők csak ezzel foglalkoznak, a többiről nem is beszéltem.

100 ember ilyen projektnél semmi.

Előzmény: rferi (21221)
Némedi László __ Creative Commons License 2020.08.26 0 0 21222

sokat írtam, inkább töröltem... ...nem folytatom ezt tovább...

 

egyébként csináltam egy becslést a civil anyakönyvezésről:

macse eddig feldolgozott kb 5 millió rekordot.

becslésem szerint lehet 1895-1995 között kb 10 millió házassági bejegyzés, 30 millió születés, és kb hasonló mennyiségű halálozási rekord van.

 

Előzmény: rferi (21221)
rferi Creative Commons License 2020.08.26 0 0 21221

Ettől még mindig nem tudom, mit is akarunk megcsináltatni velük?

Előzmény: Némedi László __ (21218)
Némedi László __ Creative Commons License 2020.08.26 0 0 21220

Előzmény: Némedi László __ (21218)
Tóth László István Creative Commons License 2020.08.26 0 0 21219

Nagyon köszönöm!!! Hogy Veszprémre miért nem gondoltam, a gyermekei oda költöztek valóban...

 

Előzmény: akiralk (21216)
Némedi László __ Creative Commons License 2020.08.26 0 0 21218

Előzmény: rferi (21217)

Ha kedveled azért, ha nem azért nyomj egy lájkot a Fórumért!