Keresés

Fórum » Általános társalgási fórumcsoport » A Törzsasztal »

Családfakutatás

Új hozzászólás

Nyitotta: Jenwho, 1999.09.29 13:21 | Hozzászólások: 25355 | Hozzászólók: 1232

Hozzászólások sorrendje:

Némedi László __ 2020.08.27		0 0 21238
ez a kedvenc cikksorozatom a neural networkről, és ebben a részben éppen a kézírásfelismerésről írnak: https://medium.com/@ageitgey/machine-learning-is-fun-part-3-deep-learning-and-convolutional-neural-networks-f40359318721 A probléma ezzel, hogy először egy nagy adag tanítás kell, és itt látom a problémát, hogy a régebbi magyar írásra nem nagyon van betanító alapanyagunk (a mostani magyarra talán van), és persze kétséges írásmódoknál az emberi agy használja a környezet adatait (pl tudjuk, hogy nincs olyan, hogy Vonács, hanem Kovácsnak kell annak lenni, és onnantól, ha V betűt látunk akkor K-nak értelmezzük, de ehhez fel kellett ismernünk, hogy az egy vezetéknév). Egyébként is a felismerésnél nem 100%-os találatot kapsz, hanem valószínűséget mondjuk 80% V, 50% K. Szóval emberi interakció biztosan kell, ami néha az lesz, hogy egyszerűbb begépelni, amit látsz, de néha elfogadható lesz az eredmény...
Előzmény: JPmiaou (21237)

JPmiaou 2020.08.26		0 0 21237
Szerintem a használható kézírásfelismerés, és főleg az ezen alapuló indexelés még nagyon, nagyon távol van. A nyomtatott betűfelismerés is telis-tele van hibával, és a géppel-indexelt gyászjelentések csupa zagyvaságot gyártanak. Például Liszt Ferencről közölt egy Michigan-i újság gyászjelentést, amiből a gép megállapította, hogy életkora 9, rokona pedig Legende Von Der Heiligen Elisabeth (https://www.familysearch.org/ark:/61903/1:1:Q57X-KSYW?from=lynx1UIV8).
Előzmény: vaclav (21227)

Némedi László __ 2020.08.26		0 0 21236
egyébként a katolikus anyakönyveknél szépen újrafényképezték a nem civileket (legalábbis, amit láttam eddig a matriculaban), az legalább már szemmel olvasható (ott az AI sem nagyon tud mit csinálni...)
Előzmény: rferi (21232)

Némedi László __ 2020.08.26		0 0 21235
bocs mindenkitől, hogy összezavartam a társaságot, csak néha elkeseredek mennyire nem érdekel senki döntéshozót a (valódi) múlt, és akkor ez van... ...de már összeszedtem magam...
Előzmény: killbill1980 (21233)

Némedi László __ 2020.08.26		0 0 21234
jaja, kicsit emeltem a tétet :) (és még az sem tűnik sok pénznek, és egyszeri lenne) mondjuk a civil szerintem egész jól van fényképezve, de az alányomást én sem értettem mire kellett... az új (mostani) anyakönyvek már digitálisak, csak az már nem nekem készül :)
Előzmény: rferi (21232)

killbill1980 2020.08.26		0 0 21233
:) Csak részben neked, hogy kérdezted hogy mit is akarunk megcsinálni/mecsináltatni. Nos egy digitális online adatbázist, ami tartalmazza a szabadon hozzáférhető anyk. adatokat (index) ami tartalmazza a védett időszakot és azon kívülit is, persze a védett adatokból csak a védelem nélkülihez való hozzáférést. Másik dolog vaclav A kézírás digitális felismerése nagyon gyerekcipőben jár, -nem lehetetlen, már vannak próbálkozások ha szépen van írva, na de a régi macskakaparásos írásra nem lesz soha digitális megoldás mert még egy hozzáértő kutatónak is néha olyan nehézkes a kiolvasása, hogy csak na. Ezek csak is manuális feldolgozással lehetséges, -legalábbis mai szemmel.
Előzmény: rferi (21231)

rferi 2020.08.26		0 0 21232
Szóval akkor most arról beszélgetünk, hogy az Arcanum OCR rendszerrel álljon neki a civil könyveknek, és ne képalapon, hanem adatbázist építve dolgozza fel őket? A kézírás-felismerést jelentősen rontani fogja az a hülye alányomás, ami az anyakönyvi papírokon ott van, apró hullámok, vagy mik. Mivel a könyv színes, ez kiszűrhető lenne, de ehhez az is kéne, hogy Arcanumék szkenneljék újra, mert ami most elérhető, az ugye FF. Vagy nem? Ráadásul még Arcanum nélkül sem ártana újra fotózni digitálissal, mert amióta azok a filmek készültek, nagyságrendekkel javult minden, az optikák minősége, a digitális rögzítés ténye, stb. Némelyik kép olyan ótvar, hogy a széleken alig lehet elolvasni a torzítási hibák miatt.
Előzmény: Némedi László __ (21229)

rferi 2020.08.26		0 0 21231
öööö....izé.... :))))))))))) Gondolom ezt nem nekem akartad
Előzmény: killbill1980 (21223)

killbill1980 2020.08.26		0 0 21230
Persze mindent lehet csak akarni kell. De ez óriási munka és beruházás, ha most megnézed az online adatbázisokat akkor láthatod hogy 99%-a az FS-n alapszik. Több millió index-t leszedtem már Én is az FS-ről és írtam adatbázisba, de hihetetlen munka a javítás, és még a kapcsolódás sehol sincs. Hogy mennyire érné meg egy Mo.-i adatbázis -komplex- az kérdéses.
Előzmény: Némedi László __ (21229)

Némedi László __ 2020.08.26		0 0 21229
nem rossz, de a magyar írásmód még megtanítandó, ás elég sok fajtával találkoztam, és biztos kell emberi ellenőrzés, maximum lenti számolásomnál kell kevesebb munka per rekord. (miután lejjebb nyomtuk a számokat, már 2-4 milliárd is elég lenne, egyszeri...)
Előzmény: vaclav (21227)

Némedi László __ 2020.08.26		0 0 21228
látom miből dolgoztál, csak az lehet, hogy a 1920 előtt is a trianoni határokra számolja vissza legyen a kettő között a jó szám :)
Előzmény: killbill1980 (21224)

vaclav 2020.08.26		0 0 21227
Szerintem 2020-ban nem kézi indexeléssel kellene számolnunk. Pont a polgáriknál, amelyek rubrikázottak és rendezettek, belátható távolságban van a használható kézírásfelismerés. Nem rég futottam bele az Innsbrucki Egyetem egyik projektjébe, ami kifejezetten történelmi szövegek digitalizálásáról szól (transkribus.eu). Néhány év alatt simán lehet belőle olyan, amit ha megfelelő előkészítés után értő kezek ráeresztenek a filmekre, akkor teljesen használható adatbázist dob ki a másik oldalon.

Némedi László __ 2020.08.26		0 0 21226
hmm a KSH könyv szerint a 1900 évek elejént az átlag születésszám 700ezer felett volt http://konyvtar.ksh.hu/inc/kb_statisztika/Manda/MSE2/MSE2_1910.pdf tehát csak 1900-1910 között összesen 7 millió születés történhetett, a születésszámod biztos nem jó, ezáltal a halálozásnak is magasabbnak kell lennie...
Előzmény: killbill1980 (21224)

Némedi László __ 2020.08.26		0 0 21225
az FSnek már 1 milliárd indexelt rekordja van: Since FamilySearch indexing began in 2006, this unprecedented crowdsourcing effort has produced more than one billion searchable records. Magyarországon, mint írtam kb 70 millió rekord lehet a civil anyakönyvezésben. Mint írtam a Macsenak már most 5 millió rekordot sikerült indexelni a civil anyakönyvek közül. Civil anyakönyvekről beszélek, amelyeknek a minősége alapvetően jó, nem kell silabizálgatni annyit, mint egy egyházit az 1700as évekből. Egy adatrögzítő 1 perc alatt 1 rekordot talán fel tud ezekből dolgozni (napi 250 talán nem lehetlen elvárás), évente ez 50ezer per fő, 100 fő esetén 5 millió rekord. Ez alapján beszélünk kb 1500 emberév (fte) munkáról (legyen 50% ellenőrzés, szoftver valószínűleg eléggé jó állapotban van az arcanumnál, de legyen 100 millió megcsinálni (ez már multi ár :)) Tehát az erőfeszítés költsége mondjuk legyen 6-9 milliárd egyszeri költség, üzemeltetés az arcanum adatok alapján nem több, mint évi 50 millió (nevetséges méretek adatbáziskezelésben - 70 millió index adat, 7 terabyte kép adat) - az arcanumnak most 300 terabyte adatbázisa van... nem lehetetlen ez, csak akarni kellene, de senki nem akarja...
Előzmény: killbill1980 (21223)

killbill1980 2020.08.26		0 0 21224
1900-2020 Sz.: 10 649 418 Hal.: 9 617 523 Ház.: 5 486 472 És ebből még hiányzik 50 év 1900-1950 ig eben az időszakban csak 10évente ven adat, az akkori szül/hal adat átlag évi 250E/150E +12M szül. +7,5M hal
Előzmény: Némedi László __ (21222)

killbill1980 2020.08.26		0 0 21223
"Egyébként a levéltár, akár önkéntesekkel együtt, megtehetné, hogy a kérdéses anyagokat (ami nem a teljes állomány) digitalizálja, és pl csinál egy adatbázist (tudom-tudom pénz, de ha már mindenre van pénz, a múltunk megismerésére is kéne, mert ez az igazi haza-család szeretet)." Tudod Te egyáltalán mennyi munka egy ilyen adatbázis felépítése? Anyakönyvek átnyálazása, adatok feldolgozása, majd adatbázisba írása, már ez több 100 ember több éves munkája + adatellenőrzés, stb. Aztán még ott a digitalizálás, adat ellenőrzés a védett adat kitakarása, stb. Szóval ezt azért Te se gondoltad komolyan? -És a pénz a legkevesebb ebben a projektben. Az FS már vagy 20 éve építgeti az adatbázist, és még sehol sincs. Pedig ott több 10 ezer felhasználó indexel -több-kevesebb sikerrel, mert némelyiknek levágnám a kezét amilyen baromságokat irkál. De hogy lásd a pénz oldalát is 100 ember 400E-s kiadással havi 40M évi ~500M -És akkor ők csak ezzel foglalkoznak, a többiről nem is beszéltem. 100 ember ilyen projektnél semmi.
Előzmény: rferi (21221)

Némedi László __ 2020.08.26		0 0 21222
sokat írtam, inkább töröltem... ...nem folytatom ezt tovább... egyébként csináltam egy becslést a civil anyakönyvezésről: macse eddig feldolgozott kb 5 millió rekordot. becslésem szerint lehet 1895-1995 között kb 10 millió házassági bejegyzés, 30 millió születés, és kb hasonló mennyiségű halálozási rekord van.
Előzmény: rferi (21221)

rferi 2020.08.26		0 0 21221
Ettől még mindig nem tudom, mit is akarunk megcsináltatni velük?
Előzmény: Némedi László __ (21218)

Némedi László __ 2020.08.26		0 0 21220

Előzmény: Némedi László __ (21218)

Tóth László István 2020.08.26		0 0 21219
Nagyon köszönöm!!! Hogy Veszprémre miért nem gondoltam, a gyermekei oda költöztek valóban...
Előzmény: Törölt nick (21216)

Némedi László __ 2020.08.26		0 0 21218

Előzmény: rferi (21217)

rferi 2020.08.26		0 0 21217
Nem világos, mi csinálható meg 300 millióból? (a bevételi adat nem elég beszédes. Iszonyatos költségeik lehetnek, hiszen irgalmatlan adatmennyiséget tároltatnak az Amazonon, biztosan nem két forintnyi összegért.)
Előzmény: Némedi László __ (21213)

Törölt nick 2020.08.26		0 0 21216
https://www.familysearch.org/ark:/61903/3:1:33S7-9TM2-JMD?i=125
Előzmény: Tóth László István (21214)

Némedi László __ 2020.08.26		0 0 21215
macseban nincs, gondolom felmenőd, te is próbáld meg az anyakönyvi hivatalt, lásd lejjebb...
Előzmény: Tóth László István (21214)

Tóth László István 2020.08.26		0 0 21214
Sziasztok! Egy kis segítséget szeretnék kérni, akik rendelkeznek Macse hozzáféréssel: Egy halotti anyakönyvek keresek már évek óta, de sehol nem találom. Székesfehérváron nincsen, és Budapestet vélelmezem, de nem találtam: Szenzenstein Teréz * 1869.1.21. Székesfehérvár Házasság: 1886.1.19. Székesfehérvár, Felsőváros Férj: Tóth Imre (1859-1903) Szülők: Szenzenstein János és Dorner Teréz 1942. novemberében még élt, ha jók a bejegyzések. Azt gondolom, hogy újra férjhez mehetett valahol Budapesten. Előre is nagyon köszönöm, ha valaki rá tudna keresni. :) Üdv. Tóth László

Némedi László __ 2020.08.25		0 0 21213
egyébként megnéztem az Arcanum bevételeit, régebben 100 milliós éves bevétele volt, most inkább a 300 millió felett van. Tehát éves 300 millióból simán megcsinálható lenne, az Arcanum tényleg hihetetlen mennyiségú munkát csinál (lásd ADT, Hungaricana, mapire ...)
Előzmény: Némedi László __ (21212)

Némedi László __ 2020.08.25		0 0 21212
a magyar nemzeti levéltár alá tartozik az országos, és a megyei levéltárak (a fővárosi nem, hmm), kb 700 fő, éves teljes költségvetésük 2019-ben 3,5 milliárd forint volt. Ettől még a TAO kedvezmény a sportnak is több (ez nem a stadion): "Hat év alatt legalább 360 milliárd forintnyi adóbevételről mondott le az állam a látványcsapatsportok javára." MNL éves költségvetés: https://mnl.gov.hu/download/file/fid/562389 (abbahagyom a háborgást... :(
Előzmény: vadász2 (21210)

vadász2 2020.08.25		0 0 21211
100 év a személyes védelmi idő és 30 év a levéltári kutathatóság védelmi ideje. Olvassátok el a Némedi László által linkelt Veszprém megyei anyagot. Jól leírja a keletkeztetett problémákat.
Előzmény: JPmiaou (21209)

vadász2 2020.08.25		0 0 21210
Nos a levéltárosoknak most jobb dolguk is van, mint hogy egy-két ember igényére ilyen adatbázisokat készítsenek: Derék honatyáink - ugyanazok akik a "130 éves" többféleképpen értelmezhető* szabályt is hozták - foglalkoztatják őket rendesen. Pl. épp most ebrudalják őket kifelé a közalkalmazotti státusból a legnagyobb korlátozások között (húsvétkor) meghozott törvénnyel: https://net.jogtar.hu/jogszabaly?docid=a2000032.tv *nekem sem tetszett ez a szigorítás (kutatásnál meg is szívtam), és különösen az, hogy a korábbi törvénnyel (30-60-90) ellentétben abszolút nem volt egyértelmű, megyénként máshogy tartották be, s volt egy darabig zavar az időhatárok értelmezése körül.
Előzmény: Némedi László __ (21201)

JPmiaou 2020.08.25		0 0 21209
Én a 130 évet sehogy sem értem. Egy 120 éves születési anyakönyvben milyen védett adat fordulhat elő? Mindenki, akiről valami ott rögzítve van, minimum 120 éves -- vagyis már nem él (https://en.wikipedia.org/wiki/List_of_the_oldest_living_people). A halottaknak nincs adatvédelmi joguk, viszont nekünk, élő kutatóknak állítólag van adathozzáférési jogunk. Hogyan tehetik a levéltárak a nemlétezőt a létező fölé?
Előzmény: Prelleg (21207)

Index Fórumok

Ha kedveled azért, ha nem azért nyomj egy lájkot a Fórumért!

forum.index.hu

Magyarország első és legnagyobb fórum szolgáltatása. A web kettő pre-bétája, amit 1997 óta töltenek meg tartalommal a fórumlakók. Fórumok változatos témákban, hangnemben, moderálva. Ha nem csak megosztani akarsz, hanem diskurálni egy egy témában, csatlakozz Te is, és ha kitartó vagy, társakra találhatsz.

A Fórum otthont ad számos zárt klubfórumnak is, azok számára, akik készek az önszabályozás szellemében együtt élni ebben a virtuális közegben.

© 1999-2024 Port.hu Kft.

Tudnivalók

Csatornák

Partnereink