Lendületet adnak az új technológiák a levéltári iratok feldolgozásának
Az automatizálás különböző technológiai lehetőségeinek köszönhetően felgyorsult a digitalizálás a Magyar Nemzeti Levéltárban, ahol sikerrel használják a mesterséges intelligenciát a kézírás-felismerésnél vagy éppen a rekordok összekapcsolásánál. Jönnek a robotszkennerek, és hamarosan segíthet a kutatásban a mesterséges intelligencia alapú természetes nyelvű kereső is.
A modern kor vívmányait sikerrel lehet alkalmazni a történelmi iratok, anyagok feldolgozásában is – erre szolgáltat munkájával bizonyítékot a Magyar Nemzeti Levéltár Informatikai és Innovációs Igazgatósága. Itt egy rendkívül tapasztalt csapat dolgozik, erre nagy szükség van, mert a Magyar Nemzeti Levéltárban több mint 300 ezer iratfolyóméter iratot őriznek, és csak az anyagok kis részét digitalizálták. Ez a munka azonban az utóbbi időben nagy lendületet kapott az automatizálás különböző technológiai lehetőségeinek köszönhetően.
Az egyik terület, amin az igazgatóságon dolgoznak, az a kézírás-felismerés. Fontos kiemelni, hogy a gépelt szövegek felismerése már régóta használt technológia. Ezt a munkafolyamatot mostanáig hagyományos módszerekkel, alapvetően optikai karakterfelismeréssel (OCR) végezték. Lényeges újítás, hogy ma már a géppel írt szövegek felismerését is segíteni tudják gépi tanulásos eszközök. Ez úgy működik, hogy megtanítják a szoftvereket a különböző mintázatokra, egyebek mellett arra, mi lehet egy-egy szám, egy-egy betű és mi nem. S az igazán nagy dolog az, hogy ezt a beazonosítást képes a szoftver elvégezni akkor is, ha a szó elmosódott, esetleg félig látszik. S természetesen ugyanezen az elven működik a kézírás felismerése is. E téren az igazgatóságnak vannak saját fejlesztésű szoftver alkalmazásai, amelyek iránt már külföldről is van érdeklődés. Megkereste például az intézményt a német Bundesarchiv, és arról érdeklődtek, hogy a magyar levéltári szakemberek által fejlesztett alkalmazással fel tudják-e dolgozni a náci párttagok kartonjait.
Az igazgatóságon van egy másik fontos terület is, a bevitt adatrekordok összekapcsolása. Ez kitörési pont lehet, hiszen a családtörténet-kutatás nagyon népszerű. Az igazgatóság szak emberei abban tudnak a kutatóknak segíteni, hogy az azonos személyekre vonatkozó bevitt adatokat össze tudják kapcsol ni. Az első jelentős programjuk a Szovjetunióba elhurcoltak, hadifoglyok és kényszermunkások adatbázisa volt. Ennek hátterében az állt, hogy az Orosz-Magyar Levéltári Vegyesbizottság megállapodása értelmében Magyarország megkapta hatszázezer, a második világháborúban szovjet táborokba került magyar fogoly azonosító kartonját. Az igazgatóságnak ezeket az adatokat kellett összekapcsolnia a hazatértek adatbázisával. Ezt a munkát szintén a mesterséges intelligencia segítségével végezték el úgy, hogy az algoritmust megtanították a mintázatok felismerésére. S időközben vásároltak három robotszkennert is, amelyek teljesen automatikusan tudják digitalizálni a köteteket.
Mindezeknél a fejlesztéseknél nyitottak a hasonló kutatás-fejlesztési területen dolgozó más közgyűjteményi műhelyekkel való együttműködésre. Kölcsönös tudásmegosztáson alapuló szakmai kapcsolatot alakítottak ki az Országos Széchényi Könyvtár Digitális Bölcsészeti Központjával. A két műhely megosztja egymással kézírás-felismerési tapasztalatait, munkamódszereit és mesterséges intelligencia támogatásával létrehozott felismertetett szövegeit, többek között Petőfi Sándor vagy Kiss József író, lapszerkesztő levelezését.
Az eredmények lenyűgözőek, de további terveik vannak. Egy olyan szoftvert próbálnak megalkotni, hogy egy érdeklődő – a ChatGPT-hez hasonlóan – természetes nyelvű kereséssel levéltári anyagot tudjon elérni, és a kérdésére megfelelő választ kapjon a mesterséges intelligencia segítségével.
(A cikk megjelent a Várnegyed 2024/16. számában)