Sikeresen zárult az Eötvös Loránd Tudományegyetem (ELTE) által vezetett nagyszabású digitalizálási projekt, amelynek eredményeként több százezer oldalas erdélyi magyar nyelvű történelmi újságok dolgoztak fel és megőrzésre kerültek hosszú távon.
A kezdeményezést az ELTE konzorciumi vezetésével működő Digitális Örökség Nemzeti Laboratórium (DH-LAB) valósította meg az Erdélyi Digitális Tárral, a Digitékával együttműködve. Az egyetem közleménye szerint a cél a történelmi erdélyi sajtóforrások digitális feldolgozásának új szintre emelése és a magyar nyelvű kulturális örökséghez való korszerű kutatási hozzáférés javítása volt.
A projekt első szakaszában 26 erdélyi történelmi újság mintegy 273 000 szkennelt oldalán végeztek optikai karakterfelismerést (OCR). Ezt követően a partnerintézmény több mint 60 000 oldallal járult hozzá, így a feldolgozott magyar nyelvű sajtóanyag teljes mennyisége 333 492 oldalra nőtt.
Az elkészült fájlok kétrétegű kereshető PDF formátumban kerültek a Digitékába, mindegyik egységes vízjellel a következetesség és a hitelesség érdekében.
Az OCR folyamat hatékonyságának és pontosságának fokozása érdekében a partnerek közösen kidolgoztak egy olyan elrendezéselemző rendszert is, amely képes felismerni a történeti dokumentumok szerkezeti elemeit. Az ELTE kutatás-fejlesztési szakértelmére és infrastruktúrájára támaszkodva az együttműködés a dokumentumszerkezet-felismerés fejlesztésére összpontosított, amely kulcsfontosságú tényező az OCR-pontosság növelésében.
Ennek részeként a Digitéka jegyzetelői 1007 oldalt dolgoztak fel. A DH-LAB annotátorai által készített anyagokkal kombinálva ez egy 4078 jegyzett oldalból álló képzési adatbázist eredményezett.
A közlemény szerint ez az adathalmaz megalapozza egy kifejezetten erdélyi és magyar történelmi dokumentumokra optimalizált elrendezésfelismerő rendszert, amely jelentősen javítja az OCR eredmények pontosságát, és megbízhatóbb szövegkeresést és kutatást tesz lehetővé.
The post Új digitális kezdeményezésben kereshetővé váltak a történelmi erdélyi magyar lapok appeared first on Magyar Konzervatív.