A magyarországi Eötvös Loránd Tudományegyetem (ELTE) vezetésével működő Digitális Örökség Nemzeti Laboratórium és az Erdélyi Digitális Tudománytár (Digitéka) közös projektjében több százezer oldalnyi erdélyi magyar sajtóanyag vált kereshetővé és hosszú távon megőrizhetővé. – írja a Qubit.hu. tudományos hírportál. A munka első ütemében 26 történeti újság mintegy 273 ezer oldalát dolgozták fel optikai karakterfelismeréssel (OCR), majd további 60 ezer oldalt, így összesen 333 492 oldal digitalizált szöveg készült el. Az anyagokat egységes vízjellel ellátott, kétrétegű PDF-formátumban adták át a Digitékának, ami lehetővé teszi a szövegek teljes körű kereshetőségét.
A projekt nem csupán digitalizálási feladat volt: a résztvevők közösen fejlesztették a dokumentumok szerkezeti felismerését végző úgynevezett layout analysis rendszert is. Ez az erdélyi és magyar történeti dokumentumokra optimalizált technológia jelentősen javítja az OCR pontosságát, és megalapozza egy speciális, régiós forrásokra szabott feldolgozórendszer létrejöttét. Az eredmény egyszerre szolgálja a tudományos kutatást, a kulturális örökség megőrzését és a nyilvános hozzáférést, hiszen a korábban nehezen kutatható sajtóanyagok most digitálisan is böngészhetők és elemezhetők.
Az archívum itt érhető el.