Skip navigation

8.9 SZÖVEGDIGITALIZÁLÁS, SZÖVEGFORMÁTUMOK

Szöveg digitalizálásához speciális szoftvereket úgynevezett OCR programokat kell a szkenner mellett használnunk. Az OCR Optikai karakterfelismerést jelent. A folyamat, során a számítógép a szkennelt szöveg karaktereit a saját tárolt karaktereivel való összehasonlítás után azonosítja, és ezek alapján digitális szövegfájlt hoz létre. A karakter felismerő programok általában nem bonyolultak, azonban sok szempontnak kell, hogy megfeleljenek.

A felismerési folyamat részei:

  1. az írás képének beolvasása,
  2. a képen szereplő szövegblokkok, szövegsorok vizsgálata,
  3. a blokkokban, sorokban szereplő betűk vagy betűpárok felismerése és,
  4. a felismert szöveg ellenőrzése (például helyesírás- vagy nyelvtani ellenőrzés).

A szövegfelismerő programok egyéb problémája, hogy csak jó minőségű gépelt, vagy nyomtatott szöveget képesek felismerni, kézírást nem. Általában probléma van a speciális karakterek és képletek felismerésével is. Az egyik legjobb program magyar fejlesztésű, amely sok elismerést nyert el a Recognita Plus.

A szövegformátumok közül a sok fejlesztő program saját beépített szövegkezelő modult használ, de lehetőség van külső szövegszerkesztőből átvett formátumok kezelésére is. A leggyakoribb formátumok a Word DOC, RTF és a legegyszerűbb a TXT (text) formátum.