scanner

Wie zonder poespas Engelse teksten doorzoekbaar wil maken na het scannen, kan terecht bij Orphalis PDF OCR.

 

Wanneer je tekst inscant zal dat standaard een afbeelding opleveren – ook wanneer je dat omzet naar een pdf-document. Dat houdt in dat je de tekst van het document niet kunt bewerken noch doorzoeken. Om dat te bewerkstellingen is er een OCR-tool nodig. Dat staat voor optical character recognition, een techniek die grafische lettertekens naar echte letters – en dus tekst – omzet. Orpalis PDF OCR is precies zo’n tool.

De website geeft de indruk dat een (actief) e-mailadres vereist is voor de download maar de tool laat zich ook zo ophalen. De gratis versie van Orpalis PDF OCR heeft jammer genoeg wel een flink aantal beperkingen die niet aanwezig zijn in de betaalde Pro-editie. Zo ondersteunt de gratis versie jammer genoeg alleen Engels, Frans, Duits, Spaans en Italiaans  – de Pro-versie is royaal uitgerust met ondersteuning voor meer dan 60 talen  – en laten alleen pdf-documenten zich OCR’en, terwijl de Pro-versie met meer dan 100 documentformaten overweg kan. Ook functies als multi-threading en opdrachtregelverwerking blijken een brug te ver voor de gratis editie. Wel kan die, net als de Pro-variant, de paginaoriëntatie herkennen (en desgevallend corrigeren) en zal die ook de paginalay-out analyseren om zo dicht mogelijk het originele document te benaderen tijdens de OCR-procedure.

Orpalis PDF OCR laat zich in elk geval erg makkelijk bedienen. Je verwijst naar het ingescande PDF-document, je geeft de brontaal aan, je duidt de doelmap aan en je drukt op de Start-knop. Meer mogelijkheden of opties zijn er eigenlijk niet. Na afloop krijg je een overzicht van het proces in de vorm van een simpel logbestand, eventueel aangevuld met errors of warnings.

De resultaten mogen er best wezen, maar de ingestelde restricties zetten toch een stevige domper op onze freeware-vreugde. Ook zouden we een voorbeeldweergave evenals de mogelijkheid om een scanner (met twain-driver) aan te sturen wel zo handig hebben gevonden.