Hur väljer jag den bästa OCR-mjukvaran?

Programvaran Optical Character Recognition (OCR), är programvara som är utformad för att översätta bilder av text till faktisk text som en dator kan läsa. I allmänhet används det efter att en bild har skannats in i en dator, även om andra former av inmatning också kan användas. OCR-mjukvara fungerar bäst på text som redan har skrivits, antingen i de fall då en originalutskrift har tappats bort, eller för att skanna ark som skrivits på en skrivmaskin. Bra programvara kanske också kan översätta handskriven text, även om felfrekvensen på denna typ av konvertering tenderar att vara mycket högre.

Själva termen OCR-mjukvara är lite missvisande, eftersom de flesta moderna versioner faktiskt inte använder optisk teckenigenkänning, utan faktiskt använder digital teckenigenkänning. Detta beror på att för några år sedan slogs fälten samman, och båda fälten antog den mer attraktiva termen optisk teckenigenkänning. OCR-programvara har avancerat mycket under de senaste åren, med moderna program som är betydligt bättre än sina föregångare på att identifiera text.

I själva verket krävde tidig OCR-programvara utbildning av programmet på ett specifikt teckensnitt innan det kunde matas in korrekt. På samma sätt, när man matar in handstil, skulle programmet behöva tränas, en process som kan vara otroligt tidskrävande. Metoderna har dock förbättrats och mer intelligenta system är nu normen. Metoderna som används är nu relativt statiska, med bara lite forskning som går på att utveckla helt nya metoder, och mest forskning går på att förfina befintliga procedurer för att göra dem allt mer exakta. Tidiga versioner av programvara användes i ett brett spektrum av applikationer, med stora företag som använde dem för att läsa kreditkortsavtryck på 1950-talet, och United States Postal Service använde dem för att sortera post sedan mitten av 1960-talet.

För tio år sedan var det svårt att välja en OCR-programvara, eftersom många program var ganska dåliga på vissa uppgifter och ganska bra på andra. Nuförtiden har dock fältet i stort sett jämnats ut. Noggrannhetsgraden i alla bra program för att översätta latinska skript som har skrivits är över 99 %. När det kommer till att mata in handstil, eller mer intrikata typsnitt, har OCR-programvaran fortfarande ett relativt stort intervall.

Kostnaden för OCR-programvara fluktuerar också mycket, ofta i förhållande till noggrannhetsgraden den har. Det går att hitta en hel del gratis programvara som lämpar sig för att mata in trycksaker och en del som är relativt bra på att upptäcka handstil, speciellt med viss träning. Dyrare mjukvarusviter, som OmniPage-sviten, som kostar cirka 100 USD (USD) för hemmaversionen och cirka 450 USD för den professionella versionen, har ett imponerande utbud av funktioner och generellt sett högre framgångsfrekvens.
Tyvärr finns det fortfarande inget som heter perfekt OCR-programvara, så att välja ett program att köpa kan fortfarande till stor del vara en frustrerande process. Även de bästa programmen kommer sannolikt att ha en svår tid med handstil, och fel kommer oundvikligen att krypa igenom, även på låga nivåer. Att välja ett program att köpa beror oftast på extrafunktioner: flerspråkig support, one-touch scan och konvertering integration, automatisk PDF-konvertering och helordsigenkänning inom specialiserade discipliner som juridiska och medicinska områden.