Optical Character Recognition (OCR) är en process för att konvertera tryckt material till text- eller ordbehandlingsfiler som enkelt kan redigeras och lagras. Tekniken har gjort det möjligt för sådant material att lagras med mycket mindre lagringsutrymme än pappersmaterial. OCR-teknik har haft en enorm inverkan på hur information lagras, delas och redigeras. Före optisk teckenigenkänning, om någon ville förvandla en bok till en ordbehandlingsfil, skulle varje sida behöva skrivas ord för ord.
OCR-teknik kräver både hårdvara och mjukvara. Dessutom kräver sofistikerade OCR-system ett extra kretskort i själva datorn för att slutföra processen. En optisk skanner skannar texten på en sida och delar sedan upp teckensnitten i en serie punkter som kallas en bitmapp. Programvaran kan läsa de vanligaste typsnitten och särskilja var linjer börjar och slutar. Denna bitmapp översätts sedan till datortext.
Även om optisk teckenigenkänning har gjort stora framsteg under de senaste åren, fungerar det fortfarande inte alltid bra när det gäller att känna igen handstil eller typsnitt som liknar handstil. Det finns system inom bankbranschen som använder OCR-teknik för att försöka läsa av beloppen på handskrivna checkar, för att gå med i datorns förmåga att läsa routing och kontonummer.
För att ge en uppfattning om kraften i OCR kan det hjälpa att ta en titt på ett verkligt exempel. Föreställ dig en polisavdelning som har alla sina brottsregister lagrade i stora arkivskåp. Även om det skulle vara ett dyrt och tidskrävande arbete att skanna miljontals sidor, är fördelarna enorma.
När OCR-systemet har konverterat sidorna till datorläsbar text kan en detektiv till exempel söka igenom hela historien på några sekunder. Att manuellt hitta en viss post kanske inte är så svårt, men föreställ dig en detektiv som försöker söka efter alla brott som begåtts i en viss korsning mellan 8:00 och 8:30. Det här exemplet skrapar bara på ytan av kraften i sökbar text, och det är bara en anledning till att många företag och institutioner spenderar miljontals dollar för att OCR sina äldre data.