Apa itu OCR (Pengenalan Karakter Optik)?

Optical Character Recognition (OCR) adalah proses mengubah bahan cetak menjadi file teks atau pengolah kata yang dapat dengan mudah diedit dan disimpan. Teknologi telah memungkinkan bahan-bahan tersebut untuk disimpan menggunakan ruang penyimpanan yang jauh lebih sedikit daripada bahan-bahan hard copy. Teknologi OCR telah membuat dampak besar pada cara informasi disimpan, dibagikan, dan diedit. Sebelum pengenalan karakter optik, jika seseorang ingin mengubah buku menjadi file pengolah kata, setiap halaman harus diketik kata demi kata.

Teknologi OCR membutuhkan perangkat keras dan perangkat lunak. Selain itu, sistem OCR yang canggih memerlukan papan sirkuit tambahan di komputer itu sendiri untuk menyelesaikan prosesnya. Pemindai optik memindai teks pada halaman, lalu memecah font menjadi serangkaian titik yang disebut bitmap. Perangkat lunak ini dapat membaca font yang paling umum dan membedakan di mana garis mulai dan berhenti. Bitmap ini kemudian diterjemahkan ke dalam teks komputer.

Sementara pengenalan karakter optik telah membuat kemajuan besar dalam beberapa tahun terakhir, itu masih tidak selalu berkinerja baik dalam mengenali tulisan tangan atau font yang terlihat mirip dengan tulisan tangan. Ada sistem dalam industri perbankan yang menggunakan teknologi OCR untuk mencoba membaca jumlah pada cek yang ditulis tangan, sejalan dengan kemampuan komputer untuk membaca nomor perutean dan rekening.

Untuk memberikan gambaran tentang kekuatan OCR, dapat membantu untuk melihat contoh dunia nyata. Bayangkan sebuah departemen kepolisian yang memiliki semua catatan kriminalnya disimpan di lemari arsip yang luas. Meskipun memindai jutaan halaman akan menjadi pekerjaan yang mahal dan memakan waktu, manfaatnya sangat besar.

Setelah sistem OCR mengubah halaman menjadi teks yang dapat dibaca komputer, seorang detektif, misalnya, dapat menelusuri seluruh riwayat dalam beberapa detik. Menemukan catatan tertentu secara manual mungkin tidak terlalu sulit, tetapi bayangkan seorang detektif mencoba mencari semua kejahatan yang dilakukan di persimpangan tertentu antara pukul 8:00 dan 8:30. Contoh ini hanya menggores permukaan kekuatan teks yang dapat dicari, dan itu hanya satu alasan mengapa banyak perusahaan dan institusi menghabiskan jutaan dolar untuk OCR data warisan mereka.