Teknologi OCR Membantu Pengembangan Terjemahan Bahasa - Pena kamus - Berita

Apa itu OCR?

Pengenalan Karakter Optik (OCR) mengacu pada proses mengubah gambar teks menjadi format teks yang dapat dibaca mesin. Misalnya, jika Anda memindai formulir atau tanda terima, komputer akan menyimpan pindaian tersebut sebagai file gambar. Anda tidak dapat mengedit, mencari, atau menghitung teks dalam file gambar menggunakan editor teks. Namun, Anda dapat menggunakan OCR untuk mengubah gambar menjadi dokumen teks dan menyimpan konten sebagai data teks.

png

Mengapa OCR begitu penting?

Sebagian besar alur kerja bisnis melibatkan pengaksesan informasi melalui media cetak. Formulir kertas, faktur, dokumen hukum yang dipindai, dan kontrak cetak adalah bagian dari proses bisnis. Dibutuhkan banyak waktu dan ruang untuk menyimpan dan mengelola dokumen-dokumen besar ini. Terlepas dari kecenderungan manajemen dokumen tanpa kertas, memindai dokumen menjadi gambar masih menantang. Prosesnya membutuhkan campur tangan manusia, tidak praktis dan lambat.

Selain itu, digitalisasi konten dokumen dapat menyebabkan file gambar dengan teks tersembunyi. Pengolah kata tidak dapat memproses teks dalam gambar dengan cara yang sama seperti dokumen teks. OCR memecahkan masalah ini dengan mengubah gambar teks menjadi data teks yang dapat dianalisis oleh perangkat lunak komersial lainnya. Anda kemudian dapat menggunakan data tersebut untuk menganalisis, meningkatkan operasi, mengotomatiskan proses, dan meningkatkan produktivitas.

7d9be6872456af033802d073206010b

Bagaimana cara kerja OCR?

Akuisisi Gambar

Pemindai membaca dokumen dan mengubah dokumen tersebut menjadi data biner. Perangkat lunak OCR menganalisis gambar yang dipindai, mengklasifikasikan area terang sebagai latar belakang dan area gelap sebagai teks.

preprocessing

Perangkat lunak OCR pertama-tama membersihkan gambar dan menghilangkan kesalahan dalam persiapan membaca. Berikut adalah beberapa teknik pembersihan yang digunakan untuk itu:

Sedikit koreksi offset atau kemiringan dokumen yang dipindai selama pemindaian untuk memperbaiki masalah penyelarasan.

Menghilangkan noise, menghilangkan bintik-bintik dari gambar digital, atau menghaluskan tepi gambar teks.

Bersihkan batas dan garis pada gambar.

Pengenalan Skrip dengan Teknologi OCR Multibahasa

Pengenalan teks

Dua jenis utama algoritma OCR atau proses perangkat lunak yang digunakan oleh perangkat lunak OCR untuk pengenalan teks adalah pencocokan pola dan ekstraksi fitur.

Pencocokan pola

Pencocokan pola memisahkan gambar karakter (disebut mesin terbang) dan membandingkannya dengan mesin terbang serupa yang tersimpan. Pencocokan pola hanya berfungsi jika mesin terbang yang disimpan memiliki font dan ukuran yang sama dengan mesin terbang input. Metode ini bekerja dengan baik untuk gambar dokumen yang dipindai yang dimasukkan dalam font yang dikenal.

Ekstraksi fitur

Segmen ekstraksi fitur atau menguraikan mesin terbang menjadi fitur seperti garis, loop tertutup, orientasi garis, dan fokus garis. Kemudian menggunakan fitur-fitur ini untuk menemukan kecocokan terbaik atau terdekat di antara berbagai mesin terbang yang disimpan.

Pengolahan pasca

Setelah analisis, sistem mengubah data teks yang diekstraksi menjadi file terkomputerisasi. Beberapa sistem OCR dapat membuat file PDF beranotasi yang berisi versi pra- dan pasca-pemindaian dari dokumen yang dipindai.