Dipindai ke PDF Java yang Dapat Dicari

Terkadang file PDF dibuat menggunakan gambar dari pemindai atau perangkat kamera. Dalam situasi tertentu, Anda mungkin perlu mengonversi file PDF yang dipindai menjadi file PDF yang dapat dicari dengan OCR, sehingga Anda dapat bekerja dengan konten teks di file PDF. Sejalan dengan itu, artikel ini membahas cara mengonversi PDF yang dipindai menjadi PDF yang dapat dicari dengan fitur OCR secara terprogram menggunakan Java.

PDF yang dipindai ke PDF yang Dapat Dicari oleh OCR – Instalasi Java API

Anda dapat mengenali teks secara optik dalam file PDF dengan fitur OCR menggunakan API Aspose.OCR for Java. Cukup instal API dengan mengunduh file JAR dari bagian Rilis Baru, atau menggunakan spesifikasi Maven di bawah:

Gudang:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Ketergantungan:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Ubah PDF yang Dipindai menjadi PDF yang Dapat Dicari Secara terprogram menggunakan Java

Anda dapat mengenali konten file PDF yang dipindai dengan OCR. Ini memungkinkan Anda mengonversi file PDF yang dipindai menjadi dokumen PDF yang Dapat Dicari dengan langkah-langkah berikut:

  1. Buat objek kelas AsposeOcr.
  2. Kenali data dari PDF yang dipindai dengan metode RecognizePdf.
  3. Tetapkan nomor halaman untuk pengenalan OCR menggunakan kelas DocumentRecognitionSettings.
  4. Simpan hasil keluaran OCR sebagai file PDF yang dapat dicari.

Cuplikan kode berikut menguraikan cara mengonversi PDF yang dipindai menjadi file PDF yang dapat dicari secara terprogram di Java:

// Jalur PDF multi halaman yang dipindai
String fullPath = "multi_page.pdf";

// Inisialisasi objek kelas AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Kenali gambar dari PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Simpan hasil sebagai PDF yang Dapat Dicari
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Dapatkan Lisensi Evaluasi Gratis

Anda dapat mengevaluasi fitur untuk mengenali teks dalam PDF yang dipindai dengan operasi OCR tanpa batasan apa pun dengan meminta lisensi sementara gratis.

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengonversi file PDF yang dipindai menjadi dokumen PDF yang dapat dicari dengan fitur OCR secara terprogram di Java. Selain itu, Anda dapat melihat fitur API terkait OCR lainnya dengan mengunjungi dokumentasi. Silakan menulis kepada kami di forum jika ada masalah.

Lihat juga