Memindai PDF ke Word Java OCR

File PDF yang dibuat menggunakan kamera atau perangkat pemindai berisi gambar yang dipindai. Gambar tersebut tidak dapat diproses untuk pemilihan atau pengeditan teks sehingga Anda mungkin perlu mengonversi dokumen PDF yang dipindai ke Word dalam format DOCX atau DOC. Artikel ini membahas cara mengonversi file PDF yang dipindai ke file Word secara terprogram menggunakan Java.

API Java untuk Mengonversi PDF yang Dipindai ke File Word

Anda dapat memanipulasi dokumen PDF yang dipindai dengan operasi OCR menggunakan Aspose.OCR for Java API lalu membuat file Word dengan Aspose.Words for Java API secara terprogram. Cukup siapkan API dengan mengunduh file JAR dari bagian Unduhan atau menggunakan spesifikasi Maven berikut:

Gudang:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Ketergantungan:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Konversi PDF yang dipindai ke Dokumen Word Secara terprogram menggunakan Java

Anda dapat mengonversi file PDF yang dipindai ke dokumen Word dengan teknik pengenalan karakter optik. Ini adalah proses dua langkah di mana PDF yang dipindai diubah menjadi teks dan kemudian teks diubah menjadi dokumen Word dalam format DOC atau DOCX. Anda harus mengikuti langkah-langkah di bawah ini untuk mengonversi PDF yang dipindai ke dokumen Word:

  1. Membuat instance objek kelas AsposeOCRPdf.
  2. Kenali gambar dari file PDF menggunakan objek jenis DocumentRecognitionSettings.
  3. Tentukan objek kelas String dan simpan teksnya.
  4. Inisialisasi dokumen kata baru dengan kelas Document.
  5. Atur font dan pemformatan paragraf.
  6. Terakhir, tulis dokumen Word keluaran ke disk sebagai file DOCX atau DOC.

Cuplikan kode di bawah ini menunjukkan cara mengonversi file PDF yang dipindai ke dokumen Word sebagai file DOC atau DOCX secara terprogram menggunakan Java:

// Inisialisasi instance AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Dapatkan file PDF untuk dikenali     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Kenali input file PDF dengan metode RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Hasil cetak
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Inisialisasi dokumen kata dengan kelas Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Tentukan pemformatan font
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Tentukan pemformatan paragraf
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Simpan dokumen Word keluaran. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Dapatkan Lisensi Sementara Gratis

Anda dapat mengevaluasi API tanpa batasan apa pun dengan meminta lisensi sementara gratis.

Kesimpulan

Pada artikel ini, Anda telah menjelajahi cara mengonversi file PDF yang dipindai ke dokumen Word sebagai file DOCX atau DOC secara terprogram menggunakan Java. Selanjutnya, Anda dapat melihat fitur terkait OCR lainnya dengan mengunjungi dokumentasi. Jika ada masalah, jangan ragu untuk menghubungi kami di forum.

Lihat juga

Info: Anda mungkin tertarik dengan Java API lain (Aspose.Slides for Java) yang memungkinkan Anda mengonversi presentasi (menjadi PDF, dokumen kata, dll.) dan mengimpor gambar atau dokumen lain ke dalam presentasi.