สแกน PDF เป็น Word Java OCR

ไฟล์ PDF ที่สร้างขึ้นโดยใช้กล้องหรืออุปกรณ์สแกนเนอร์ประกอบด้วยรูปภาพที่สแกน รูปภาพดังกล่าวไม่สามารถประมวลผลสำหรับการเลือกหรือแก้ไขข้อความ ดังนั้นคุณอาจต้องแปลงเอกสาร PDF ที่สแกนเป็น Word ในรูปแบบ DOCX หรือ DOC บทความนี้ครอบคลุมวิธีการแปลงไฟล์ PDF ที่สแกนเป็นไฟล์ Word โดยทางโปรแกรมโดยใช้ Java

Java API เพื่อแปลง PDF ที่สแกนเป็นไฟล์ Word

คุณสามารถจัดการเอกสาร PDF ที่สแกนด้วยการดำเนินการ OCR โดยใช้ Aspose.OCR for Java API จากนั้นสร้างไฟล์ Word ด้วย Aspose.Words for Java API โดยทางโปรแกรม เพียงตั้งค่า API โดยดาวน์โหลดไฟล์ JAR จากส่วน ดาวน์โหลด หรือใช้ข้อมูลจำเพาะของ Maven ต่อไปนี้:

พื้นที่เก็บข้อมูล:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

การพึ่งพา:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

แปลง PDF ที่สแกนเป็นเอกสาร Word โดยทางโปรแกรมโดยใช้ Java

คุณสามารถแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word ด้วยเทคนิคการรู้จำอักขระด้วยแสง นี่เป็นกระบวนการสองขั้นตอนที่ PDF ที่สแกนจะถูกแปลงเป็นข้อความ จากนั้นข้อความจะถูกแปลงเป็นเอกสาร Word ในรูปแบบ DOC หรือ DOCX คุณต้องทำตามขั้นตอนด้านล่างเพื่อแปลง PDF ที่สแกนเป็นเอกสาร Word:

  1. ยกตัวอย่างวัตถุคลาส AsposeOCRPdf
  2. จดจำรูปภาพจากไฟล์ PDF โดยใช้วัตถุประเภท DocumentRecognitionSettings
  3. ระบุวัตถุคลาส String และบันทึกข้อความ
  4. เริ่มต้นเอกสารคำใหม่ด้วยคลาส Document
  5. กำหนดรูปแบบฟอนต์และย่อหน้า
  6. สุดท้าย เขียนเอกสาร Word ที่ส่งออกไปยังดิสก์เป็นไฟล์ DOCX หรือ DOC

ข้อมูลโค้ดด้านล่างสาธิตวิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word เป็นไฟล์ DOC หรือ DOCX โดยทางโปรแกรมโดยใช้ Java:

// เริ่มต้นอินสแตนซ์ของ AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// รับไฟล์ PDF เพื่อจดจำ     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// รู้จักไฟล์ PDF อินพุตด้วยวิธี RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// ผลการพิมพ์
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// เริ่มต้นเอกสารคำด้วยคลาสเอกสาร
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// ระบุการจัดรูปแบบตัวอักษร
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// ระบุการจัดรูปแบบย่อหน้า
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// บันทึกเอกสาร Word ที่ส่งออก 
doc.save("Scanned_PDF_to_Word_Java.docx");

รับใบอนุญาตชั่วคราวฟรี

คุณสามารถประเมิน API ได้โดยไม่มีข้อจำกัดใดๆ โดยขอ ใบอนุญาตชั่วคราวฟรี

บทสรุป

ในบทความนี้ คุณได้สำรวจวิธีแปลงไฟล์ PDF ที่สแกนเป็นเอกสาร Word เป็นไฟล์ DOCX หรือ DOC โดยทางโปรแกรมโดยใช้ Java นอกจากนี้ คุณสามารถดูคุณสมบัติอื่นๆ ที่เกี่ยวข้องกับ OCR ได้โดยไปที่ เอกสารประกอบ ในกรณีที่มีข้อกังวลใดๆ โปรดติดต่อเราได้ที่ ฟอรัม

ดูสิ่งนี้ด้วย

ข้อมูล: คุณอาจสนใจ Java API อื่น (Aspose.Slides for Java) ที่ให้คุณแปลงงานนำเสนอ (เป็น PDF, เอกสารคำ ฯลฯ) และ นำเข้ารูปภาพ หรือเอกสารอื่นๆ ในงานนำเสนอ