PDF סרוק ל- Word Java OCR

קבצי PDF שנוצרו באמצעות מצלמה או התקן סורק מכילים תמונות סרוקות. לא ניתן לעבד תמונות כאלה לבחירת טקסט או עריכה ולכן ייתכן שיהיה עליך להמיר PDF סרוק למסמכי Word בפורמט DOCX או DOC. מאמר זה עוסק כיצד להמיר קובץ PDF סרוק לקובץ Word באופן תוכנתי באמצעות Java.

Java API להמרת PDF סרוק לקובץ Word

אתה יכול לתפעל מסמכי PDF סרוקים עם פעולות OCR באמצעות Aspose.OCR for Java API ולאחר מכן ליצור קובץ Word עם Aspose.Words for Java API באופן תכנותי. כל שעליך לעשות הוא להגדיר את ממשקי ה-API על ידי הורדת קובצי ה-JAR מקטע הורדות או שימוש במפרטי Maven הבאים:

מאגר:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

תלות:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

המר PDF סרוק למסמך Word באופן תוכניתי באמצעות Java

ניתן להמיר קובץ PDF סרוק למסמך Word בטכניקת זיהוי תווים אופטי. זהו תהליך דו-שלבי שבו ה-PDF הסרוק מומר לטקסט ולאחר מכן הטקסט מומר למסמך Word בפורמט DOC או DOCX. עליך לבצע את השלבים הבאים כדי להמיר PDF סרוק למסמך Word:

  1. יצירת אובייקט מחלקה AsposeOCRPdf.
  2. זיהוי תמונות מקובץ PDF באמצעות אובייקט מסוג DocumentRecognitionSettings.
  3. ציין את אובייקט המחלקה String ושמור את הטקסט.
  4. אתחול מסמך word חדש עם המחלקה Document.
  5. הגדר את עיצוב הגופנים והפסקאות.
  6. לבסוף, כתוב את מסמך הפלט של Word לדיסק כקובץ DOCX או DOC.

קטע הקוד שלהלן מדגים כיצד להמיר קובץ PDF סרוק למסמך Word כקובץ DOC או DOCX באופן תוכנתי באמצעות Java:

// אתחול מופע של AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// קבל קובץ PDF לזיהוי     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// זיהוי קובץ PDF קלט בשיטת RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// תוצאת הדפסה
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// אתחול מסמך Word עם מחלקה Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// ציין עיצוב גופן
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// ציין עיצוב פסקה
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// שמור מסמך פלט וורד. 
doc.save("Scanned_PDF_to_Word_Java.docx");

קבל רישיון זמני בחינם

אתה יכול להעריך את ממשקי ה-API ללא הגבלות כלשהן על ידי בקשת רישיון זמני ללא תשלום.

סיכום

במאמר זה, חקרתם כיצד להמיר קובץ PDF סרוק למסמך Word כקובץ DOCX או DOC באופן תוכנתי באמצעות Java. יתר על כן, אתה יכול להסתכל על תכונות אחרות הקשורות ל-OCR על ידי ביקור בתיעוד. בכל מקרה של חששות, אנא אל תהסס לפנות אלינו בפורום.

ראה גם

מידע: ייתכן שתתעניין ב-Java API אחר (Aspose.Slides for Java) המאפשר לך להמיר מצגות (לקובצי PDF, מסמכי וורד וכו’) ו-יבוא תמונות ] או מסמכים אחרים למצגות.