נסרק ל-Java PDF שניתן לחיפוש

לפעמים קבצי PDF נוצרים באמצעות תמונות מסורק או התקן מצלמה. במצבים מסוימים, ייתכן שיהיה עליך להמיר קובץ PDF סרוק לקובץ PDF שניתן לחיפוש עם OCR, כדי שתוכל לעבוד עם תוכן טקסט בקובץ PDF. בהתאם לכך, מאמר זה מכסה כיצד להמיר PDF סרוק ל-PDF הניתן לחיפוש באמצעות תכונת OCR באופן תוכנתי באמצעות Java.

PDF סרוק ל-PDF ניתן לחיפוש באמצעות OCR - התקנת Java API

אתה יכול לזהות אופטית את הטקסט בקובץ PDF עם תכונת OCR באמצעות Aspose.OCR for Java API. כל שעליך לעשות הוא להתקין את ה-API על ידי הורדת קובץ ה-JAR מהקטע מהדורות חדשות, או שימוש במפרטי Maven להלן:

מאגר:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

תלות:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

המר PDF סרוק ל-PDF ניתן לחיפוש באופן פרוגרמטי באמצעות Java

אתה יכול לזהות את התוכן של קובץ PDF סרוק באמצעות OCR. זה מאפשר לך להמיר קובץ PDF סרוק למסמך PDF שניתן לחיפוש באמצעות השלבים הבאים:

  1. צור אובייקט מחלקה AsposeOcr.
  2. זהה את הנתונים מ-PDF סרוק בשיטת RecognizePdf.
  3. הגדר מספרי עמודים לזיהוי OCR באמצעות המחלקה DocumentRecognitionSettings.
  4. שמור תוצאת OCR פלט כקובץ PDF שניתן לחיפוש.

קטע הקוד הבא מפרט כיצד להמיר קובץ PDF סרוק לקובץ PDF הניתן לחיפוש באופן תוכנתי ב-Java:

// נתיב PDF סרוק מרובה עמודים
String fullPath = "multi_page.pdf";

// אתחול אובייקט המחלקה AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// זיהוי תמונות מ-PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// שמור את התוצאה כ-PDF הניתן לחיפוש
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

קבל רישיון הערכה בחינם

אתה יכול להעריך את התכונה כדי לזהות טקסט ב-PDF סרוק עם פעולות OCR ללא כל הגבלה על ידי בקשת [רישיון זמני חינם].

סיכום

במאמר זה, למדת כיצד להמיר קובץ PDF סרוק למסמך PDF הניתן לחיפוש באמצעות תכונת OCR באופן תוכנתי ב-Java. יתר על כן, אתה יכול להסתכל על תכונות אחרות הקשורות ל-OCR של ה-API על ידי ביקור בתיעוד. אנא אל תהסס לכתוב לנו בפורום בכל מקרה של חששות.

ראה גם