לחלץ טקסט מ-pdf java

בפוסט זה תלמדו כיצד לחלץ טקסט מקבצי PDF בצורה חלקה באמצעות Java. חילוץ טקסט יכול להיות שימושי בתרחישים שונים כגון ניתוח טקסט, אחזור מידע, ניתוח מסמכים וכן הלאה. מכיוון ש-PDF הוא אחד המסמכים הדיגיטליים הנפוצים ביותר, מקרי השימוש של חילוץ טקסט ממסמכי PDF הם יותר במספר. אז בואו נתחיל ונבדוק כיצד לבצע חילוץ טקסט PDF מתוך יישומי Java.

Java API לחילוץ טקסט מ-PDF - הורדה חינם

Aspose.PDF עבור Java הוא API ידוע לעיבוד קבצי PDF המספק מגוון רחב של תכונות ליצירה ועיבוד של קובצי PDF. ה-API מכיל מחלץ טקסט רב עוצמה המספק דרכים שונות לחילוץ טקסט ממסמכי PDF תוך מספר שורות קוד. אתה יכול להוריד את ה-JAR של ה-API או להתקין אותו בתוך היישומים המבוססים על Maven באמצעות התצורות הבאות.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>20.11</version>
</dependency>

חלץ טקסט מ-PDF באמצעות Java

להלן השלבים לחילוץ טקסט ממסמך PDF באמצעות Aspose.PDF עבור Java.

דוגמת הקוד הבאה מראה כיצד לחלץ טקסט מ-PDF באמצעות Java.

// לדוגמאות מלאות וקבצי נתונים, נא עבור אל https://github.com/aspose-pdf/Aspose.Pdf-for-Java
// פתח את המסמך
Document pdfDocument = new Document("input.pdf");

// צור אובייקט TextAbsorber כדי לחלץ טקסט
TextAbsorber textAbsorber = new TextAbsorber();

// קבלו את הסופג לכל הדפים
pdfDocument.getPages().accept(textAbsorber);

// קבל את הטקסט שחולץ
String extractedText = textAbsorber.getText();

// צור כותב ופתח את הקובץ
java.io.FileWriter writer = new java.io.FileWriter(new java.io.File("Extracted_text.txt"));
writer.write(extractedText);

// כתוב שורת טקסט לקובץ tw.WriteLine(extractedText);
// סגור את הזרם
writer.close();

חלץ טקסט מדף ספציפי ב-PDF

ניתן גם לחלץ טקסט מעמוד מסוים של מסמך ה-PDF באמצעות השלבים הבאים.

דוגמת הקוד הבאה מראה כיצד לחלץ טקסט מדף ספציפי ב-PDF באמצעות Java.

// לדוגמאות מלאות וקבצי נתונים, נא עבור אל https://github.com/aspose-pdf/Aspose.Pdf-for-Java
// לפתוח מסמך
Document pdfDocument = new Document("input.pdf");
// ליצור מכשיר טקסט
TextDevice textDevice = new TextDevice();

// הגדר אפשרויות חילוץ טקסט - הגדר מצב חילוץ טקסט (Raw או Pure)
TextExtractionOptions textExtOptions = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);

textDevice.setExtractionOptions(textExtOptions);

// קבל את הטקסט מהעמוד הראשון של PDF ושמור אותו בפורמט קובץ
textDevice.process(pdfDocument.getPages().get_Item(1), "ExtractedText.txt");

חלץ טקסט מאזור עמוד ב-PDF

אתה יכול גם לחלץ טקסט מאזור מסוים של הדף ב-PDF. לשם כך, אתה יכול להגדיר מלבן שיכסה את האזור שממנו אתה צריך לחלץ את הטקסט. להלן השלבים לחילוץ טקסט מאזור עמוד.

דוגמת הקוד הבאה מראה כיצד לחלץ טקסט מאזור עמוד מסוים ב-Java.

// לדוגמאות מלאות וקבצי נתונים, נא עבור אל https://github.com/aspose-pdf/Aspose.Pdf-for-Java
// לפתוח מסמך
Document doc = new Document("page_0001.pdf");

// צור אובייקט TextAbsorber כדי לחלץ טקסט
TextAbsorber absorber = new TextAbsorber();
absorber.getTextSearchOptions().setLimitToPageBounds(true);
absorber.getTextSearchOptions().setRectangle(new Rectangle(100, 200, 250, 350));
// קבל את הסופג לעמוד הראשון
doc.getPages().get_Item(1).accept(absorber);

// לקבל את הטקסט שחולץ
String extractedText = absorber.getText();
// צור כותב ופתח את הקובץ
BufferedWriter writer = new BufferedWriter(new FileWriter(new java.io.File("ExtractedText.txt")));
// לכתוב תוכן שחולץ
writer.write(extractedText);
// סופר קרוב
writer.close();

סיכום

במאמר זה, למדת כיצד לחלץ טקסט מ-PDF באמצעות Java. ראית דרכים שונות לחילוץ טקסט כגון חילוץ טקסט מקובץ PDF שלם, עמוד מסוים או אזור עמוד מסוים. אתה יכול ללמוד עוד על Java PDF API באמצעות תיעוד.

ראה גם

מידע: Aspose פיתחה לאחרונה שירות מקוון חינמי Text to GIF המאפשר לך להנפשת טקסטים או ליצור GIF מטקסטים פשוטים.