Gescanntes PDF zu Word Java OCR

Die mit einer Kamera oder einem Scanner erstellten PDF Dateien enthalten gescannte Bilder. Solche Bilder können nicht für die Textauswahl oder -bearbeitung verarbeitet werden, daher müssen Sie möglicherweise gescannte PDF Dateien in Word Dokumente im DOCX oder DOC Format konvertieren. In diesem Artikel wird beschrieben, wie Sie eine gescannte PDF Datei programmgesteuert mit Java in eine Word Datei konvertieren.

Java API zum Konvertieren gescannter PDF Dateien in Word Dateien

Sie können gescannte PDF Dokumente mit OCR-Vorgängen mithilfe der Aspose.OCR for Java-API bearbeiten und dann programmgesteuert eine Word Datei mit der Aspose.Words for Java-API generieren. Richten Sie die APIs einfach ein, indem Sie die JAR Dateien aus dem Abschnitt Downloads herunterladen oder die folgenden Maven-Spezifikationen verwenden:

Repository:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Abhängigkeit:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Konvertieren Sie gescannte PDF Dateien mithilfe von Java programmgesteuert in Word Dokumente

Sie können eine gescannte PDF Datei mit optischer Zeichenerkennungstechnik in ein Word Dokument konvertieren. Dies ist ein zweistufiger Prozess, bei dem das gescannte PDF in Text konvertiert wird und der Text dann in ein Word Dokument im DOC oder DOCX Format konvertiert wird. Sie müssen die folgenden Schritte ausführen, um eine gescannte PDF Datei in ein Word Dokument zu konvertieren:

  1. Instanziieren Sie das Klassenobjekt AsposeOCRPdf.
  2. Erkennen Sie Bilder aus PDF Dateien mit Objekten vom Typ DocumentRecognitionSettings.
  3. Geben Sie das Klassenobjekt String an und speichern Sie den Text.
  4. Initialisieren Sie ein neues Word Dokument mit der Klasse Document.
  5. Legen Sie die Schriftarten und Absatzformatierung fest.
  6. Schreiben Sie schließlich das ausgegebene Word Dokument als DOCX oder DOC Datei auf die Festplatte.

Das folgende code snippet zeigt, wie Sie eine gescannte PDF Datei programmgesteuert mit Java in ein Word Dokument als DOC oder DOCX Datei konvertieren:

// Initialisieren Sie eine Instanz von AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Holen Sie sich eine PDF Datei zum Erkennen     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Erkennt die PDF-Eingabedatei mit der RecognizePdf methode
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Ergebnis drucken
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Initialisieren Sie das Word Dokument mit der Document Klasse.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Geben Sie die Schriftartformatierung an
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Geben Sie die Absatzformatierung an
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Speichern Sie das ausgegebene Word Dokument. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Holen Sie sich eine kostenlose temporäre Lizenz

Sie können die APIs ohne Einschränkungen testen, indem Sie eine kostenlose temporäre Lizenz anfordern.

Fazit

In diesem Artikel haben Sie untersucht, wie Sie eine gescannte PDF Datei programmgesteuert mit Java in ein Word Dokument als DOCX oder DOC Datei konvertieren. Darüber hinaus können Sie sich andere OCR-bezogene Funktionen ansehen, indem Sie die Dokumentation besuchen. Bei Bedenken können Sie sich gerne im Forum an uns wenden.

Siehe auch

Info: Möglicherweise interessieren Sie sich für eine andere Java API (Aspose.Slides for Java), mit der Sie Präsentationen konvertieren (in PDFs, Word Dokumente usw.) und Bilder importieren oder andere Dokumente in Präsentationen.