Gescanntes PDF zu Excel OCR Java

Gescannte PDF Dateien enthalten Daten im Bildformat, da sie häufig von Scannern erstellt werden. In bestimmten Situationen benötigen Sie möglicherweise numerische Informationen aus einer gescannten PDF Datei. So können Sie OCR-Operationen zum Erstellen einer Excel Datei durchführen. Dieser Artikel beschreibt, wie Sie einen gescannten PDF zu Excel Konverter mit OCR Funktion programmgesteuert in Java erstellen.

Erstellen Sie einen gescannten PDF zu Excel Konverter mit OCR – Java API Installation

Sie können den Text in einer PDF Datei mit der OCR Funktion mit der API Aspose.OCR for Java optisch erkennen. Installieren Sie einfach die API, indem Sie die JAR Datei aus dem Abschnitt New Releases herunterladen oder die folgenden Maven-Spezifikationen verwenden:

Repository:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Abhängigkeit:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Konvertieren Sie gescannte PDF Dateien programmgesteuert in Java in Excel

Sie können eine gescannte PDF Datei mit OCR in Excel konvertieren, indem Sie die folgenden Schritte ausführen:

  1. Erstellen Sie ein AsposeOcr Klassenobjekt.
  2. Geben Sie die Einstellungen mit der Klasse DocumentRecognitionSettings an.
  3. Erkennen Sie die gescannte PDF Datei mit der methode RecognizePdf.
  4. Speichern Sie das ausgegebene OCR-Ergebnis als Excel Datei.

Das folgende code snippet erläutert, wie Sie eine gescannte PDF Datei programmgesteuert in Java in eine Excel Datei konvertieren:

// Pfad der gescannten PDF Datei
String fullPath = "scanned.pdf";

// AsposeOcr Klassenobjekt initialisieren
AsposeOCRPdf api = new AsposeOCRPdf();

// Initialisieren Sie das DocumentRecognitionSettings Klassenobjekt
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Bilder aus PDF erkennen           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Ergebnis als Excel XLSX Datei speichern
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können die API zum Erstellen gescannter PDF zu Excel Konverter durch OCR-Vorgänge ohne Einschränkungen testen, indem Sie eine kostenlose temporäre Lizenz anfordern.

Fazit

In diesem Artikel haben Sie verstanden, wie Sie eine gescannte PDF Datei mit der OCR Funktion programmgesteuert in Java in eine Excel Datei konvertieren. Werfen Sie außerdem einen Blick auf andere OCR-bezogene Funktionen, indem Sie die Dokumentation besuchen. Fühlen Sie sich frei, uns im Forum zu schreiben, falls Sie Bedenken haben.

Siehe auch