In durchsuchbares PDF-Java gescannt

Manchmal werden die PDF Dateien mit Bildern von einem Scanner oder Kameragerät erstellt. In bestimmten Situationen müssen Sie möglicherweise eine gescannte PDF Datei mit OCR in eine durchsuchbare PDF Datei konvertieren, damit Sie mit Textinhalten in der PDF Datei arbeiten können. Dementsprechend behandelt dieser Artikel, wie Sie eine gescannte PDF Datei per OCR Funktion programmgesteuert mit Java in eine durchsuchbare PDF Datei konvertieren.

Gescanntes PDF in durchsuchbares PDF durch OCR – Java API Installation

Sie können den Text in einer PDF Datei mit der OCR Funktion mit der API Aspose.OCR for Java optisch erkennen. Installieren Sie einfach die API, indem Sie die JAR Datei aus dem Abschnitt New Releases herunterladen oder die folgenden Maven-Spezifikationen verwenden:

Repository:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Abhängigkeit:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Konvertieren Sie gescannte PDF Dateien programmgesteuert in durchsuchbare PDF Dateien mit Java

Sie können den Inhalt einer gescannten PDF Datei mit OCR erkennen. Dadurch können Sie eine gescannte PDF Datei mit den folgenden Schritten in ein durchsuchbares PDF Dokument konvertieren:

  1. Erstellen Sie ein AsposeOcr Klassenobjekt.
  2. Erkennen Sie die Daten aus gescannten PDFs mit der methode RecognizePdf.
  3. Legen Sie mithilfe der Klasse DocumentRecognitionSettings Seitenzahlen für die OCR-Erkennung fest.
  4. Speichern Sie das OCR-Ergebnis als durchsuchbare PDF Datei.

Das folgende code snippet erläutert, wie eine gescannte PDF Datei programmgesteuert in Java in eine durchsuchbare PDF Datei konvertiert wird:

// Gescannter mehrseitiger PDF-Pfad
String fullPath = "multi_page.pdf";

// AsposeOcr Klassenobjekt initialisieren
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Bilder aus PDF erkennen           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Ergebnis als durchsuchbares PDF speichern
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können die Funktion zum Erkennen von Text in gescannten PDFs mit OCR-Vorgängen ohne Einschränkungen testen, indem Sie eine kostenlose temporäre Lizenz anfordern.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie eine gescannte PDF Datei mit der OCR Funktion programmgesteuert in Java in ein durchsuchbares PDF Dokument konvertieren. Darüber hinaus können Sie sich andere OCR-bezogene Funktionen der API ansehen, indem Sie die Dokumentation besuchen. Bitte zögern Sie nicht, uns im Forum zu schreiben, falls Sie Bedenken haben.

Siehe auch