Skannat till sökbar PDF Java

Ibland skapas PDF-filerna med bilder från en skanner eller kameraenhet. I vissa situationer kan du behöva konvertera en skannad PDF-fil till en sökbar PDF-fil med OCR, så att du kan arbeta med textinnehållet i PDF-filen. I enlighet med det tar den här artikeln upp hur man konverterar en skannad PDF till en sökbar PDF med OCR-funktion programmatiskt med Java.

Skannad PDF till sökbar PDF med OCR – Java API Installation

Du kan optiskt känna igen texten i en PDF-fil med OCR-funktionen med Aspose.OCR for Java API. Installera helt enkelt API:et genom att ladda ner JAR-filen från avsnittet New Releases eller använda Maven-specifikationerna nedan:

Förvar:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Beroende:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Konvertera skannad PDF till sökbar PDF Programmatiskt med Java

Du kan känna igen innehållet i en skannad PDF-fil med OCR. Detta gör att du kan konvertera en skannad PDF-fil till ett sökbart PDF-dokument med följande steg:

  1. Skapa ett klassobjekt AsposeOcr.
  2. Känn igen data från skannade PDF-filer med metoden RecognizePdf.
  3. Ställ in sidnummer för OCR-igenkänning med klassen DocumentRecognitionSettings.
  4. Spara OCR-resultat som en sökbar PDF-fil.

Följande kodavsnitt beskriver hur man konverterar en skannad PDF-fil till en sökbar PDF-fil programmatiskt i Java:

// Skannad flersidig PDF-sökväg
String fullPath = "multi_page.pdf";

// Initiera AsposeOcr-klassobjektet
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Känn igen bilder från PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Spara resultatet som sökbar PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Få gratis utvärderingslicens

Du kan utvärdera funktionen för att känna igen text i skannad PDF med OCR-operationer utan några begränsningar genom att begära en gratis tillfällig licens.

Slutsats

I den här artikeln har du lärt dig hur du konverterar en skannad PDF-fil till ett sökbart PDF-dokument med OCR-funktionen programmatiskt i Java. Dessutom kan du ta en titt på andra OCR-relaterade funktioner i API:t genom att besöka dokumentationen. Skriv gärna till oss på forumet om du har några problem.

Se även