Ibland skapas PDF-filerna med bilder från en skanner eller kameraenhet. I vissa situationer kan du behöva konvertera en skannad PDF-fil till en sökbar PDF-fil med OCR, så att du kan arbeta med textinnehållet i PDF-filen. I enlighet med det tar den här artikeln upp hur man konverterar en skannad PDF till en sökbar PDF med OCR-funktion programmatiskt med Java.
- Skannad PDF till sökbar PDF med OCR – Java API Installation
- Konvertera skannad PDF till sökbar PDF Programmatiskt i Java
Skannad PDF till sökbar PDF med OCR – Java API Installation
Du kan optiskt känna igen texten i en PDF-fil med OCR-funktionen med Aspose.OCR for Java API. Installera helt enkelt API:et genom att ladda ner JAR-filen från avsnittet New Releases eller använda Maven-specifikationerna nedan:
Förvar:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Beroende:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
Konvertera skannad PDF till sökbar PDF Programmatiskt med Java
Du kan känna igen innehållet i en skannad PDF-fil med OCR. Detta gör att du kan konvertera en skannad PDF-fil till ett sökbart PDF-dokument med följande steg:
- Skapa ett klassobjekt AsposeOcr.
- Känn igen data från skannade PDF-filer med metoden RecognizePdf.
- Ställ in sidnummer för OCR-igenkänning med klassen DocumentRecognitionSettings.
- Spara OCR-resultat som en sökbar PDF-fil.
Följande kodavsnitt beskriver hur man konverterar en skannad PDF-fil till en sökbar PDF-fil programmatiskt i Java:
// Skannad flersidig PDF-sökväg
String fullPath = "multi_page.pdf";
// Initiera AsposeOcr-klassobjektet
AsposeOCRPdf api = new AsposeOCRPdf();
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// Känn igen bilder från PDF
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// Spara resultatet som sökbar PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);
Få gratis utvärderingslicens
Du kan utvärdera funktionen för att känna igen text i skannad PDF med OCR-operationer utan några begränsningar genom att begära en gratis tillfällig licens.
Slutsats
I den här artikeln har du lärt dig hur du konverterar en skannad PDF-fil till ett sökbart PDF-dokument med OCR-funktionen programmatiskt i Java. Dessutom kan du ta en titt på andra OCR-relaterade funktioner i API:t genom att besöka dokumentationen. Skriv gärna till oss på forumet om du har några problem.