Skannad PDF till Word Java OCR

PDF-filerna som skapats med en kamera eller skannerenhet innehåller skannade bilder. Sådana bilder kan inte bearbetas för texturval eller redigering, så du kan behöva konvertera skannade PDF-filer till Word-dokument i formatet DOCX eller DOC. Den här artikeln beskriver hur du konverterar en skannad PDF-fil till en Word-fil programmatiskt med Java.

Java API för att konvertera skannad PDF till Word-fil

Du kan manipulera skannade PDF-dokument med OCR-operationer med Aspose.OCR for Java API och sedan generera en Word-fil med Aspose.Words for Java API programmatiskt. Konfigurera helt enkelt API:erna genom att ladda ner JAR-filerna från avsnittet Nedladdningar eller använda följande Maven-specifikationer:

Förvar:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Beroende:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Konvertera skannade PDF-filer till Word-dokument Programmatiskt med Java

Du kan konvertera en skannad PDF-fil till ett Word-dokument med optisk teckenigenkänningsteknik. Detta är en tvåstegsprocess där den skannade PDF-filen konverteras till text och sedan konverteras texten till ett Word-dokument i DOC- eller DOCX-format. Du måste följa stegen nedan för att konvertera skannade PDF-filer till ett Word-dokument:

  1. Instantiera klassobjektet AsposeOCRPdf.
  2. Känn igen bilder från PDF-fil med hjälp av objekt av typen DocumentRecognitionSettings.
  3. Ange klassobjektet String och spara texten.
  4. Initiera ett nytt word-dokument med klassen Dokument.
  5. Ställ in typsnitt och styckeformatering.
  6. Skriv slutligen Word-dokumentet till disken som DOCX- eller DOC-fil.

Kodavsnittet nedan visar hur man konverterar en skannad PDF-fil till ett Word-dokument som DOC- eller DOCX-fil programmatiskt med Java:

// Initiera en instans av AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Hämta PDF-fil för att känna igen     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Känn igen PDF-filen med RecognizePdf-metoden
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Skriv ut resultat
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Initiera word-dokument med klassen Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Ange teckensnittsformatering
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Ange styckeformatering
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Spara utdata Word-dokument. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Få gratis tillfällig licens

Du kan utvärdera API:erna utan några begränsningar genom att begära en gratis temporär licens.

Slutsats

I den här artikeln har du utforskat hur du konverterar en skannad PDF-fil till ett Word-dokument som DOCX- eller DOC-fil programmatiskt med Java. Dessutom kan du ta en titt på andra OCR-relaterade funktioner genom att besöka dokumentationen. Om du har några funderingar är du välkommen att kontakta oss på forumet.

Se även

Info: Du kanske är intresserad av ett annat Java API (Aspose.Slides for Java) som låter dig konvertera presentationer (till PDF-filer, word-dokument, etc.) och importera bilder ] eller andra dokument till presentationer.