PDF-filerna som skapats med en kamera eller skannerenhet innehåller skannade bilder. Sådana bilder kan inte bearbetas för texturval eller redigering, så du kan behöva konvertera skannade PDF-filer till Word-dokument i formatet DOCX eller DOC. Den här artikeln beskriver hur du konverterar en skannad PDF-fil till en Word-fil programmatiskt med Java.
- Java API för att konvertera skannad PDF till Word-fil
- Konvertera skannade PDF-filer till Word-dokument Programmatiskt med Java
Java API för att konvertera skannad PDF till Word-fil
Du kan manipulera skannade PDF-dokument med OCR-operationer med Aspose.OCR for Java API och sedan generera en Word-fil med Aspose.Words for Java API programmatiskt. Konfigurera helt enkelt API:erna genom att ladda ner JAR-filerna från avsnittet Nedladdningar eller använda följande Maven-specifikationer:
Förvar:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Beroende:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.11</version>
<artifactId>aspose-words</artifactId>
<version>21.12</version>
</dependency>
Konvertera skannade PDF-filer till Word-dokument Programmatiskt med Java
Du kan konvertera en skannad PDF-fil till ett Word-dokument med optisk teckenigenkänningsteknik. Detta är en tvåstegsprocess där den skannade PDF-filen konverteras till text och sedan konverteras texten till ett Word-dokument i DOC- eller DOCX-format. Du måste följa stegen nedan för att konvertera skannade PDF-filer till ett Word-dokument:
- Instantiera klassobjektet AsposeOCRPdf.
- Känn igen bilder från PDF-fil med hjälp av objekt av typen DocumentRecognitionSettings.
- Ange klassobjektet String och spara texten.
- Initiera ett nytt word-dokument med klassen Dokument.
- Ställ in typsnitt och styckeformatering.
- Skriv slutligen Word-dokumentet till disken som DOCX- eller DOC-fil.
Kodavsnittet nedan visar hur man konverterar en skannad PDF-fil till ett Word-dokument som DOC- eller DOCX-fil programmatiskt med Java:
// Initiera en instans av AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();
// Hämta PDF-fil för att känna igen
String PdfPath = "multi_page.pdf";
DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);
// Känn igen PDF-filen med RecognizePdf-metoden
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);
String text = "";
// Skriv ut resultat
for(RecognitionResult page : result) {
text.concat(page.recognitionAreasText.toString());
}
// Initiera word-dokument med klassen Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Ange teckensnittsformatering
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");
// Ange styckeformatering
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);
// Spara utdata Word-dokument.
doc.save("Scanned_PDF_to_Word_Java.docx");
Få gratis tillfällig licens
Du kan utvärdera API:erna utan några begränsningar genom att begära en gratis temporär licens.
Slutsats
I den här artikeln har du utforskat hur du konverterar en skannad PDF-fil till ett Word-dokument som DOCX- eller DOC-fil programmatiskt med Java. Dessutom kan du ta en titt på andra OCR-relaterade funktioner genom att besöka dokumentationen. Om du har några funderingar är du välkommen att kontakta oss på forumet.
Se även
Info: Du kanske är intresserad av ett annat Java API (Aspose.Slides for Java) som låter dig konvertera presentationer (till PDF-filer, word-dokument, etc.) och importera bilder ] eller andra dokument till presentationer.