Naskenované PDF do Word Java OCR

Soubory PDF vytvořené pomocí fotoaparátu nebo skeneru obsahují naskenované obrázky. Takové obrázky nelze zpracovat pro výběr nebo úpravu textu, takže možná budete muset převést naskenované PDF do dokumentů aplikace Word ve formátu DOCX nebo DOC. Tento článek popisuje, jak převést naskenovaný soubor PDF na soubor aplikace Word pomocí programu Java.

Java API pro převod naskenovaného PDF do souboru Word

S naskenovanými dokumenty PDF můžete manipulovat pomocí operací OCR pomocí Aspose.OCR for Java API a poté programově vygenerovat soubor Word pomocí Aspose.Words for Java API. Jednoduše nastavte rozhraní API stažením souborů JAR ze sekce Stahování nebo pomocí následujících specifikací Maven:

úložiště:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Závislost:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Převeďte naskenované PDF do dokumentu Word programově pomocí Java

Naskenovaný soubor PDF můžete převést na dokument aplikace Word pomocí techniky optického rozpoznávání znaků. Jedná se o dvoustupňový proces, kdy se naskenovaný soubor PDF převede na text a poté se text převede na dokument aplikace Word ve formátu DOC nebo DOCX. Chcete-li převést naskenovaný soubor PDF do dokumentu aplikace Word, musíte provést následující kroky:

  1. Vytvořte instanci objektu třídy AsposeOCRPdf.
  2. Rozpoznejte obrázky ze souboru PDF pomocí objektu typu DocumentRecognitionSettings.
  3. Zadejte objekt třídy String a uložte text.
  4. Inicializujte nový dokument aplikace Word pomocí třídy Document.
  5. Nastavte písma a formátování odstavců.
  6. Nakonec zapište výstupní dokument aplikace Word na disk jako soubor DOCX nebo DOC.

Níže uvedený úryvek kódu ukazuje, jak převést naskenovaný soubor PDF na dokument aplikace Word jako soubor DOC nebo DOCX pomocí programu Java:

// Inicializujte instanci AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Získejte soubor PDF pro rozpoznání     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Rozpoznejte vstupní soubor PDF pomocí metody RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Vytisknout výsledek
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Inicializujte dokument aplikace Word pomocí třídy Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Určete formátování písma
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Určete formátování odstavce
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Uložit výstupní dokument aplikace Word. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Získejte bezplatnou dočasnou licenci

Rozhraní API můžete hodnotit bez jakýchkoli omezení, když požádáte o bezplatnou dočasnou licenci.

Závěr

V tomto článku jste prozkoumali, jak převést naskenovaný soubor PDF na dokument aplikace Word jako soubor DOCX nebo DOC pomocí programu Java. Kromě toho se můžete podívat na další funkce související s OCR návštěvou dokumentace. V případě jakýchkoliv obav nás neváhejte kontaktovat na fóru.

Viz také

Info: Mohlo by vás zajímat další Java API (Aspose.Slides for Java), které umožňuje převádět prezentace (do PDF, word dokumentů atd.) a importovat obrázky nebo jiných dokumentů do prezentací.