PDF scansionato in Word Java OCR

I file PDF creati utilizzando una fotocamera o un dispositivo scanner contengono immagini scansionate. Tali immagini non possono essere elaborate per la selezione o la modifica del testo, quindi potrebbe essere necessario convertire i PDF scansionati in documenti Word in formato DOCX o DOC. Questo articolo illustra come convertire un file PDF scansionato in un file Word a livello di codice utilizzando Java.

API Java per convertire PDF scansionati in file Word

È possibile manipolare documenti PDF scansionati con operazioni OCR utilizzando l’API Aspose.OCR per Java e quindi generare un file Word con l’API Aspose.Words per Java a livello di codice. Basta configurare le API scaricando i file JAR dalla sezione Download o utilizzando le seguenti specifiche Maven:

Archivio:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dipendenza:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Converti PDF scansionato in documenti Word in modo programmatico utilizzando Java

È possibile convertire un file PDF scansionato in un documento Word con la tecnica di riconoscimento ottico dei caratteri. Questo è un processo in due fasi in cui il PDF scansionato viene convertito in testo e quindi il testo viene convertito in un documento Word in formato DOC o DOCX. È necessario seguire i passaggi seguenti per convertire i PDF scansionati in un documento Word:

  1. Istanziare l’oggetto classe AsposeOCRPdf.
  2. Riconosci le immagini dal file PDF utilizzando l’oggetto di tipo DocumentRecognitionSettings.
  3. Specificare l’oggetto classe String e salvare il testo.
  4. Inizializza un nuovo documento Word con la classe Document.
  5. Imposta la formattazione dei caratteri e dei paragrafi.
  6. Infine, scrivi il documento Word di output su disco come file DOCX o DOC.

Il frammento di codice seguente mostra come convertire un file PDF scansionato in un documento Word come file DOC o DOCX a livello di codice utilizzando Java:

// Inizializza un'istanza di AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Ottieni file PDF per riconoscere     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Riconosci il file PDF di input con il metodo RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Risultato di stampa
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Inizializza il documento di Word con la classe Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Specificare la formattazione del carattere
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Specificare la formattazione del paragrafo
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Salva il documento Word di output. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Ottieni una licenza temporanea gratuita

Puoi valutare le API senza alcuna limitazione richiedendo una licenza temporanea gratuita.

Conclusione

In questo articolo, hai esplorato come convertire un file PDF scansionato in un documento Word come file DOCX o DOC a livello di codice utilizzando Java. Inoltre, puoi dare un’occhiata ad altre funzionalità relative all’OCR visitando la documentazione. In caso di dubbi, non esitare a contattarci al forum.

Guarda anche

Informazioni: potresti essere interessato a un’altra API Java (Aspose.Slides for Java) che ti consente di convertire le presentazioni (in PDF, documenti word, ecc.) e importare immagini o altri documenti in presentazioni.