Converti PDF scansionato in PDF ricercabile con OCR in Java

A volte i file PDF vengono creati utilizzando le immagini di uno scanner o di una fotocamera. In determinate situazioni, potrebbe essere necessario convertire un file PDF scansionato in un file PDF ricercabile con OCR, in modo da poter lavorare con i contenuti di testo nel file PDF. In base a ciò, questo articolo illustra come convertire un PDF scansionato in un PDF ricercabile tramite la funzione OCR a livello di codice utilizzando Java.

PDF scansionato in PDF ricercabile tramite OCR – Installazione API Java
Converti PDF scansionato in PDF ricercabile in modo programmatico in Java

PDF scansionato in PDF ricercabile tramite OCR – Installazione API Java

È possibile riconoscere otticamente il testo in un file PDF con la funzione OCR utilizzando l’API Aspose.OCR for Java. Installa semplicemente l’API scaricando il file JAR dalla sezione Nuove versioni o utilizzando le specifiche Maven di seguito:

Archivio:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dipendenza:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Converti PDF scansionato in PDF ricercabile in modo programmatico utilizzando Java

È possibile riconoscere il contenuto di un file PDF scansionato con l’OCR. Ciò consente di convertire un file PDF scansionato in un documento PDF ricercabile con i seguenti passaggi:

Crea un oggetto di classe AsposeOcr.
Riconosci i dati dal PDF scansionato con il metodo RecognizePdf.
Impostare i numeri di pagina per il riconoscimento OCR utilizzando la classe DocumentRecognitionSettings.
Salva il risultato OCR di output come file PDF ricercabile.

Il seguente frammento di codice elabora come convertire un PDF scansionato in un file PDF ricercabile a livello di codice in Java:

// Percorso PDF multipagina scansionato
String fullPath = "multi_page.pdf";

// Inizializza l'oggetto della classe AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Riconosci le immagini da PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Salva il risultato come PDF ricercabile
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Ottieni la licenza di valutazione gratuita

Puoi valutare la funzionalità per riconoscere il testo nel PDF scansionato con operazioni OCR senza alcuna limitazione richiedendo una licenza temporanea gratuita.

Conclusione

In questo articolo, hai imparato come convertire un file PDF scansionato in un documento PDF ricercabile con la funzione OCR a livello di codice in Java. Inoltre, puoi dare un’occhiata ad altre funzionalità dell’API relative all’OCR visitando la documentazione. Non esitare a scriverci sul forum in caso di dubbi.

Guarda anche

Riconosci il testo eseguendo l’OCR sull’immagine dall’URL con Java

PDF scansionato in PDF ricercabile tramite OCR – Installazione API Java#

Converti PDF scansionato in PDF ricercabile in modo programmatico utilizzando Java#

Ottieni la licenza di valutazione gratuita#

Conclusione#

Guarda anche#

PDF scansionato in PDF ricercabile tramite OCR – Installazione API Java

Converti PDF scansionato in PDF ricercabile in modo programmatico utilizzando Java

Ottieni la licenza di valutazione gratuita

Conclusione

Guarda anche