Scansione in PDF ricercabile Java

A volte i file PDF vengono creati utilizzando le immagini di uno scanner o di una fotocamera. In determinate situazioni, potrebbe essere necessario convertire un file PDF scansionato in un file PDF ricercabile con OCR, in modo da poter lavorare con i contenuti di testo nel file PDF. In base a ciò, questo articolo illustra come convertire un PDF scansionato in un PDF ricercabile tramite la funzione OCR a livello di codice utilizzando Java.

PDF scansionato in PDF ricercabile tramite OCR – Installazione API Java

È possibile riconoscere otticamente il testo in un file PDF con la funzione OCR utilizzando l’API Aspose.OCR for Java. Installa semplicemente l’API scaricando il file JAR dalla sezione Nuove versioni o utilizzando le specifiche Maven di seguito:

Archivio:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dipendenza:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Converti PDF scansionato in PDF ricercabile in modo programmatico utilizzando Java

È possibile riconoscere il contenuto di un file PDF scansionato con l’OCR. Ciò consente di convertire un file PDF scansionato in un documento PDF ricercabile con i seguenti passaggi:

  1. Crea un oggetto di classe AsposeOcr.
  2. Riconosci i dati dal PDF scansionato con il metodo RecognizePdf.
  3. Impostare i numeri di pagina per il riconoscimento OCR utilizzando la classe DocumentRecognitionSettings.
  4. Salva il risultato OCR di output come file PDF ricercabile.

Il seguente frammento di codice elabora come convertire un PDF scansionato in un file PDF ricercabile a livello di codice in Java:

// Percorso PDF multipagina scansionato
String fullPath = "multi_page.pdf";

// Inizializza l'oggetto della classe AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Riconosci le immagini da PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Salva il risultato come PDF ricercabile
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Ottieni la licenza di valutazione gratuita

Puoi valutare la funzionalità per riconoscere il testo nel PDF scansionato con operazioni OCR senza alcuna limitazione richiedendo una licenza temporanea gratuita.

Conclusione

In questo articolo, hai imparato come convertire un file PDF scansionato in un documento PDF ricercabile con la funzione OCR a livello di codice in Java. Inoltre, puoi dare un’occhiata ad altre funzionalità dell’API relative all’OCR visitando la documentazione. Non esitare a scriverci sul forum in caso di dubbi.

Guarda anche