Naskenováno do prohledávatelného PDF Java

Někdy jsou soubory PDF vytvořeny pomocí obrázků ze skeneru nebo fotoaparátu. V určitých situacích může být nutné převést naskenovaný soubor PDF na soubor PDF s možností vyhledávání pomocí OCR, abyste mohli pracovat s textovým obsahem v souboru PDF. V souladu s tím tento článek popisuje, jak převést naskenovaný PDF na prohledávatelný PDF pomocí funkce OCR programově pomocí Java.

Scanned PDF to Searchable PDF by OCR – Java API Installation

Text v souboru PDF můžete opticky rozpoznat pomocí funkce OCR pomocí Aspose.OCR for Java API. Jednoduše nainstalujte API stažením souboru JAR ze sekce New Releases nebo pomocí níže uvedených specifikací Maven:

úložiště:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Závislost:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Převeďte naskenované PDF na prohledávatelné PDF programově pomocí Java

Obsah naskenovaného souboru PDF můžete rozpoznat pomocí OCR. To vám umožní převést naskenovaný soubor PDF na dokument PDF s možností vyhledávání pomocí následujících kroků:

  1. Vytvořte objekt třídy AsposeOcr.
  2. Rozpoznejte data z naskenovaného PDF metodou RecognizePdf.
  3. Nastavte čísla stránek pro rozpoznávání OCR pomocí třídy DocumentRecognitionSettings.
  4. Uložte výstupní výsledek OCR jako soubor PDF s možností vyhledávání.

Následující úryvek kódu vysvětluje, jak převést naskenovaný soubor PDF na soubor PDF s možností vyhledávání v Javě:

// Naskenovaná vícestránková cesta PDF
String fullPath = "multi_page.pdf";

// Inicializujte objekt třídy AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Rozpoznejte obrázky z PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Uložit výsledek jako PDF s možností vyhledávání
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Získejte bezplatnou zkušební licenci

Funkci rozpoznávání textu v naskenovaném PDF s operacemi OCR můžete bez jakýchkoli omezení vyhodnotit, když si vyžádáte bezplatnou dočasnou licenci.

Závěr

V tomto článku jste se naučili, jak převést naskenovaný soubor PDF na dokument PDF s možností vyhledávání pomocí funkce OCR programově v Javě. Kromě toho se můžete podívat na další funkce API související s OCR návštěvou dokumentace. V případě jakýchkoliv obav nám neváhejte napsat na fórum.

Viz také