Někdy jsou soubory PDF vytvořeny pomocí obrázků ze skeneru nebo fotoaparátu. V určitých situacích může být nutné převést naskenovaný soubor PDF na soubor PDF s možností vyhledávání pomocí OCR, abyste mohli pracovat s textovým obsahem v souboru PDF. V souladu s tím tento článek popisuje, jak převést naskenovaný PDF na prohledávatelný PDF pomocí funkce OCR programově pomocí Java.
- Scanned PDF to Searchable PDF by OCR – Java API Installation
- Převeďte naskenované PDF na prohledávatelné PDF programově v Javě
Scanned PDF to Searchable PDF by OCR – Java API Installation
Text v souboru PDF můžete opticky rozpoznat pomocí funkce OCR pomocí Aspose.OCR for Java API. Jednoduše nainstalujte API stažením souboru JAR ze sekce New Releases nebo pomocí níže uvedených specifikací Maven:
úložiště:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Závislost:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
Převeďte naskenované PDF na prohledávatelné PDF programově pomocí Java
Obsah naskenovaného souboru PDF můžete rozpoznat pomocí OCR. To vám umožní převést naskenovaný soubor PDF na dokument PDF s možností vyhledávání pomocí následujících kroků:
- Vytvořte objekt třídy AsposeOcr.
- Rozpoznejte data z naskenovaného PDF metodou RecognizePdf.
- Nastavte čísla stránek pro rozpoznávání OCR pomocí třídy DocumentRecognitionSettings.
- Uložte výstupní výsledek OCR jako soubor PDF s možností vyhledávání.
Následující úryvek kódu vysvětluje, jak převést naskenovaný soubor PDF na soubor PDF s možností vyhledávání v Javě:
// Naskenovaná vícestránková cesta PDF
String fullPath = "multi_page.pdf";
// Inicializujte objekt třídy AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// Rozpoznejte obrázky z PDF
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// Uložit výsledek jako PDF s možností vyhledávání
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);
Získejte bezplatnou zkušební licenci
Funkci rozpoznávání textu v naskenovaném PDF s operacemi OCR můžete bez jakýchkoli omezení vyhodnotit, když si vyžádáte bezplatnou dočasnou licenci.
Závěr
V tomto článku jste se naučili, jak převést naskenovaný soubor PDF na dokument PDF s možností vyhledávání pomocí funkce OCR programově v Javě. Kromě toho se můžete podívat na další funkce API související s OCR návštěvou dokumentace. V případě jakýchkoliv obav nám neváhejte napsat na fórum.