Zeskanowano do przeszukiwalnego pliku PDF Java

Czasami pliki PDF są tworzone przy użyciu obrazów ze skanera lub aparatu fotograficznego. W niektórych sytuacjach może być konieczne przekonwertowanie zeskanowanego pliku PDF na plik PDF z możliwością wyszukiwania za pomocą funkcji OCR, aby móc pracować z zawartością tekstową pliku PDF. Zgodnie z tym w tym artykule omówiono, jak przekonwertować zeskanowany plik PDF na plik PDF z możliwością przeszukiwania za pomocą funkcji OCR programowo przy użyciu języka Java.

Zeskanowany plik PDF do przeszukiwalnego pliku PDF przez OCR — instalacja Java API

Możesz optycznie rozpoznać tekst w pliku PDF za pomocą funkcji OCR przy użyciu Aspose.OCR for Java API. Po prostu zainstaluj API, pobierając plik JAR z sekcji New Releases lub korzystając ze specyfikacji Mavena poniżej:

Magazyn:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Zależność:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Konwertuj zeskanowany plik PDF na plik PDF z możliwością wyszukiwania Programowo przy użyciu języka Java

Możesz rozpoznać zawartość zeskanowanego pliku PDF za pomocą OCR. Umożliwia to konwersję zeskanowanego pliku PDF na dokument PDF z możliwością wyszukiwania, wykonując następujące czynności:

  1. Utwórz obiekt klasy AsposeOcr.
  2. Rozpoznaj dane z zeskanowanego pliku PDF metodą RecognizePdf.
  3. Ustaw numery stron do rozpoznawania OCR za pomocą klasy DocumentRecognitionSettings.
  4. Zapisz wyjściowy wynik OCR jako przeszukiwalny plik PDF.

Poniższy fragment kodu wyjaśnia, jak programowo przekonwertować zeskanowany plik PDF na plik PDF z możliwością wyszukiwania w Javie:

// Zeskanowana wielostronicowa ścieżka PDF
String fullPath = "multi_page.pdf";

// Zainicjuj obiekt klasy AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Rozpoznawanie obrazów z plików PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Zapisz wynik jako przeszukiwalny plik PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Uzyskaj bezpłatną licencję ewaluacyjną

Możesz ocenić tę funkcję, aby rozpoznawać tekst w zeskanowanym pliku PDF z operacjami OCR bez żadnych ograniczeń, prosząc o darmową licencję tymczasową.

Wniosek

W tym artykule nauczyłeś się programowo konwertować zeskanowany plik PDF na dokument PDF z możliwością wyszukiwania za pomocą funkcji OCR w Javie. Ponadto możesz zapoznać się z innymi funkcjami API związanymi z OCR, odwiedzając dokumentację. Jeśli masz jakiekolwiek wątpliwości, napisz do nas na forum.

Zobacz też