Czasami pliki PDF są tworzone przy użyciu obrazów ze skanera lub aparatu fotograficznego. W niektórych sytuacjach może być konieczne przekonwertowanie zeskanowanego pliku PDF na plik PDF z możliwością wyszukiwania za pomocą funkcji OCR, aby móc pracować z zawartością tekstową pliku PDF. Zgodnie z tym w tym artykule omówiono, jak przekonwertować zeskanowany plik PDF na plik PDF z możliwością przeszukiwania za pomocą funkcji OCR programowo przy użyciu języka Java.
- Zeskanowany plik PDF do przeszukiwalnego pliku PDF przez OCR — instalacja Java API
- Konwertuj zeskanowany plik PDF na plik PDF z możliwością wyszukiwania Programowo w Javie
Zeskanowany plik PDF do przeszukiwalnego pliku PDF przez OCR — instalacja Java API
Możesz optycznie rozpoznać tekst w pliku PDF za pomocą funkcji OCR przy użyciu Aspose.OCR for Java API. Po prostu zainstaluj API, pobierając plik JAR z sekcji New Releases lub korzystając ze specyfikacji Mavena poniżej:
Magazyn:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Zależność:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
Konwertuj zeskanowany plik PDF na plik PDF z możliwością wyszukiwania Programowo przy użyciu języka Java
Możesz rozpoznać zawartość zeskanowanego pliku PDF za pomocą OCR. Umożliwia to konwersję zeskanowanego pliku PDF na dokument PDF z możliwością wyszukiwania, wykonując następujące czynności:
- Utwórz obiekt klasy AsposeOcr.
- Rozpoznaj dane z zeskanowanego pliku PDF metodą RecognizePdf.
- Ustaw numery stron do rozpoznawania OCR za pomocą klasy DocumentRecognitionSettings.
- Zapisz wyjściowy wynik OCR jako przeszukiwalny plik PDF.
Poniższy fragment kodu wyjaśnia, jak programowo przekonwertować zeskanowany plik PDF na plik PDF z możliwością wyszukiwania w Javie:
// Zeskanowana wielostronicowa ścieżka PDF
String fullPath = "multi_page.pdf";
// Zainicjuj obiekt klasy AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// Rozpoznawanie obrazów z plików PDF
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// Zapisz wynik jako przeszukiwalny plik PDF
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);
Uzyskaj bezpłatną licencję ewaluacyjną
Możesz ocenić tę funkcję, aby rozpoznawać tekst w zeskanowanym pliku PDF z operacjami OCR bez żadnych ograniczeń, prosząc o darmową licencję tymczasową.
Wniosek
W tym artykule nauczyłeś się programowo konwertować zeskanowany plik PDF na dokument PDF z możliwością wyszukiwania za pomocą funkcji OCR w Javie. Ponadto możesz zapoznać się z innymi funkcjami API związanymi z OCR, odwiedzając dokumentację. Jeśli masz jakiekolwiek wątpliwości, napisz do nas na forum.