Technologia optycznego rozpoznawania znaków (OCR) odgrywa kluczową rolę w digitalizacji tekstu drukowanego, zeskanowanego lub pisanego odręcznie z różnych źródeł, w tym dokumentów PDF. W tym poście na blogu dowiemy się, jak OCR dokumentów PDF i wyodrębniać tekst z plików PDF w Python.
W tym artykule omówiono następujące tematy:
- PDF do TXT Python OCR API
- OCR PDF i wyodrębnij tekst z pliku PDF
- Zapisz zeskanowany plik PDF do tekstu
- Darmowe zasoby edukacyjne
PDF do TXT — API Python OCR
Będziemy używać Aspose.OCR for Python do wykonywania OCR na dokumentach PDF i wyodrębniania tekstu z plików PDF. Aspose.OCR for Python to potężny interfejs API optycznego rozpoznawania znaków (OCR), który rozpoznaje tekst ze zeskanowanych obrazów, zdjęć ze smartfonów, zrzutów ekranu i obszarów obrazów. Interfejs API zwraca rozpoznane wyniki tekstowe w najpopularniejszych formatach wymiany dokumentów i danych, w tym PDF, XML, JSON i zwykły tekst.
Oprócz konwersji obrazów na tekst, Aspose.OCR for Python może także tworzyć przeszukiwalne pliki PDF na podstawie skanów. Interfejs API może również automatycznie poprawiać błędy ortograficzne w rozpoznawanych tekstach, dzięki czemu idealnie nadaje się do różnych zastosowań.
Proszę pobierz pakiet lub zainstaluj API z PyPI, używając następującego polecenia pip w konsoli:
pip install aspose-ocr-python-net
Python OCR PDF - Wyodrębnij tekst z pliku PDF w Python
Możemy wykonać OCR na dokumentach PDF i wyodrębnić rozpoznany tekst, wykonując czynności podane poniżej:
- Utwórz instancję klasy AsposeOcr.
- Zainicjuj obiekt klasy DocumentRecognitionSettings.
- Dodaj plik PDF do partii rozpoznawania.
- Następnie wywołaj metodę rozpoznawania().
- Na koniec pokaż zidentyfikowany tekst, korzystając z klasy RecognitionResult.
Poniższy przykładowy kod pokazuje, jak OCR dokumentów PDF i wyodrębniać tekst z plików PDF w Python.
# Ten przykład kodu demonstruje, jak rozpoznać i wyodrębnić tekst ze zeskanowanego dokumentu PDF w języku Python.
import aspose.ocr as ocr
# Zainicjuj silnik OCR
api = ocr.AsposeOcr()
# Zainicjuj ustawienia rozpoznawania
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Dodaj plik do partii rozpoznawania
files = ocr.OcrInput(ocr.InputType.PDF)
# Uzyskaj dostęp do zeskanowanego pliku PDF i ustaw numer strony oraz całkowitą liczbę stron
files.add("C:\\Files\\sample.pdf", 0, 1)
# Rozpoznaj tekst
result = api.recognize(files , settings)
# Wydrukuj wynik rozpoznania
print(result[0].recognition_text)
Python OCR PDF — zapisz zeskanowany plik PDF jako tekst w języku Python
Możemy wykonać OCR na dokumentach PDF i zapisać rozpoznany tekst, wykonując poniższe czynności:
- Utwórz instancję klasy AsposeOcr.
- Zainicjuj obiekt klasy DocumentRecognitionSettings.
- Dodaj plik PDF do partii rozpoznawania.
- Następnie wywołaj metodę rozpoznawania().
- Na koniec zapisz tekst za pomocą metody savemultipagedocument(). Jako argumenty pobiera ścieżkę pliku wyjściowego, obiekty SaveFormat i RecognitionResult.
Poniższy przykładowy kod pokazuje, jak OCR dokumentów PDF i zapisać rozpoznany tekst w Python.
# Ten przykład kodu demonstruje, jak zapisać rozpoznany i wyodrębniony tekst przy użyciu języka Python.
import aspose.ocr as ocr
# Zainicjuj silnik OCR
api = ocr.AsposeOcr()
# Zainicjuj ustawienia rozpoznawania
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Dodaj plik do partii rozpoznawania
files = ocr.OcrInput(ocr.InputType.PDF)
# Uzyskaj dostęp do zeskanowanego pliku PDF i ustaw numer strony oraz całkowitą liczbę stron
files.add("C:\\Files\\sample.pdf", 0, 1)
# Rozpoznaj tekst
result = api.recognize(files , settings)
# Wydrukuj wynik rozpoznania
print(result[0].recognition_text)
# Zapisz wyodrębniony tekst
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)
Uzyskaj bezpłatną licencję próbną
Możesz uzyskać bezpłatną licencję tymczasową, aby wypróbować bibliotekę bez ograniczeń ewaluacyjnych.
Python OCR PDF — bezpłatne zasoby
Możesz dokładniej zapoznać się z następującymi zasobami, aby poznać interfejs API OCR języka Python:
- Przewodnik programisty
- Darmowe aplikacje internetowe
- Odniesienie do API
- Poradniki i artykuły z instrukcjami
Wniosek
W tym artykule dowiedzieliśmy się, jak wykonać OCR na dokumentach PDF i wyodrębnić tekst z pliku PDF w Python. Możliwość wyodrębniania tekstu z plików PDF za pomocą OCR zmienia zasady gry w wielu branżach, od archiwizacji i dokumentacji prawnej po analizę danych i digitalizację treści. Wykorzystując Aspose.OCR for Python, programiści i entuzjaści mogą bezproblemowo integrować możliwości OCR ze swoimi projektami w Python. W przypadku jakichkolwiek niejasności prosimy o kontakt na naszym bezpłatnym forum pomocy technicznej.