OCR PDF i wyodrębnij tekst z pliku PDF w Python

Technologia optycznego rozpoznawania znaków (OCR) odgrywa kluczową rolę w digitalizacji tekstu drukowanego, zeskanowanego lub pisanego odręcznie z różnych źródeł, w tym dokumentów PDF. W tym poście na blogu dowiemy się, jak OCR dokumentów PDF i wyodrębniać tekst z plików PDF w Python.

W tym artykule omówiono następujące tematy:

  1. PDF do TXT Python OCR API
  2. OCR PDF i wyodrębnij tekst z pliku PDF
  3. Zapisz zeskanowany plik PDF do tekstu
  4. Darmowe zasoby edukacyjne

PDF do TXT — API Python OCR

Będziemy używać Aspose.OCR for Python do wykonywania OCR na dokumentach PDF i wyodrębniania tekstu z plików PDF. Aspose.OCR for Python to potężny interfejs API optycznego rozpoznawania znaków (OCR), który rozpoznaje tekst ze zeskanowanych obrazów, zdjęć ze smartfonów, zrzutów ekranu i obszarów obrazów. Interfejs API zwraca rozpoznane wyniki tekstowe w najpopularniejszych formatach wymiany dokumentów i danych, w tym PDF, XML, JSON i zwykły tekst.

Oprócz konwersji obrazów na tekst, Aspose.OCR for Python może także tworzyć przeszukiwalne pliki PDF na podstawie skanów. Interfejs API może również automatycznie poprawiać błędy ortograficzne w rozpoznawanych tekstach, dzięki czemu idealnie nadaje się do różnych zastosowań.

Proszę pobierz pakiet lub zainstaluj API z PyPI, używając następującego polecenia pip w konsoli:

pip install aspose-ocr-python-net

Python OCR PDF - Wyodrębnij tekst z pliku PDF w Python

Możemy wykonać OCR na dokumentach PDF i wyodrębnić rozpoznany tekst, wykonując czynności podane poniżej:

  1. Utwórz instancję klasy AsposeOcr.
  2. Zainicjuj obiekt klasy DocumentRecognitionSettings.
  3. Dodaj plik PDF do partii rozpoznawania.
  4. Następnie wywołaj metodę rozpoznawania().
  5. Na koniec pokaż zidentyfikowany tekst, korzystając z klasy RecognitionResult.

Poniższy przykładowy kod pokazuje, jak OCR dokumentów PDF i wyodrębniać tekst z plików PDF w Python.

# Ten przykład kodu demonstruje, jak rozpoznać i wyodrębnić tekst ze zeskanowanego dokumentu PDF w języku Python.
import aspose.ocr as ocr

# Zainicjuj silnik OCR
api = ocr.AsposeOcr()

# Zainicjuj ustawienia rozpoznawania
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Dodaj plik do partii rozpoznawania
files = ocr.OcrInput(ocr.InputType.PDF)

# Uzyskaj dostęp do zeskanowanego pliku PDF i ustaw numer strony oraz całkowitą liczbę stron
files.add("C:\\Files\\sample.pdf", 0, 1)

# Rozpoznaj tekst
result = api.recognize(files , settings)

# Wydrukuj wynik rozpoznania
print(result[0].recognition_text)

Python OCR PDF — zapisz zeskanowany plik PDF jako tekst w języku Python

Możemy wykonać OCR na dokumentach PDF i zapisać rozpoznany tekst, wykonując poniższe czynności:

  1. Utwórz instancję klasy AsposeOcr.
  2. Zainicjuj obiekt klasy DocumentRecognitionSettings.
  3. Dodaj plik PDF do partii rozpoznawania.
  4. Następnie wywołaj metodę rozpoznawania().
  5. Na koniec zapisz tekst za pomocą metody savemultipagedocument(). Jako argumenty pobiera ścieżkę pliku wyjściowego, obiekty SaveFormat i RecognitionResult.

Poniższy przykładowy kod pokazuje, jak OCR dokumentów PDF i zapisać rozpoznany tekst w Python.

# Ten przykład kodu demonstruje, jak zapisać rozpoznany i wyodrębniony tekst przy użyciu języka Python.
import aspose.ocr as ocr

# Zainicjuj silnik OCR
api = ocr.AsposeOcr()

# Zainicjuj ustawienia rozpoznawania
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Dodaj plik do partii rozpoznawania
files = ocr.OcrInput(ocr.InputType.PDF)

# Uzyskaj dostęp do zeskanowanego pliku PDF i ustaw numer strony oraz całkowitą liczbę stron
files.add("C:\\Files\\sample.pdf", 0, 1)

# Rozpoznaj tekst
result = api.recognize(files , settings)

# Wydrukuj wynik rozpoznania
print(result[0].recognition_text)

# Zapisz wyodrębniony tekst
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Uzyskaj bezpłatną licencję próbną

Możesz uzyskać bezpłatną licencję tymczasową, aby wypróbować bibliotekę bez ograniczeń ewaluacyjnych.

Python OCR PDF — bezpłatne zasoby

Możesz dokładniej zapoznać się z następującymi zasobami, aby poznać interfejs API OCR języka Python:

Wniosek

W tym artykule dowiedzieliśmy się, jak wykonać OCR na dokumentach PDF i wyodrębnić tekst z pliku PDF w Python. Możliwość wyodrębniania tekstu z plików PDF za pomocą OCR zmienia zasady gry w wielu branżach, od archiwizacji i dokumentacji prawnej po analizę danych i digitalizację treści. Wykorzystując Aspose.OCR for Python, programiści i entuzjaści mogą bezproblemowo integrować możliwości OCR ze swoimi projektami w Python. W przypadku jakichkolwiek niejasności prosimy o kontakt na naszym bezpłatnym forum pomocy technicznej.

Zobacz też