OCR PDF Python

Praca z zeskanowanymi dokumentami PDF jest często trudna ze względu na brak tekstu, który można przeszukiwać lub edytować. Jednak dzięki potędze technologii optycznego rozpoznawania znaków (OCR) wyodrębnianie tekstu z zeskanowanych plików PDF i konwertowanie ich do formatów, które można przeszukiwać lub edytować, staje się rzeczywistością. W tym poście na blogu dowiesz się, jak wykonać rozpoznawanie tekstu PDF za pomocą OCR w Python. Dowiemy się również, jak wyodrębnić tekst z zeskanowanych plików PDF, przekonwertować je na przeszukiwalne lub edytowalne pliki PDF oraz uwolnić potencjał funkcji OCR Python przy użyciu biblioteki Aspose.OCR for Python przez .NET.

Rozpoznaj tekst z zeskanowanego pliku PDF za pomocą OCR — instalacja API Python

Optical Character Recognition (OCR) to technologia umożliwiająca konwersję obrazów lub zeskanowanych dokumentów na tekst nadający się do odczytu maszynowego. Algorytmy OCR, analizując kształty i wzory znaków na obrazie, identyfikują i rozpoznają tekst, umożliwiając wydobycie i przetworzenie zawartych w nim informacji. Zanim zaczniesz, musisz zainstalować Aspose.OCR for Python przez .NET, pobierając go ze strony New Releases lub skonfigurować z PyPi, uruchamiając poniższe polecenie instalacji:

pip install aspose-ocr-python-net

Rozpoznaj tekst z PDF z OCR w Python

Możesz rozpoznawać lub wyodrębniać tekst z PDF za pomocą OCR w Python. Wydobędzie tekst z zeskanowanego dokumentu PDF wydajnie, ponieważ poniższe kroki opisują prosty proces rozpoznawania tekstu z pliku PDF za pomocą OCR w Python:

  1. Utwórz instancję obiektu klasy AsposeOcr.
  2. Załaduj zeskanowany plik PDF.
  3. Rozpoznaj tekst za pomocą OCR i wydrukuj dane wyjściowe na konsoli.

Poniższy przykładowy kod pokazuje, jak rozpoznawać tekst z PDF za pomocą OCR w Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Konwertuj zeskanowany plik PDF na plik PDF z możliwością wyszukiwania lub edytowania za pomocą OCR w Python

Zeskanowane pliki PDF zawierają obrazy, w których nie można wyszukać tekstu, dlatego należy przekonwertować go na dokument PDF z możliwością wyszukiwania, aby umożliwić odczyt maszynowy i odpowiednio go dalej przetworzyć. Wykonaj poniższe czynności, aby przekonwertować go na przeszukiwalny lub edytowalny dokument PDF w Python:

  1. Utwórz obiekt klasy AsposeOcr.
  2. Zainicjuj instancję klasy [RecognitionSettings][5] i ustaw wymagane właściwości.
  3. Załaduj plik PDF i ustaw zakres stron do rozpoznania za pomocą OCR.
  4. Zapisz wyjściowy plik PDF z możliwością wyszukiwania.

Poniższy przykładowy kod pokazuje, jak przekonwertować zeskanowany plik PDF na dokument PDF z możliwością wyszukiwania za pomocą funkcji OCR w języku Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Tutaj warto zauważyć, że możesz OCRować dowolny zakres stron w dokumencie PDF. Na przykład rozpoznawanie tekstu z określonych stron tylko wtedy, gdy indeks strony jest liczony od zera, a ostatnim parametrem jest liczba stron do przetworzenia za pomocą interfejsu API. Dodatkowo możesz ustawić różne ustawienia rozpoznawania dla wstępnego przetwarzania pliku źródłowego, takie jak usuwanie szumów, ustawianie kontrastu, sprawdzanie przekrzywienia stron wejściowych itp. w celu ulepszonego i precyzyjnego rozpoznawania tekstu za pomocą OCR.

Uzyskaj bezpłatną licencję ewaluacyjną

Możesz poprosić o bezpłatną licencję tymczasową, aby ocenić interfejs API bez żadnych ograniczeń ewaluacyjnych.

Podsumowując

Dzięki potędze technologii OCR i języka Python wyodrębnianie tekstu z zeskanowanych plików PDF i konwertowanie ich do formatów z możliwością wyszukiwania lub edytowania stało się wysoce dostępne. Tutaj zbadaliśmy proces rozpoznawania tekstu PDF za pomocą OCR w Python. Omówiliśmy proces instalacji i wyodrębniania tekstu ze zeskanowanych plików PDF, implementację OCR oraz konwersję zeskanowanych plików PDF do formatów, które można przeszukiwać lub edytować. Wykorzystując możliwości OCR i stosując zaawansowane techniki, możesz uwolnić pełny potencjał zeskanowanych plików PDF i uczynić je bardziej dostępnymi i wszechstronnymi w swoich projektach. W przypadku jakichkolwiek niejasności lub pytań skontaktuj się z nami za pośrednictwem bezpłatnego forum pomocy.

Zobacz też