PDF do Word OCR Python

Konwertowanie zeskanowanych plików PDF na dokumenty Word ma kilka zalet, takich jak edycja tekstu w dokumencie, co ułatwia wprowadzanie zmian lub aktualizacji. Umożliwia również przeszukiwanie tekstu, co jest nieocenione w przypadku dużych dokumentów lub podczas prowadzenia badań. Co więcej, możesz również sprawdzać pisownię w celu poprawiania literówek lub błędnie napisanych słów podczas wykonywania OCR w Python. W związku z tym w tym artykule wyjaśniono, jak przekonwertować zeskanowany plik PDF na dokument Word za pomocą OCR w Python przy użyciu biblioteki Aspose.OCR for Python via .NET.

PDF do Worda z OCR – Instalacja API Python

Zanim przejdziemy do rozpoznawania tekstu, upewnijmy się, że mamy skonfigurowane niezbędne środowisko do uruchamiania OCR w Python. Upewnij się, że masz zainstalowany Python w swoim systemie, najlepiej w wersji 3.x lub nowszej, wraz z niezawodnym edytorem kodu lub zintegrowanym środowiskiem programistycznym (IDE), takim jak Visual Studio Code lub IDLE itp. Następnie musisz skonfigurować Aspose.OCR for Python przez .NET podczas uzyskiwania dostępu do niego z sekcji New Releases lub z PyPi za pomocą następującego polecenia instalacyjnego:

pip install aspose-ocr-python-net

Konwertuj zeskanowany plik PDF na Word za pomocą OCR w Python

Możesz przekonwertować zeskanowany plik PDF do formatu Word za pomocą OCR, wykonując poniższe czynności:

  1. Zainicjuj interfejs API przy użyciu klasy AsposeOcr.
  2. Ustaw różne ustawienia rozpoznawania.
  3. Rozpoznaj tekst za pomocą OCR i zapisz wyjściowy plik DOCX Word.

Poniższy fragment kodu pokazuje, jak przekonwertować zeskanowany plik PDF do formatu Word za pomocą funkcji OCR w języku Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF do Word z OCR i sprawdzaniem pisowni w Python

Silniki OCR mogą czasami powodować niedokładności, zwłaszcza w przypadku złożonych układów, pisma odręcznego lub skanów niskiej jakości. W takich przypadkach korekta pisowni odgrywa kluczową rolę w poprawie dokładności konwertowanego tekstu. Ta sekcja dotyczy w szczególności konwersji plików PDF na Word za pomocą OCR i funkcji sprawdzania pisowni w Python. Aby spełnić te wymagania, wykonaj poniższe czynności:

  1. Zainicjuj instancję klasy AsposeOcr.
  2. Ustaw różne właściwości za pomocą klasy RecognitionSettings.
  3. Rozpoznaj plik PDF za pomocą OCR i sprawdź pisownię wyodrębnionego ciągu.
  4. Wyeksportuj wyjściowy dokument programu Word w formacie DOCX.

Poniższy przykładowy kod wyjaśnia, jak przekonwertować plik PDF na dokument programu Word za pomocą funkcji OCR w języku Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Uzyskaj bezpłatną licencję ewaluacyjną

Możesz uzyskać bezpłatną licencję tymczasową, aby uniknąć ograniczeń ewaluacyjnych i znaków wodnych.

Podsumowując

W tym poście na blogu zbadaliśmy, jak konwertować zeskanowane pliki PDF na dokumenty Word za pomocą OCR w Python. Omówiliśmy znaczenie OCR i jego korzyści, udostępniliśmy przewodnik krok po kroku dotyczący konfigurowania środowiska, wyodrębniania tekstu z dokumentu PDF przy użyciu różnych metod, z określeniem kilku ustawień i zapisywania go w dokumencie programu Word. Ten przewodnik pozwala zautomatyzować konwersję zeskanowanych plików PDF na edytowalne dokumenty Word za pomocą Python i OCR, otwierając świat możliwości ekstrakcji danych i manipulacji. Jeśli chcesz omówić swoje wątpliwości, napisz do nas na bezpłatne forum pomocy.

Zobacz też