Konwertowanie zeskanowanych plików PDF na dokumenty Word ma kilka zalet, takich jak edycja tekstu w dokumencie, co ułatwia wprowadzanie zmian lub aktualizacji. Umożliwia również przeszukiwanie tekstu, co jest nieocenione w przypadku dużych dokumentów lub podczas prowadzenia badań. Co więcej, możesz również sprawdzać pisownię w celu poprawiania literówek lub błędnie napisanych słów podczas wykonywania OCR w Python. W związku z tym w tym artykule wyjaśniono, jak przekonwertować zeskanowany plik PDF na dokument Word za pomocą OCR w Python przy użyciu biblioteki Aspose.OCR for Python via .NET.
- PDF do Worda z OCR – Instalacja API Python
- Konwertuj zeskanowany plik PDF na Word za pomocą OCR w Python
- PDF do Worda z OCR i sprawdzaniem pisowni w Python
PDF do Worda z OCR – Instalacja API Python
Zanim przejdziemy do rozpoznawania tekstu, upewnijmy się, że mamy skonfigurowane niezbędne środowisko do uruchamiania OCR w Python. Upewnij się, że masz zainstalowany Python w swoim systemie, najlepiej w wersji 3.x lub nowszej, wraz z niezawodnym edytorem kodu lub zintegrowanym środowiskiem programistycznym (IDE), takim jak Visual Studio Code lub IDLE itp. Następnie musisz skonfigurować Aspose.OCR for Python przez .NET podczas uzyskiwania dostępu do niego z sekcji New Releases lub z PyPi za pomocą następującego polecenia instalacyjnego:
pip install aspose-ocr-python-net
Konwertuj zeskanowany plik PDF na Word za pomocą OCR w Python
Możesz przekonwertować zeskanowany plik PDF do formatu Word za pomocą OCR, wykonując poniższe czynności:
- Zainicjuj interfejs API przy użyciu klasy AsposeOcr.
- Ustaw różne ustawienia rozpoznawania.
- Rozpoznaj tekst za pomocą OCR i zapisz wyjściowy plik DOCX Word.
Poniższy fragment kodu pokazuje, jak przekonwertować zeskanowany plik PDF do formatu Word za pomocą funkcji OCR w języku Python:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)
result = api.recognize(input , settings)
api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)
print(result[0].recognition_text)
PDF do Word z OCR i sprawdzaniem pisowni w Python
Silniki OCR mogą czasami powodować niedokładności, zwłaszcza w przypadku złożonych układów, pisma odręcznego lub skanów niskiej jakości. W takich przypadkach korekta pisowni odgrywa kluczową rolę w poprawie dokładności konwertowanego tekstu. Ta sekcja dotyczy w szczególności konwersji plików PDF na Word za pomocą OCR i funkcji sprawdzania pisowni w Python. Aby spełnić te wymagania, wykonaj poniższe czynności:
- Zainicjuj instancję klasy AsposeOcr.
- Ustaw różne właściwości za pomocą klasy RecognitionSettings.
- Rozpoznaj plik PDF za pomocą OCR i sprawdź pisownię wyodrębnionego ciągu.
- Wyeksportuj wyjściowy dokument programu Word w formacie DOCX.
Poniższy przykładowy kod wyjaśnia, jak przekonwertować plik PDF na dokument programu Word za pomocą funkcji OCR w języku Python:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)
result = api.recognize(input , settings)
corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)
# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)
Uzyskaj bezpłatną licencję ewaluacyjną
Możesz uzyskać bezpłatną licencję tymczasową, aby uniknąć ograniczeń ewaluacyjnych i znaków wodnych.
Podsumowując
W tym poście na blogu zbadaliśmy, jak konwertować zeskanowane pliki PDF na dokumenty Word za pomocą OCR w Python. Omówiliśmy znaczenie OCR i jego korzyści, udostępniliśmy przewodnik krok po kroku dotyczący konfigurowania środowiska, wyodrębniania tekstu z dokumentu PDF przy użyciu różnych metod, z określeniem kilku ustawień i zapisywania go w dokumencie programu Word. Ten przewodnik pozwala zautomatyzować konwersję zeskanowanych plików PDF na edytowalne dokumenty Word za pomocą Python i OCR, otwierając świat możliwości ekstrakcji danych i manipulacji. Jeśli chcesz omówić swoje wątpliwości, napisz do nas na bezpłatne forum pomocy.