PDF sang Word OCR Python

Chuyển đổi các tệp PDF được quét thành tài liệu Word mang lại một số lợi thế như chỉnh sửa văn bản trong tài liệu, giúp dễ dàng thực hiện các thay đổi hoặc cập nhật. Nó cũng cho phép khả năng tìm kiếm văn bản, điều vô giá đối với các tài liệu lớn hoặc khi tiến hành nghiên cứu. Hơn nữa, bạn cũng có thể thực hiện kiểm tra chính tả để sửa bất kỳ lỗi chính tả hoặc từ sai chính tả nào trong khi thực hiện OCR bằng Python. Theo đó, bài viết này giải thích cách chuyển đổi tài liệu PDF được quét sang Word bằng OCR trong Python bằng thư viện Aspose.OCR for Python qua .NET.

Chuyển PDF sang Word bằng OCR – Cài đặt API Python

Trước khi đi sâu vào nhận dạng văn bản, hãy đảm bảo rằng chúng ta đã thiết lập môi trường cần thiết để chạy OCR trong Python. Đảm bảo rằng bạn đã cài đặt Python trên hệ thống của mình, tốt nhất là phiên bản 3.x trở lên, cùng với trình chỉnh sửa mã đáng tin cậy hoặc môi trường phát triển tích hợp (IDE) chẳng hạn như Visual Studio Code hoặc IDLE, v.v. Sau đó, bạn cần định cấu hình Aspose.OCR for Python qua .NET trong khi truy cập nó từ phần Bản phát hành mới hoặc từ PyPi bằng lệnh cài đặt sau:

pip install aspose-ocr-python-net

Chuyển đổi PDF được quét sang Word bằng OCR trong Python

Bạn có thể chuyển đổi PDF được quét sang Word bằng OCR bằng cách thực hiện theo các bước bên dưới:

  1. Khởi tạo API bằng lớp AsposeOcr.
  2. Đặt các cài đặt khác nhau để nhận dạng.
  3. Nhận dạng văn bản bằng OCR và lưu tệp DOCX Word đầu ra.

Đoạn mã sau minh họa cách chuyển đổi PDF được quét sang Word bằng OCR trong Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF sang Word bằng OCR và Kiểm tra chính tả bằng Python

Công cụ OCR đôi khi có thể tạo ra sự không chính xác, đặc biệt là khi xử lý bố cục phức tạp, chữ viết tay hoặc bản quét chất lượng thấp. Trong những trường hợp như vậy, sửa lỗi chính tả đóng một vai trò quan trọng trong việc cải thiện độ chính xác của văn bản được chuyển đổi. Phần này đặc biệt đề cập đến chuyển đổi PDF sang Word bằng OCR và tính năng kiểm tra chính tả trong Python. Bạn cần làm theo các bước dưới đây để đáp ứng các yêu cầu sau:

  1. Khởi tạo một thể hiện của lớp AsposeOcr.
  2. Đặt các thuộc tính khác nhau bằng cách sử dụng lớp RecognitionSettings.
  3. Nhận dạng tệp PDF bằng OCR và kiểm tra chính tả chuỗi được trích xuất.
  4. Xuất tài liệu Word đầu ra ở định dạng DOCX.

Mã mẫu bên dưới giải thích cách chuyển đổi tài liệu PDF thành tài liệu Word bằng OCR trong Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Nhận giấy phép đánh giá miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để tránh mọi giới hạn đánh giá và hình mờ.

Tổng hợp

Trong bài đăng trên blog này, chúng tôi đã khám phá cách chuyển đổi các tệp PDF được quét sang tài liệu Word bằng OCR trong Python. Chúng tôi đã thảo luận về tầm quan trọng của OCR và các lợi ích của nó, cung cấp hướng dẫn từng bước để thiết lập môi trường, trích xuất văn bản từ tài liệu PDF bằng các phương pháp khác nhau trong khi chỉ định một số cài đặt và lưu nó vào tài liệu Word. Hướng dẫn này cho phép bạn tự động chuyển đổi các tệp PDF được quét thành tài liệu Word có thể chỉnh sửa bằng Python và OCR, mở ra một thế giới khả năng khai thác và thao tác dữ liệu. Trong trường hợp bạn cần thảo luận về bất kỳ mối quan tâm nào của mình, vui lòng viết thư cho chúng tôi tại diễn đàn hỗ trợ miễn phí.

Xem thêm