Các tài liệu PDF được quét thường khó xử lý do thiếu văn bản có thể tìm kiếm hoặc có thể chỉnh sửa. Tuy nhiên, với sức mạnh của công nghệ Nhận dạng ký tự quang học (OCR), việc trích xuất văn bản từ các tệp PDF được quét và chuyển đổi chúng thành các định dạng có thể tìm kiếm hoặc chỉnh sửa sẽ trở thành hiện thực. Trong bài đăng trên blog này, bạn sẽ tìm hiểu cách thực hiện nhận dạng văn bản PDF bằng OCR trong Python. Chúng ta cũng sẽ khám phá cách trích xuất văn bản từ tệp PDF được quét, chuyển đổi chúng thành tệp PDF có thể tìm kiếm hoặc có thể chỉnh sửa và giải phóng tiềm năng khả năng OCR của Python bằng thư viện Aspose.OCR for Python via .NET.
- Nhận dạng văn bản từ PDF được quét bằng OCR – Cài đặt API Python
- Nhận dạng văn bản từ PDF bằng OCR trong Python
- Chuyển đổi PDF được quét thành PDF có thể tìm kiếm hoặc có thể chỉnh sửa bằng OCR trong Python
Nhận dạng văn bản từ PDF được quét bằng OCR – Cài đặt API Python
Nhận dạng ký tự quang học (OCR) là công nghệ cho phép chuyển đổi hình ảnh hoặc tài liệu được quét thành văn bản có thể đọc được bằng máy. Bằng cách phân tích hình dạng và mẫu ký tự trong một hình ảnh, thuật toán OCR xác định và nhận dạng văn bản, giúp có thể trích xuất và xử lý thông tin chứa trong đó. Trước khi bắt đầu, bạn cần cài đặt Aspose.OCR for Python qua .NET bằng cách tải xuống từ trang Bản phát hành mới hoặc định cấu hình từ PyPi bằng cách chạy lệnh cài đặt bên dưới:
pip install aspose-ocr-python-net
Nhận dạng văn bản từ PDF bằng OCR trong Python
Bạn có thể nhận dạng hoặc trích xuất văn bản từ PDF bằng OCR trong Python. Nó sẽ trích xuất văn bản từ tài liệu PDF được quét một cách hiệu quả như các bước bên dưới phác thảo quy trình đơn giản để nhận dạng văn bản từ PDF bằng OCR trong Python:
- Khởi tạo một đối tượng của lớp AsposeOcr.
- Tải tệp PDF đã quét.
- Nhận dạng văn bản bằng OCR và in đầu ra ra bàn điều khiển.
Mã mẫu bên dưới cho biết cách nhận dạng văn bản từ PDF bằng OCR trong Python:
import aspose.ocr as ocr
# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()
# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")
# Recognize text with OCR
result = api.recognize(input)
# Print the output text to the console
print(result[0].recognition_text)
Chuyển đổi PDF được quét thành PDF có thể tìm kiếm hoặc có thể chỉnh sửa bằng OCR trong Python
Các tệp PDF được quét chứa hình ảnh mà bạn không thể tìm kiếm văn bản, vì vậy bạn cần chuyển đổi nó thành tài liệu PDF có thể tìm kiếm để làm cho tài liệu có thể đọc được bằng máy và xử lý thêm cho phù hợp. Vui lòng làm theo các bước bên dưới để chuyển đổi nó thành tài liệu PDF có thể tìm kiếm hoặc chỉnh sửa được bằng Python:
- Tạo một đối tượng thuộc lớp AsposeOcr.
- Khởi tạo phiên bản lớp [RecognitionSettings][5] và đặt các thuộc tính bắt buộc.
- Tải tệp PDF và đặt phạm vi trang để nhận dạng bằng OCR.
- Lưu tệp PDF có thể tìm kiếm đầu ra.
Mã mẫu sau đây cho biết cách chuyển đổi tệp PDF được quét thành tài liệu PDF có thể tìm kiếm bằng OCR trong Python:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)
# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)
# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)
# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)
Điều đáng chú ý ở đây là bạn có thể OCR bất kỳ phạm vi trang nào trong tài liệu PDF. Ví dụ: chỉ nhận dạng văn bản từ các trang cụ thể khi chỉ mục trang là số không và tham số cuối cùng là số lượng trang sẽ được xử lý bằng API. Ngoài ra, bạn có thể đặt các cài đặt Nhận dạng khác nhau để xử lý trước tệp nguồn như loại bỏ nhiễu, đặt độ tương phản, kiểm tra độ lệch của các trang đầu vào, v.v. để nhận dạng văn bản chính xác và nâng cao bằng OCR.
Nhận giấy phép đánh giá miễn phí
Bạn có thể yêu cầu giấy phép tạm thời miễn phí để đánh giá API mà không có bất kỳ giới hạn đánh giá nào.
Tổng hợp
Với sức mạnh của công nghệ OCR và Python, việc trích xuất văn bản từ các tệp PDF được quét và chuyển đổi chúng thành các định dạng có thể tìm kiếm hoặc có thể chỉnh sửa đã trở nên rất dễ truy cập. Ở đây chúng tôi đã khám phá quá trình nhận dạng văn bản PDF bằng OCR trong Python. Chúng tôi đã thảo luận về quy trình cài đặt và trích xuất văn bản từ các tệp PDF được quét, triển khai OCR và chuyển đổi các tệp PDF được quét sang các định dạng có thể tìm kiếm hoặc có thể chỉnh sửa. Bằng cách tận dụng các khả năng OCR và sử dụng các kỹ thuật nâng cao, bạn có thể mở khóa toàn bộ tiềm năng của các tệp PDF được quét và làm cho chúng dễ tiếp cận và linh hoạt hơn trong các dự án của bạn. Trong trường hợp có bất kỳ sự mơ hồ hoặc thắc mắc nào, vui lòng liên hệ với chúng tôi qua diễn đàn hỗ trợ miễn phí.