OCR PDF và trích xuất văn bản từ PDF bằng Python

Công nghệ Nhận dạng Ký tự Quang học (OCR) đóng vai trò then chốt trong việc số hóa văn bản được in, quét hoặc viết tay từ nhiều nguồn khác nhau, bao gồm cả tài liệu PDF. Trong bài đăng trên blog này, chúng ta sẽ tìm hiểu cách OCR tài liệu PDF và trích xuất văn bản từ PDF bằng Python.

Bài viết này bao gồm các chủ đề sau:

  1. API OCR Python sang TXT
  2. OCR PDF và trích xuất văn bản từ PDF
  3. Lưu tệp PDF đã quét thành văn bản
  4. Tài nguyên học tập miễn phí

PDF sang TXT - API Python OCR

Chúng tôi sẽ sử dụng Aspose.OCR for Python để thực hiện OCR trên tài liệu PDF và trích xuất văn bản từ tệp PDF. Aspose.OCR for Python là API nhận dạng ký tự quang học (OCR) mạnh mẽ có thể nhận dạng văn bản từ hình ảnh được quét, ảnh trên điện thoại thông minh, ảnh chụp màn hình và các vùng hình ảnh. API trả về kết quả văn bản được nhận dạng ở các định dạng trao đổi dữ liệu và tài liệu phổ biến nhất, bao gồm PDF, XML, JSON và văn bản thuần túy.

Ngoài việc chuyển đổi hình ảnh thành văn bản, Aspose.OCR for Python còn có thể tạo các tệp PDF có thể tìm kiếm dựa trên các bản quét. API cũng có thể tự động sửa lỗi chính tả trong các văn bản được nhận dạng, khiến nó trở nên lý tưởng cho nhiều ứng dụng.

Vui lòng tải xuống gói hoặc cài đặt API từ PyPI bằng lệnh pip sau trong bảng điều khiển:

pip install aspose-ocr-python-net

Python OCR PDF - Trích xuất văn bản từ PDF bằng Python

Chúng tôi có thể thực hiện OCR trên tài liệu PDF và trích xuất văn bản được nhận dạng bằng cách thực hiện theo các bước dưới đây:

  1. Tạo một phiên bản của lớp AsposeOcr.
  2. Khởi tạo một đối tượng của lớp DocumentRecognitionSettings.
  3. Thêm tệp PDF vào lô nhận dạng.
  4. Sau đó, gọi phương thức nhận dạng().
  5. Cuối cùng, hiển thị văn bản đã được xác định bằng lớp CertificationResult.

Mã mẫu sau đây cho biết cách OCR tài liệu PDF và trích xuất văn bản từ PDF bằng Python.

# Ví dụ về mã này trình bày cách nhận dạng và trích xuất văn bản từ tài liệu PDF được quét bằng Python.
import aspose.ocr as ocr

# Khởi tạo công cụ OCR
api = ocr.AsposeOcr()

# Khởi tạo cài đặt nhận dạng
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Thêm tệp vào lô nhận dạng
files = ocr.OcrInput(ocr.InputType.PDF)

# Truy cập bản PDF được quét và đặt số trang cũng như tổng số trang
files.add("C:\\Files\\sample.pdf", 0, 1)

# Nhận biết văn bản
result = api.recognize(files , settings)

# Kết quả nhận dạng in
print(result[0].recognition_text)

Python OCR PDF - Lưu tệp PDF được quét thành văn bản trong Python

Chúng tôi có thể thực hiện OCR trên tài liệu PDF và lưu văn bản được nhận dạng bằng cách thực hiện theo các bước dưới đây:

  1. Tạo một phiên bản của lớp AsposeOcr.
  2. Khởi tạo một đối tượng của lớp DocumentRecognitionSettings.
  3. Thêm tệp PDF vào lô nhận dạng.
  4. Sau đó, gọi phương thức nhận dạng().
  5. Cuối cùng, lưu văn bản bằng phương thức savemultipagedocument(). Nó lấy đường dẫn tệp đầu ra, đối tượng SaveFormat và CertificationResult làm đối số.

Mã mẫu sau đây cho biết cách OCR tài liệu PDF và lưu văn bản được nhận dạng bằng Python.

# Ví dụ mã này trình bày cách lưu văn bản nhận dạng và trích xuất bằng Python.
import aspose.ocr as ocr

# Khởi tạo công cụ OCR
api = ocr.AsposeOcr()

# Khởi tạo cài đặt nhận dạng
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Thêm tệp vào lô nhận dạng
files = ocr.OcrInput(ocr.InputType.PDF)

# Truy cập bản PDF được quét và đặt số trang cũng như tổng số trang
files.add("C:\\Files\\sample.pdf", 0, 1)

# Nhận biết văn bản
result = api.recognize(files , settings)

# Kết quả nhận dạng in
print(result[0].recognition_text)

# Lưu văn bản được trích xuất
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Nhận giấy phép đánh giá miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để dùng thử thư viện mà không bị giới hạn về đánh giá.

Python OCR PDF - Tài nguyên miễn phí

Bạn có thể khám phá thêm các tài nguyên sau để tìm hiểu API Python OCR:

Phần kết luận

Trong bài viết này, chúng tôi đã tìm hiểu cách thực hiện OCR trên tài liệu PDF và trích xuất văn bản từ PDF bằng Python. Khả năng trích xuất văn bản từ các tệp PDF bằng OCR là yếu tố thay đổi cuộc chơi trong nhiều ngành, từ lưu trữ và tài liệu pháp lý đến phân tích dữ liệu và số hóa nội dung. Bằng cách tận dụng Aspose.OCR for Python, các nhà phát triển và những người đam mê có thể tích hợp liền mạch các khả năng OCR vào các dự án Python của họ. Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn hỗ trợ miễn phí của chúng tôi.

Xem thêm