Chuyển văn bản hình ảnh sang Word bằng Python | Hình ảnh tới DOCX OCR

Bạn có mệt mỏi với việc sao chép văn bản từ hình ảnh theo cách thủ công không? Nếu bạn có một bộ sưu tập các tài liệu được quét, ảnh chụp màn hình hoặc hình ảnh có chứa văn bản mà bạn muốn chỉnh sửa thì không cần phải tìm đâu xa! Bạn có thể dễ dàng thực hiện OCR trên hình ảnh JPG hoặc PNG và trích xuất văn bản. Trong bài đăng trên blog này, chúng ta sẽ khám phá cách chuyển đổi văn bản hình ảnh thành tài liệu Word bằng Python, giúp làm việc và thao tác dữ liệu văn bản dễ dàng hơn. Hướng dẫn này sẽ hướng dẫn bạn quy trình trích xuất văn bản từ hình ảnh một cách dễ dàng và chỉ cho bạn cách lưu văn bản ở định dạng DOCX.

Bài viết này bao gồm các chủ đề sau:

Chuyển văn bản hình ảnh sang Word bằng Thư viện Python OCR

Chúng tôi sẽ sử dụng Aspose.OCR for Python để chuyển đổi văn bản hình ảnh sang Word trong Python. Nó là một công cụ mạnh mẽ và hiệu quả để trích xuất văn bản từ hình ảnh và chuyển đổi nó thành tài liệu Word có thể chỉnh sửa. Với công nghệ OCR tiên tiến, nó nhận dạng và trích xuất chính xác văn bản từ nhiều định dạng hình ảnh khác nhau, bao gồm tài liệu được quét, ảnh và ảnh chụp màn hình.

Vui lòng tải xuống gói hoặc cài đặt API từ PyPI bằng lệnh pip sau trong bảng điều khiển:

pip install aspose-ocr-python-net 

Chuyển đổi văn bản hình ảnh thành Word trong Python

Chúng ta có thể dễ dàng nhận dạng và đọc văn bản từ hình ảnh và chuyển đổi nó thành tài liệu Word. Hãy làm theo các bước sau để trích xuất và chỉnh sửa văn bản từ hình ảnh theo chương trình.

  1. Khởi tạo đối tượng lớp OcrInput với inputType.SINGLEIMAGE làm đối số.
  2. Thêm hình ảnh bằng phương thức add().
  3. Tạo một thể hiện của đối tượng lớp AsposeOcr.
  4. Sau đó, gọi phương thức nhận dạng() với đối tượng OcrInput làm đối số.
  5. Cuối cùng, lưu kết quả dưới dạng tệp DOCX bằng phương thức save().

Mẫu mã sau đây cho biết cách chuyển đổi văn bản hình ảnh thành tài liệu Word bằng Python.

# Ví dụ mã này trình bày cách chuyển đổi văn bản hình ảnh sang Word bằng Python!
import aspose.ocr as ocr

# Thêm hình ảnh vào lô nhận dạng
inputImg = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
inputImg.add("sample.jpg")

# Khởi tạo API Aspose.OCR
api = ocr.AsposeOcr()

# Nhận biết hình ảnh
result = api.recognize(inputImg)

# Kết quả nhận dạng in
print(result[0].recognition_text)
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX);
Chuyển đổi văn bản hình ảnh sang Word trong Python.

Chuyển đổi văn bản hình ảnh sang Word trong Python.

Chuyển văn bản hình ảnh sang Word – Tài nguyên miễn phí

Bạn muốn làm được nhiều việc hơn với việc chuyển đổi văn bản hình ảnh sang Word trong Python? Hãy xem các tài nguyên bên dưới để tìm hiểu thêm về các tính năng của thư viện và xem bạn có thể làm gì khác!

Thư viện Python OCR – Nhận giấy phép miễn phí

Bắt đầu chuyển đổi văn bản hình ảnh sang Word miễn phí! Hãy truy cập trang ‘Giấy phép tạm thời’ để tìm hiểu cách dễ dàng có được giấy phép tạm thời miễn phí, cho phép bạn dùng thử thư viện mà không có bất kỳ hạn chế nào.

Phần kết luận

Trong bài đăng trên blog này, chúng tôi đã khám phá cách chuyển đổi văn bản hình ảnh thành tài liệu Word có thể chỉnh sửa. Bằng cách tận dụng Aspose.OCR for Python, chúng ta có thể trích xuất văn bản từ hình ảnh một cách hiệu quả và chuyển đổi nó sang định dạng Word, tiết kiệm thời gian và tăng năng suất. Thư viện hỗ trợ hơn 100 ngôn ngữ và cung cấp các tùy chọn đầu ra linh hoạt, khiến nó trở thành lựa chọn phổ biến cho các nhà phát triển và doanh nghiệp muốn tự động hóa các tác vụ xử lý tài liệu. Với các bước được nêu trong hướng dẫn này, bạn có thể trích xuất văn bản từ hình ảnh theo chương trình, tự động hóa các tác vụ xử lý tài liệu, trích xuất dữ liệu từ các tài liệu được quét, v.v. Vì vậy, hãy tiếp tục, dùng thử và khám phá tiềm năng chuyển đổi hình ảnh thành văn bản trong các dự án của bạn!

Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn hỗ trợ miễn phí của chúng tôi.

Xem thêm