Được quét sang Java PDF có thể tìm kiếm

Đôi khi tệp PDF được tạo bằng ảnh từ máy quét hoặc thiết bị máy ảnh. Trong một số tình huống nhất định, bạn có thể cần chuyển đổi tệp PDF đã quét thành tệp PDF có thể tìm kiếm bằng OCR để bạn có thể làm việc với nội dung văn bản trong tệp PDF. Theo đó, bài viết này trình bày cách chuyển đổi một tệp PDF đã quét sang một tệp PDF có thể tìm kiếm được bằng tính năng OCR theo cách lập trình bằng Java.

Đã quét PDF sang PDF có thể tìm kiếm bằng OCR - Cài đặt API Java

Bạn có thể nhận dạng quang học văn bản trong tệp PDF bằng tính năng OCR bằng cách sử dụng API Aspose.OCR cho Java. Chỉ cần cài đặt API bằng cách tải xuống tệp JAR từ phần Bản phát hành mới hoặc sử dụng các thông số kỹ thuật của Maven bên dưới:

Kho:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Sự phụ thuộc:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Chuyển đổi PDF đã quét thành PDF có thể tìm kiếm theo chương trình bằng Java

Bạn có thể nhận dạng nội dung của tệp PDF được quét bằng OCR. Điều này cho phép bạn chuyển đổi tệp PDF đã quét thành tài liệu PDF Có thể Tìm kiếm bằng các bước sau:

  1. Tạo một đối tượng lớp AsposeOcr.
  2. Nhận dạng dữ liệu từ PDF được quét bằng phương pháp RecognizePdf.
  3. Đặt số trang để nhận dạng OCR bằng cách sử dụng lớp DocumentRecognitionSettings.
  4. Lưu kết quả OCR đầu ra dưới dạng tệp PDF có thể tìm kiếm.

Đoạn mã sau đây trình bày chi tiết cách chuyển đổi một tệp PDF đã quét thành tệp PDF có thể tìm kiếm theo chương trình trong Java:

// Đường dẫn PDF nhiều trang được quét
String fullPath = "multi_page.pdf";

// Khởi tạo đối tượng lớp AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Nhận dạng hình ảnh từ PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Lưu kết quả dưới dạng PDF có thể tìm kiếm
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Nhận Giấy phép Đánh giá Miễn phí

Bạn có thể đánh giá tính năng nhận dạng văn bản trong PDF được quét bằng các thao tác OCR mà không có bất kỳ giới hạn nào bằng cách yêu cầu giấy phép tạm thời miễn phí.

Sự kết luận

Trong bài viết này, bạn đã học cách chuyển đổi tệp PDF đã quét thành tài liệu PDF có thể tìm kiếm được bằng tính năng OCR theo lập trình trong Java. Hơn nữa, bạn có thể xem các tính năng khác liên quan đến OCR của API bằng cách truy cập tài liệu. Vui lòng viết thư cho chúng tôi tại diễn đàn nếu có bất kỳ thắc mắc nào.

Xem thêm