Đã quét PDF sang Excel OCR Java

Tệp PDF được quét bao gồm dữ liệu ở định dạng hình ảnh vì chúng thường được tạo bởi máy quét. Trong một số tình huống nhất định, bạn có thể yêu cầu thông tin số từ tệp PDF được quét. Vì vậy, bạn có thể thực hiện các thao tác OCR để tạo tệp Excel. Bài viết này trình bày cách tạo trình chuyển đổi PDF sang Excel được quét bằng tính năng OCR được lập trình trong Java.

Tạo công cụ chuyển đổi PDF sang Excel được quét bằng OCR - Cài đặt API Java

Bạn có thể nhận dạng quang học văn bản trong tệp PDF bằng tính năng OCR bằng cách sử dụng API Aspose.OCR cho Java. Chỉ cần cài đặt API bằng cách tải xuống tệp JAR từ phần Bản phát hành mới hoặc sử dụng các thông số kỹ thuật của Maven bên dưới:

Kho:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Sự phụ thuộc:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Chuyển đổi PDF đã quét sang Excel theo phương pháp lập trình trong Java

Bạn có thể chuyển đổi tệp PDF được quét sang Excel bằng OCR bằng cách làm theo các bước bên dưới:

  1. Tạo một đối tượng lớp AsposeOcr.
  2. Chỉ định cài đặt với lớp DocumentRecognitionSettings.
  3. Nhận dạng tệp PDF đã quét bằng phương pháp RecognizePdf.
  4. Lưu kết quả OCR đầu ra dưới dạng tệp Excel.

Đoạn mã sau trình bày chi tiết cách chuyển đổi một tệp PDF được quét thành tệp Excel theo chương trình trong Java:

// Đường dẫn tệp PDF được quét
String fullPath = "scanned.pdf";

// Khởi tạo đối tượng lớp AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

// Khởi tạo đối tượng lớp DocumentRecognitionSettings
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Nhận dạng hình ảnh từ PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Lưu kết quả dưới dạng tệp Excel XLSX
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

Nhận Giấy phép Đánh giá Miễn phí

Bạn có thể đánh giá API để tạo trình chuyển đổi PDF sang Excel được quét bằng hoạt động OCR mà không có bất kỳ giới hạn nào bằng cách yêu cầu giấy phép tạm thời miễn phí.

Sự kết luận

Trong bài viết này, bạn đã hiểu cách chuyển đổi một tệp PDF được quét sang tệp Excel với tính năng OCR theo lập trình trong Java. Ngoài ra, hãy xem các tính năng khác liên quan đến OCR bằng cách truy cập tài liệu. Vui lòng viết thư cho chúng tôi tại diễn đàn nếu bạn có bất kỳ thắc mắc nào.

Xem thêm