Quét tài liệu trong Java

Trong bài đăng trên blog này, bạn sẽ khám phá tính năng quét tài liệu trong Java. Cho dù bạn đang xây dựng hệ thống quản lý tài liệu, ứng dụng dành cho thiết bị di động hay ứng dụng OCR (Nhận dạng ký tự quang học), OMR (Nhận dạng dấu quang học), hướng dẫn này sẽ cung cấp cho bạn thông tin cần thiết để triển khai quét tài liệu bằng Java.

API quét tài liệu Java

Quét tài liệu trong Java cung cấp một cách liền mạch để chuyển đổi tài liệu vật lý sang định dạng kỹ thuật số. Nó mang lại nhiều lợi ích, bao gồm quản lý tài liệu được cải thiện, chia sẻ và lưu trữ dễ dàng hơn, khả năng tìm kiếm nâng cao và giảm sự lộn xộn của giấy tờ. Khả năng tương thích và hỗ trợ đa nền tảng của Java làm cho nó trở thành lựa chọn tuyệt vời để triển khai chức năng quét tài liệu.

Quét tài liệu OCR trong Java

Quét tài liệu Java

OCR là công nghệ cho phép máy tính nhận dạng và trích xuất văn bản từ hình ảnh hoặc tài liệu được quét. Aspose.OCR for Java cho phép bạn kết hợp chức năng OCR vào các ứng dụng Java của mình, giúp việc trích xuất văn bản từ nhiều nguồn khác nhau và sử dụng nó trong các chương trình của bạn trở nên dễ dàng hơn.

Hơn nữa, nó có hỗ trợ ngôn ngữ cho 27 chữ viết Latinh và Cyrillic, cũng như tiếng Trung Quốc. API OCR có khả năng nhận dạng nhiều loại đầu vào khác nhau, chẳng hạn như hình ảnh được quét, ảnh trên điện thoại thông minh, ảnh chụp màn hình, các vùng hình ảnh cụ thể và tệp PDF được quét.

Dưới đây là danh sách một số tính năng quan trọng của Aspose.OCR liên quan đến quét tài liệu:

  • Trích xuất văn bản: Nhận dạng và trích xuất văn bản từ hình ảnh, tệp được quét hoặc tài liệu PDF.
  • Hỗ trợ ngôn ngữ: Hỗ trợ nhiều ngôn ngữ để trích xuất văn bản bằng các ngôn ngữ khác nhau, chẳng hạn như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, v.v.
  • Các thuật toán OCR nâng cao: Sử dụng các thuật toán OCR nâng cao để cung cấp khả năng trích xuất văn bản chính xác và đáng tin cậy.
  • Tùy chọn tiền xử lý: Áp dụng các bộ lọc hình ảnh, chẳng hạn như loại bỏ nhiễu, hiệu chỉnh độ nghiêng, v.v. để cải thiện chất lượng của hình ảnh đầu vào.
  • Tích hợp dễ dàng: Nó được thiết kế để dễ dàng tích hợp vào các ứng dụng Java của bạn.
  • Quét liên kết: Nhận dạng hình ảnh được cung cấp dưới dạng liên kết web.
  • Quét hàng loạt: Cung cấp các phương pháp xử lý hàng loạt khác nhau để nhận dạng nhiều hình ảnh trong một lần gọi.
  • Và còn nhiều nữa…

Bạn có thể khám phá thêm các tài nguyên sau để tìm hiểu API quét tài liệu Java:

Ngoài ra, để tạo ứng dụng quét tài liệu có tính năng OCR, bạn có thể thử đoạn mã sau:

// Ví dụ mã này trình bày cách lưu văn bản được nhận dạng bằng sửa lỗi chính tả.
// Đường dẫn đến hình ảnh cần nhận dạng
String imagePath = "C:\\Files\\sample.jpg";
String resultPath = "C:\\Files\\MyResult.txt";

// Tạo API OCR
AsposeOCR api = new AsposeOCR();

// Khởi tạo cài đặt nhận dạng
RecognitionSettings settings = new RecognitionSettings();

// Nhận dạng văn bản từ một hình ảnh 
RecognitionResult result = api.RecognizePage(imagePath, new RecognitionSettings());

// Lưu văn bản đã sửa
result.saveSpellCheckCorrectedText(resultPath, Format.Text, SpellCheckLanguage.Eng);

Quét tài liệu OMR trong Java

Tài liệu quét Java

Trích xuất và thu thập dữ liệu từ các biểu mẫu, khảo sát và đánh giá trên giấy có thể là một công việc tốn nhiều thời gian và dễ mắc lỗi. Bạn có thể đơn giản hóa quy trình trích xuất thông tin từ tài liệu được quét bằng cách sử dụng Aspose.OMR for Java.

Aspose.OMR for Java có thể được sử dụng để tạo các mẫu OMR tùy chỉnh xác định cấu trúc và bố cục của các trang tính OMR. Tương tự, nó chứa các tùy chọn linh hoạt để xuất dữ liệu được trích xuất. Bạn có thể lưu dữ liệu ở nhiều định dạng khác nhau, bao gồm CSV, XML, JSON, v.v., làm cho dữ liệu tương thích với các hệ thống và ứng dụng khác nhau.

Dưới đây là một số đặc điểm quét tài liệu của Aspose.OMR for Java:

  • Nhận dạng đánh dấu: Khả năng phát hiện và nhận dạng chính xác các dấu được tạo trên biểu mẫu, chẳng hạn như hộp kiểm, bong bóng hoặc vùng được tô bóng.
  • Tạo mẫu: Tạo các mẫu có thể tùy chỉnh xác định giao diện của biểu mẫu, bao gồm vị trí đặt câu hỏi, lựa chọn câu trả lời và các yếu tố khác.
  • Độ chính xác và xác thực: Các thuật toán và cơ chế để đảm bảo độ chính xác cao trong việc phát hiện và nhận dạng dấu hiệu.
  • Chỉnh sửa hình ảnh được quét: Khả năng xử lý hình ảnh được xoay và phối cảnh (xem bên).
  • Và còn nhiều nữa…

Ngoài ra, bạn có thể truy cập các tài nguyên sau để biết thêm thông tin về quét tài liệu trong Java:

Ngoài ra, để tạo một trình quét tài liệu có khả năng OMR bằng Java, bạn có thể sử dụng đoạn mã sau:

// Ví dụ mã này trình bày cách thực hiện OMR trên hình ảnh và trích xuất dữ liệu
// Đường dẫn tệp mẫu OMR
String templatePath = "C:\\Files\\OMR\\Sheet.omr";

// Đường dẫn tệp hình ảnh
String imagePath = "C:\\Files\\OMR\\Sheet1.png";

// Khởi tạo công cụ OMR
OmrEngine engine = new OmrEngine();

// Nhận bộ xử lý mẫu
TemplateProcessor templateProcessor = engine.getTemplateProcessor(templatePath);

// Nhận dạng hình ảnh
RecognitionResult result = templateProcessor.recognizeImage(imagePath);

// Nhận kết quả trong CSV
String csvResult = result.getCsv();

// Lưu tệp CSV
PrintWriter wr = new PrintWriter(new FileOutputStream("C:\\Files\\OMR\\Sheet1.csv"), true);
wr.println(csvResult);

Tổng hợp

Quét tài liệu trong Java mở ra một thế giới khả năng để xây dựng các ứng dụng mạnh mẽ xử lý các tài liệu được quét. Số hóa tài liệu không chỉ tiết kiệm thời gian và tài nguyên mà còn trao quyền cho bạn với khả năng quản lý tài liệu nâng cao, mở đường cho quy trình làm việc hợp lý và hiệu quả hơn cho các dự án của bạn trong Java.

Xem thêm