OCR hình ảnh thành văn bản và sửa chính tả trong Java

Chúng tôi có thể thực hiện OCR trên hình ảnh hoặc tài liệu được quét để nhận dạng và trích xuất văn bản từ hình ảnh theo lập trình bằng Java. Sau đó, chúng tôi có thể chạy trình kiểm tra chính tả để sửa lỗi chính tả trong văn bản được nhận dạng. Trong bài viết này, chúng ta sẽ học cách chuyển đổi một hình ảnh thành văn bản với tính năng sửa lỗi chính tả trong Java.

Các chủ đề sau sẽ được đề cập trong bài viết này:

  1. Java Image to Text Converter with Spelling Correction
  2. OCR ảnh thành văn bản và mắc lỗi chính tả
  3. Chuyển hình ảnh thành văn bản với sửa lỗi chính tả
  4. Lưu hình ảnh thành văn bản với chính tả được sửa
  5. Văn bản tùy chỉnh kiểm tra chính tả

Trình chuyển đổi hình ảnh sang văn bản trong Java với tính năng sửa lỗi chính tả

Để chuyển đổi hình ảnh thành văn bản có sửa lỗi chính tả, chúng tôi sẽ sử dụng API Aspose.OCR cho Java. Nó cho phép thực hiện OCR trên hình ảnh được quét, ảnh điện thoại thông minh, ảnh chụp màn hình, các khu vực của hình ảnh và các tệp PDF được quét. Nó cho phép chúng tôi lưu các kết quả văn bản được nhận dạng ở các định dạng tài liệu phổ biến. API cũng cho phép chuyển đổi hình ảnh thành văn bản và tự động sửa lỗi chính tả trong văn bản được nhận dạng.

Lớp AsposeOCR là API chính để thực hiện các hoạt động OCR. Phương thức RecognizePage (String fullPath, RecognitionSettings settings) của lớp này nhận dạng văn bản trên ảnh của các định dạng được hỗ trợ. Phương thức CorrectSpelling (String text, SpellCheckLanguage language) của API thay thế các từ sai chính tả bằng các từ đúng trong văn bản. Lớp RecognitionResult đại diện cho kết quả nhận dạng hình ảnh. Phương thức saveSpellCheckCorctingText (string, Format, SpellCheckLanguage, string) của lớp này lưu tài liệu dưới dạng văn bản thuần túy, PDF hoặc Tài liệu Microsoft Word. Tất cả các ngôn ngữ được hỗ trợ để kiểm tra chính tả được xác định trong bảng liệt kê SpellCheckLanguage.

Vui lòng tải xuống JAR của API hoặc thêm cấu hình pom.xml sau vào ứng dụng Java dựa trên Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>22.6</version>
</dependency>

OCR chuyển hình ảnh thành văn bản và mắc lỗi chính tả trong Java

Chúng tôi có thể thực hiện OCR trên hình ảnh và nhận danh sách các lỗi chính tả trong văn bản được nhận dạng bằng cách làm theo các bước dưới đây:

  1. Đầu tiên, tạo một thể hiện của lớp AsposeOCR.
  2. Tiếp theo, khởi tạo một đối tượng của lớp RecognitionSettings.
  3. Sau đó, nhận RecognitionResult bằng cách gọi phương thức RecognizePage(). Nó lấy đường dẫn hình ảnh và đối tượng RecognitionSettings làm đối số.
  4. Sau đó, gọi phương thức getSpellCheckErrorList() để lấy danh sách các từ sai chính tả kèm theo các gợi ý.
  5. Cuối cùng, lặp qua danh sách SpellCheckError và hiển thị kết quả.

Đoạn mã mẫu sau đây cho biết cách lấy danh sách các lỗi chính tả từ một văn bản được công nhận trong Java.

// Ví dụ mã này trình bày cách lấy danh sách các lỗi chính tả từ một văn bản được công nhận
String imagePath = "C:\\Files\\sample.jpg";

// Tạo API OCR
AsposeOCR api = new AsposeOCR();

// Khởi tạo cài đặt nhận dạng
RecognitionSettings settings = new RecognitionSettings();

// Nhận dạng hình ảnh           
RecognitionResult result = api.RecognizePage(imagePath, settings);

// Nhận danh sách các từ sai chính tả với các đề xuất
List<SpellCheckError> errorsList = result.getSpellCheckErrorList(SpellCheckLanguage.Eng);

for (SpellCheckError error : errorsList)
{
    // Hiển thị từ
    System.out.println("Misspelled Word - " + error.word);
  
    // Hiển thị các từ gợi ý
    for(SuggestedWord suggest : error.suggestedWords)
    {
      System.out.println("Suggested word - " + suggest.word);
    }

    System.out.println();
}
OCR chuyển hình ảnh thành văn bản và mắc lỗi chính tả trong Java

Nhận danh sách các lỗi chính tả trong Java

Chuyển đổi hình ảnh thành văn bản với tính năng sửa lỗi chính tả trong Java

Chúng tôi có thể chuyển đổi hình ảnh thành văn bản và tự động sửa lỗi chính tả bằng cách làm theo các bước dưới đây:

  1. Đầu tiên, tạo một thể hiện của lớp AsposeOCR.
  2. Tiếp theo, khởi tạo một đối tượng của lớp RecognitionSettings.
  3. Sau đó, nhận RecognitionResult bằng cách gọi phương thức RecognizePage(). Nó lấy đường dẫn hình ảnh và đối tượng RecognitionSettings làm đối số.
  4. Sau đó, gọi phương thức getSpellCheckCorctingText() để lấy văn bản có sửa lỗi chính tả.
  5. Cuối cùng, hiển thị kết quả.

Đoạn mã mẫu sau đây cho biết cách tự động sửa lỗi chính tả từ một văn bản được nhận dạng trong Java.

// Ví dụ mã này trình bày cách tự động sửa lỗi chính tả từ một văn bản được nhận dạng.
// Đường dẫn đến hình ảnh để nhận dạng
String imagePath = "C:\\Files\\sample.jpg";

// Tạo API OCR
AsposeOCR api = new AsposeOCR();

// Khởi tạo cài đặt nhận dạng
RecognitionSettings settings = new RecognitionSettings();

// Nhận dạng văn bản từ hình ảnh    
RecognitionResult result = api.RecognizePage(imagePath, new RecognitionSettings());

// Nhận kết quả đã sửa
String correctedResult = result.getSpellCheckCorrectedText(SpellCheckLanguage.Eng);

// Hiển thị kết quả
System.out.println(correctedResult);
Chuyển đổi hình ảnh thành văn bản với tính năng sửa chính tả trong Java

Chuyển đổi hình ảnh thành văn bản với tính năng sửa chính tả trong Java

Lưu hình ảnh thành văn bản với cách viết đã sửa trong Java

Chúng tôi có thể lưu văn bản được nhận dạng từ một hình ảnh sau khi sửa lỗi chính tả bằng cách làm theo các bước dưới đây:

  1. Đầu tiên, tạo một thể hiện của lớp AsposeOCR.
  2. Tiếp theo, khởi tạo một đối tượng của lớp RecognitionSettings.
  3. Sau đó, nhận RecognitionResult bằng cách gọi phương thức RecognizePage(). Nó lấy đường dẫn hình ảnh và đối tượng RecognitionSettings làm đối số.
  4. Cuối cùng, gọi phương thức saveSpellCheckCorctingText() để lưu văn bản.

Đoạn mã mẫu sau đây cho thấy cách lưu văn bản với tính năng sửa lỗi chính tả trong Java.

// Ví dụ mã này trình bày cách lưu văn bản được nhận dạng với sửa lỗi chính tả.
// Đường dẫn đến hình ảnh để nhận dạng
String imagePath = "C:\\Files\\sample.jpg";
String resultPath = "C:\\Files\\MyResult.txt";

// Tạo API OCR
AsposeOCR api = new AsposeOCR();

// Khởi tạo cài đặt nhận dạng
RecognitionSettings settings = new RecognitionSettings();

// Nhận dạng văn bản từ hình ảnh 
RecognitionResult result = api.RecognizePage(imagePath, new RecognitionSettings());

// Lưu văn bản đã sửa
result.saveSpellCheckCorrectedText(resultPath, Format.Text, SpellCheckLanguage.Eng);

Văn bản Kiểm tra Chính tả trong Java

Chúng tôi cũng có thể chạy kiểm tra chính tả trên một văn bản tùy chỉnh bằng cách làm theo các bước được cung cấp bên dưới:

  1. Đầu tiên, tạo một thể hiện của lớp AsposeOCR.
  2. Tiếp theo, gọi phương thức CorrectSpelling(). Nó cần văn bản để sửa và SpellCheckLanguage làm đối số.
  3. Cuối cùng, hiển thị kết quả.

Đoạn mã mẫu sau đây cho biết cách kiểm tra chính tả văn bản tùy chỉnh trong Java.

// Ví dụ mã này trình bày cách chạy kiểm tra chính tả trên chuỗi văn bản tùy chỉnh.
// Văn bản để kiểm tra chính tả
String textToCorrect = "This is sample text wth errrors";

// Tạo API OCR
AsposeOCR api = new AsposeOCR();

// Chạy Kiểm tra chính tả để sửa lỗi
String correctedText = api.CorrectSpelling(textToCorrect, SpellCheckLanguage.Eng);

// Hiển thị kết quả
System.out.println(correctedText);
This is sample text with errors

Nhận Giấy phép Đánh giá Miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để dùng thử Aspose.OCR cho Java mà không có giới hạn đánh giá.

Sự kết luận

Trong bài viết này, chúng tôi đã học cách:

  • thực hiện OCR và nhận dạng văn bản trên hình ảnh;
  • chuyển đổi hình ảnh sang văn bản;
  • nhận danh sách các từ sai chính tả cùng với các gợi ý từ đúng;
  • tự sửa lỗi chính tả;
  • lưu văn bản đã sửa bằng Java.

Bên cạnh việc chuyển đổi hình ảnh thành văn bản với sửa lỗi chính tả, bạn có thể tìm hiểu thêm về Aspose.OCR cho Java API bằng cách sử dụng tài liệu. Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn hỗ trợ miễn phí của chúng tôi.

Xem thêm