OCR hình ảnh thành văn bản và sửa chính tả trong C#

Chúng tôi có thể thực hiện OCR trên hình ảnh hoặc tài liệu được quét và trích xuất dữ liệu dạng văn bản theo chương trình bằng C#. Sau đó, chúng tôi có thể chạy trình kiểm tra chính tả để sửa lỗi chính tả trong văn bản được nhận dạng. Trong bài viết này, chúng ta sẽ tìm hiểu cách thực hiện OCR ảnh thành văn bản và sửa lỗi chính tả trong C#.

Các chủ đề sau sẽ được đề cập trong bài viết này:

  1. OCR Image to Text and Spelling Correction C# API
  2. OCR ảnh thành văn bản và mắc lỗi chính tả
  3. Chuyển hình ảnh thành văn bản với sửa lỗi chính tả
  4. Lưu văn bản được nhận dạng với chính tả được sửa
  5. Văn bản tùy chỉnh kiểm tra chính tả

OCR Image to Text and Spelling Correction API C#

Chúng tôi sẽ sử dụng API Aspose.OCR cho .NET để thực hiện OCR trên hình ảnh, trích xuất văn bản và sửa lỗi chính tả. Nó có thể nhận dạng hình ảnh được quét, ảnh điện thoại thông minh, ảnh chụp màn hình, các khu vực của hình ảnh và các tệp PDF được quét. Nó trả về kết quả văn bản được công nhận trong các định dạng tài liệu và trao đổi dữ liệu phổ biến nhất. API cũng cho phép chuyển đổi hình ảnh sang văn bản và tạo các tệp PDF có thể tìm kiếm được từ bản quét. Hơn nữa, nó cho phép tự động sửa lỗi chính tả trong văn bản được nhận dạng.

Lớp AsposeOcr là API chính cho thư viện Aspose OCR. Nó cung cấp các phương pháp khác nhau để thực hiện các hoạt động OCR. Phương thức RecognizeImage() của lớp này nhận dạng văn bản trên ảnh của các định dạng được hỗ trợ. Phương thức CorrectSpelling() của API thay thế các từ sai chính tả bằng các từ đúng trong văn bản. Lớp RecognitionResult đại diện cho kết quả nhận dạng hình ảnh. Phương thức Save (string, SaveFormat, bool, SpellCheckLanguage, string) của lớp này lưu tài liệu dưới dạng văn bản thuần túy, PDF hoặc Tài liệu Microsoft Word. Tất cả các ngôn ngữ được hỗ trợ để kiểm tra chính tả được xác định trong bảng liệt kê SpellCheckLanguage.

Vui lòng tải xuống DLL của API hoặc cài đặt nó bằng NuGet.

PM> Install-Package Aspose.OCR

OCR hình ảnh thành văn bản và mắc lỗi chính tả trong C#

Chúng tôi có thể thực hiện OCR trên hình ảnh và nhận danh sách các lỗi chính tả trong văn bản được nhận dạng bằng cách làm theo các bước dưới đây:

  1. Đầu tiên, tạo một thể hiện của lớp AsposeOcr.
  2. Tiếp theo, khởi tạo một đối tượng của lớp RecognitionSettings.
  3. Sau đó, nhận RecognitionResult bằng cách gọi phương thức RecognizeImage(). Nó lấy đường dẫn hình ảnh và đối tượng RecognitionSettings làm đối số.
  4. Sau đó, gọi phương thức GetSpellCheckErrorList() để lấy danh sách các từ sai chính tả kèm theo các gợi ý.
  5. Cuối cùng, lặp qua danh sách SpellCheckError và hiển thị kết quả.

Đoạn mã mẫu sau đây cho biết cách lấy danh sách các lỗi chính tả từ một văn bản được nhận dạng trong C#.

// Ví dụ mã này trình bày cách lấy danh sách từ sai chính tả từ văn bản được nhận dạng.
// Đường dẫn đến hình ảnh để nhận dạng
string imagePath = @"C:\Files\OCR\sample.png";

// Tạo API OCR
AsposeOcr api = new AsposeOcr();

// Khởi tạo cài đặt nhận dạng
RecognitionSettings settings = new RecognitionSettings();

// Nhận dạng hình ảnh           
RecognitionResult result = api.RecognizeImage(imagePath, settings);

// Nhận danh sách các từ sai chính tả với các đề xuất
List<SpellCheckError> errorsList = result.GetSpellCheckErrorList(SpellCheckLanguage.Eng);

foreach (var word in errorsList)
{
    Console.WriteLine($"Misspelled Word - {word.Word}");
    foreach (var suggest in word.SuggestedWords)
    {
        Console.WriteLine($"Suggested word - {suggest.Word}");
    }

    Console.WriteLine();
}
OCR hình ảnh thành văn bản và mắc lỗi chính tả trong C#

Nhận danh sách các lỗi chính tả trong C#

Chuyển đổi hình ảnh thành văn bản với tính năng sửa lỗi chính tả trong C#

Chúng tôi có thể chuyển đổi hình ảnh thành văn bản và tự động sửa lỗi chính tả bằng cách làm theo các bước dưới đây:

  1. Đầu tiên, tạo một thể hiện của lớp AsposeOcr.
  2. Tiếp theo, khởi tạo một đối tượng của lớp RecognitionSettings.
  3. Sau đó, nhận RecognitionResult bằng cách gọi phương thức RecognizeImage(). Nó lấy đường dẫn hình ảnh và đối tượng RecognitionSettings làm đối số.
  4. Sau đó, gọi phương thức GetSpellCheckCorctingText() để lấy văn bản có sửa lỗi chính tả.
  5. Cuối cùng, hiển thị kết quả.

Đoạn mã mẫu sau đây cho biết cách tự động sửa lỗi chính tả từ một văn bản được nhận dạng trong C#.

// Ví dụ mã này trình bày cách tự động sửa lỗi chính tả từ một văn bản được nhận dạng.
// Đường dẫn đến hình ảnh để nhận dạng
string imagePath = @"C:\Files\OCR\sample.png";

// Tạo API OCR
AsposeOcr api = new AsposeOcr();

// Khởi tạo cài đặt nhận dạng
RecognitionSettings settings = new RecognitionSettings();

// Nhận dạng văn bản từ hình ảnh    
RecognitionResult result = api.RecognizeImage(imagePath, new RecognitionSettings());

// Nhận kết quả đã sửa
string correctedResult = result.GetSpellCheckCorrectedText(SpellCheckLanguage.Eng);

// Hiển thị kết quả
Console.WriteLine(correctedResult);
Chuyển đổi hình ảnh thành văn bản với tính năng sửa lỗi chính tả trong C#

Chuyển đổi hình ảnh thành văn bản với tính năng sửa chính tả trong C#

Lưu văn bản được nhận dạng với chính tả được sửa trong C#

Chúng tôi có thể lưu văn bản được nhận dạng từ một hình ảnh sau khi sửa lỗi chính tả bằng cách làm theo các bước dưới đây:

  1. Đầu tiên, tạo một thể hiện của lớp AsposeOcr.
  2. Tiếp theo, khởi tạo một đối tượng của lớp RecognitionSettings.
  3. Sau đó, nhận RecognitionResult bằng cách gọi phương thức RecognizeImage(). Nó lấy đường dẫn hình ảnh và đối tượng RecognitionSettings làm đối số.
  4. Cuối cùng, gọi phương thức Save (string, SaveFormat, bool, SpellCheckLanguage) để lưu văn bản. Nó nhận giá trị bool applySpellingCorrection là true.

Đoạn mã mẫu sau đây cho thấy cách lưu văn bản có sửa lỗi chính tả trong C#.

// Ví dụ mã này trình bày cách lưu văn bản được nhận dạng với sửa lỗi chính tả.
// Đường dẫn đến hình ảnh để nhận dạng
string imagePath = @"C:\Files\OCR\sample.png";
string resultPath = @"C:\Files\OCR\MyResult.txt";

// Tạo API OCR
AsposeOcr api = new AsposeOcr();

// Khởi tạo cài đặt nhận dạng
RecognitionSettings settings = new RecognitionSettings();
         
// Nhận dạng văn bản từ hình ảnh 
RecognitionResult result = api.RecognizeImage(imagePath, new RecognitionSettings());

// Lưu văn bản đã sửa
result.Save(resultPath, SaveFormat.Text, true, SpellCheckLanguage.Eng);

Văn bản Kiểm tra Chính tả trong C#

Chúng tôi cũng có thể chạy kiểm tra chính tả trên một văn bản tùy chỉnh bằng cách làm theo các bước được cung cấp bên dưới:

  1. Đầu tiên, tạo một thể hiện của lớp AsposeOcr.
  2. Tiếp theo, gọi phương thức CorrectSpelling(). Nó cần văn bản để sửa và SpellCheckLanguage làm đối số.
  3. Cuối cùng, hiển thị kết quả.

Đoạn mã mẫu sau đây cho biết cách kiểm tra chính tả văn bản tùy chỉnh trong C#.

// Ví dụ mã này trình bày cách chạy kiểm tra chính tả trên chuỗi văn bản tùy chỉnh.
// Văn bản để kiểm tra chính tả
string textToCorrect = "This is sample text wth errrors";

// Tạo API OCR
AsposeOcr api = new AsposeOcr();

// Chạy Kiểm tra chính tả để sửa lỗi
string correctedText = api.CorrectSpelling(textToCorrect, SpellCheckLanguage.Eng);

// Hiển thị kết quả
Console.WriteLine(correctedText);
This is sample text with errors

Nhận Giấy phép Đánh giá Miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để dùng thử Aspose.OCR cho .NET mà không có giới hạn đánh giá.

Sự kết luận

Trong bài viết này, chúng tôi đã học cách:

  • thực hiện OCR và nhận dạng văn bản trên hình ảnh trong C#;
  • nhận danh sách các từ sai chính tả cùng với các gợi ý từ đúng;
  • tự sửa lỗi chính tả;
  • lưu văn bản đã sửa theo chương trình.

Bên cạnh đó, bạn có thể tìm hiểu thêm về Aspose.OCR cho .NET API bằng cách sử dụng tài liệu. Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn của chúng tôi.

Xem thêm