OCR изображения в текст и исправление орфографии в Java

Мы можем выполнять распознавание изображений или отсканированных документов, чтобы программно распознавать и извлекать текст из изображений с помощью Java. Затем мы можем запустить проверку орфографии, чтобы исправить орфографические ошибки в распознанном тексте. В этой статье мы узнаем, как преобразовать изображение в текст с исправлением орфографии в Java.

В этой статье должны быть раскрыты следующие темы:

  1. Конвертер изображений Java в текст с исправлением орфографии
  2. OCR изображения в текст и получить орфографические ошибки
  3. Преобразование изображения в текст с исправлением орфографии
  4. Сохранить изображение в текст с исправленным написанием
  5. Пользовательский текст для проверки орфографии

Преобразователь изображений Java в текст с исправлением орфографии

Чтобы преобразовать изображение в текст с исправлением орфографии, мы будем использовать API Aspose.OCR для Java. Он позволяет выполнять распознавание отсканированных изображений, фотографий смартфонов, снимков экрана, областей изображения и отсканированных PDF-файлов. Это позволяет нам сохранять распознанные текстовые результаты в популярных форматах документов. API также позволяет преобразовывать изображения в текст и автоматически исправлять орфографические ошибки в распознанном тексте.

Класс AsposeOCR — это основной API для выполнения операций OCR. Метод RecognizePage(String fullPath, RecognitionSettings settings) этого класса распознает текст на изображениях поддерживаемых форматов. Метод API CorrectSpelling(String text, SpellCheckLanguage) заменяет слова с ошибками правильными словами в тексте. Класс RecognitionResult представляет результаты распознавания изображений. Метод saveSpellCheckCorrectedText(string, Format, SpellCheckLanguage, string) этого класса сохраняет документ как обычный текст, PDF или документ Microsoft Word. Все поддерживаемые языки для проверки орфографии определены в перечислении SpellCheckLanguage.

Пожалуйста, либо загрузите JAR API, либо добавьте следующую конфигурацию pom.xml в приложение Java на основе Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>22.6</version>
</dependency>

OCR изображения в текст и получить орфографические ошибки в Java

Мы можем выполнить распознавание изображений и получить список орфографических ошибок в распознанном тексте, выполнив следующие шаги:

  1. Во-первых, создайте экземпляр класса AsposeOCR.
  2. Затем инициализируйте объект класса RecognitionSettings.
  3. Затем получите RecognitionResult, вызвав метод RecognizePage(). В качестве аргументов он принимает путь к изображению и объект RecognitionSettings.
  4. После этого вызовите метод getSpellCheckErrorList(), чтобы получить список слов с ошибками с предложениями.
  5. Наконец, просмотрите список SpellCheckError и покажите результаты.

В следующем примере кода показано, как получить список орфографических ошибок из распознанного текста в Java.

// В этом примере кода показано, как получить список орфографических ошибок из распознанного текста.
String imagePath = "C:\\Files\\sample.jpg";

// Создать API распознавания текста
AsposeOCR api = new AsposeOCR();

// Инициализировать настройки распознавания
RecognitionSettings settings = new RecognitionSettings();

// Распознать изображение           
RecognitionResult result = api.RecognizePage(imagePath, settings);

// Получить список слов с ошибками с предложениями
List<SpellCheckError> errorsList = result.getSpellCheckErrorList(SpellCheckLanguage.Eng);

for (SpellCheckError error : errorsList)
{
    // Показать слово
    System.out.println("Misspelled Word - " + error.word);
  
    // Показать предлагаемые слова
    for(SuggestedWord suggest : error.suggestedWords)
    {
      System.out.println("Suggested word - " + suggest.word);
    }

    System.out.println();
}
OCR изображения в текст и получить орфографические ошибки в Java

Получить список орфографических ошибок в Java

Преобразование изображения в текст с исправлением орфографии в Java

Мы можем преобразовать изображение в текст и автоматически исправить орфографические ошибки, выполнив следующие действия:

  1. Во-первых, создайте экземпляр класса AsposeOCR.
  2. Затем инициализируйте объект класса RecognitionSettings.
  3. Затем получите RecognitionResult, вызвав метод RecognizePage(). В качестве аргументов он принимает путь к изображению и объект RecognitionSettings.
  4. После этого вызовите метод getSpellCheckCorrectedText(), чтобы получить текст с исправлением орфографии.
  5. Наконец, покажите результаты.

В следующем примере кода показано, как автоматически исправлять орфографические ошибки в распознанном тексте в Java.

// В этом примере кода показано, как автоматически исправлять орфографические ошибки в распознанном тексте.
// Путь к изображению для распознавания
String imagePath = "C:\\Files\\sample.jpg";

// Создать API распознавания текста
AsposeOCR api = new AsposeOCR();

// Инициализировать настройки распознавания
RecognitionSettings settings = new RecognitionSettings();

// Распознать текст с изображения    
RecognitionResult result = api.RecognizePage(imagePath, new RecognitionSettings());

// Получить исправленный результат
String correctedResult = result.getSpellCheckCorrectedText(SpellCheckLanguage.Eng);

// Показать результаты
System.out.println(correctedResult);
Преобразование изображения в текст с исправлением орфографии в Java

Преобразование изображения в текст с исправлением орфографии в Java

Сохранить изображение в текст с исправленным написанием в Java

Мы можем сохранить распознанный текст с изображения после исправления орфографии, выполнив следующие действия:

  1. Во-первых, создайте экземпляр класса AsposeOCR.
  2. Затем инициализируйте объект класса RecognitionSettings.
  3. После этого получите RecognitionResult, вызвав метод RecognizePage(). В качестве аргументов он принимает путь к изображению и объект RecognitionSettings.
  4. Наконец, вызовите метод saveSpellCheckCorrectedText(), чтобы сохранить текст.

В следующем примере кода показано, как сохранить текст с исправлением орфографии в Java.

// В этом примере кода показано, как сохранить распознанный текст с исправлением орфографии.
// Путь к изображению для распознавания
String imagePath = "C:\\Files\\sample.jpg";
String resultPath = "C:\\Files\\MyResult.txt";

// Создать API распознавания текста
AsposeOCR api = new AsposeOCR();

// Инициализировать настройки распознавания
RecognitionSettings settings = new RecognitionSettings();

// Распознать текст с изображения 
RecognitionResult result = api.RecognizePage(imagePath, new RecognitionSettings());

// Сохраните исправленный текст
result.saveSpellCheckCorrectedText(resultPath, Format.Text, SpellCheckLanguage.Eng);

Проверка орфографии текста в Java

Мы также можем запустить проверку орфографии для пользовательского текста, выполнив следующие шаги:

  1. Во-первых, создайте экземпляр класса AsposeOCR.
  2. Затем вызовите метод CorrectSpelling(). Он принимает текст для исправления и SpellCheckLanguage в качестве аргументов.
  3. Наконец, покажите результаты.

В следующем примере кода показано, как проверять орфографию пользовательского текста в Java.

// В этом примере кода показано, как запустить проверку орфографии в настраиваемой текстовой строке.
// Текст для проверки орфографии
String textToCorrect = "This is sample text wth errrors";

// Создать API распознавания текста
AsposeOCR api = new AsposeOCR();

// Запустите проверку орфографии, чтобы исправить ошибки
String correctedText = api.CorrectSpelling(textToCorrect, SpellCheckLanguage.Eng);

// Показать результаты
System.out.println(correctedText);
This is sample text with errors

Get a Free Evaluation License

Вы можете получить бесплатную временную лицензию, чтобы попробовать Aspose.OCR для Java без ограничений на пробную версию.

Conclusion

В этой статье мы узнали, как:

  • выполнять OCR и распознавать текст на изображениях;
  • конвертировать изображения в текст;
  • получить список слов с ошибками вместе с правильными вариантами слов;
  • автокоррекция орфографических ошибок;
  • сохранить исправленный текст с помощью Java.

Помимо преобразования изображения в текст с исправлением орфографии, вы можете узнать больше об Aspose.OCR for Java API, используя документацию. В случае возникновения каких-либо неясностей, пожалуйста, свяжитесь с нами на нашем бесплатном форуме поддержки.

See Also