Imagen OCR a texto y corrección ortográfica en Java

Podemos realizar OCR en imágenes o documentos escaneados para reconocer y extraer texto de imágenes mediante programación usando Java. Luego podemos ejecutar un corrector ortográfico para corregir errores ortográficos en el texto reconocido. En este artículo, aprenderemos cómo convertir una imagen en texto con corrección ortográfica en Java.

En este artículo se tratarán los siguientes temas:

  1. Conversor de imagen a texto de Java con corrección ortográfica
  2. Imagen OCR a texto y errores ortográficos
  3. Convertir imagen a texto con corrección ortográfica
  4. Guardar imagen en texto con ortografía corregida
  5. Corrección ortográfica de texto personalizado

Convertidor de imagen a texto de Java con corrección ortográfica

Para convertir una imagen en texto con correcciones ortográficas, usaremos la API Aspose.OCR para Java. Permite realizar OCR en imágenes escaneadas, fotos de teléfonos inteligentes, capturas de pantalla, áreas de una imagen y archivos PDF escaneados. Nos permite guardar los resultados de texto reconocidos en formatos de documentos populares. La API también permite convertir imágenes a texto y autocorregir errores ortográficos en el texto reconocido.

La clase AsposeOCR es la API principal para realizar operaciones de OCR. El método RecognizePage(String fullPath, RecognitionSettings settings) de esta clase reconoce texto en las imágenes de los formatos admitidos. El método CorrectSpelling(String text, SpellCheckLanguage language) de la API reemplaza las palabras mal escritas con palabras correctas en el texto. La clase RecognitionResult representa los resultados del reconocimiento de imágenes. El método saveSpellCheckCorrectedText(string, Format, SpellCheckLanguage, string) de esta clase guarda el documento como texto sin formato, PDF o Documento de Microsoft Word. Todos los idiomas admitidos para el corrector ortográfico se definen en la enumeración SpellCheckLanguage.

Descargue el JAR de la API o agregue la siguiente configuración pom.xml en una aplicación Java basada en Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>22.6</version>
</dependency>

Imagen OCR a texto y obtener errores de ortografía en Java

Podemos realizar OCR en imágenes y obtener una lista de errores ortográficos en el texto reconocido siguiendo los pasos que se detallan a continuación:

  1. En primer lugar, cree una instancia de la clase AsposeOCR.
  2. A continuación, inicialice un objeto de la clase RecognitionSettings.
  3. Luego, obtenga RecognitionResult llamando al método RecognizePage(). Toma la ruta de la imagen y el objeto RecognitionSettings como argumentos.
  4. Después de eso, llame al método getSpellCheckErrorList() para obtener una lista de palabras mal escritas con sugerencias.
  5. Finalmente, recorra la lista SpellCheckError y muestre los resultados.

El siguiente código de ejemplo muestra cómo obtener una lista de errores ortográficos de un texto reconocido en Java.

// Este ejemplo de código demuestra cómo obtener una lista de errores ortográficos de un texto reconocido
String imagePath = "C:\\Files\\sample.jpg";

// Crear API de OCR
AsposeOCR api = new AsposeOCR();

// Inicializar la configuración de reconocimiento
RecognitionSettings settings = new RecognitionSettings();

// Reconocer imagen           
RecognitionResult result = api.RecognizePage(imagePath, settings);

// Obtenga una lista de palabras mal escritas con sugerencias
List<SpellCheckError> errorsList = result.getSpellCheckErrorList(SpellCheckLanguage.Eng);

for (SpellCheckError error : errorsList)
{
    // Mostrar palabra
    System.out.println("Misspelled Word - " + error.word);
  
    // Mostrar palabras sugeridas
    for(SuggestedWord suggest : error.suggestedWords)
    {
      System.out.println("Suggested word - " + suggest.word);
    }

    System.out.println();
}
Imagen OCR a texto y obtener errores de ortografía en Java

Obtener una lista de errores ortográficos en Java

Convertir imagen a texto con corrección ortográfica en Java

Podemos convertir una imagen a texto y autocorregir los errores ortográficos siguiendo los pasos que se detallan a continuación:

  1. En primer lugar, cree una instancia de la clase AsposeOCR.
  2. A continuación, inicialice un objeto de la clase RecognitionSettings.
  3. Luego, obtenga RecognitionResult llamando al método RecognizePage(). Toma la ruta de la imagen y el objeto RecognitionSettings como argumentos.
  4. Después de eso, llame al método getSpellCheckCorrectedText() para obtener texto con corrección ortográfica.
  5. Por último, mostrar los resultados.

El siguiente código de ejemplo muestra cómo corregir automáticamente los errores ortográficos de un texto reconocido en Java.

// Este ejemplo de código demuestra cómo corregir automáticamente los errores ortográficos de un texto reconocido.
// Camino a la imagen a reconocer
String imagePath = "C:\\Files\\sample.jpg";

// Crear API de OCR
AsposeOCR api = new AsposeOCR();

// Inicializar la configuración de reconocimiento
RecognitionSettings settings = new RecognitionSettings();

// Reconocer texto de una imagen    
RecognitionResult result = api.RecognizePage(imagePath, new RecognitionSettings());

// Obtener resultado corregido
String correctedResult = result.getSpellCheckCorrectedText(SpellCheckLanguage.Eng);

// Mostrar resultados
System.out.println(correctedResult);
Convertir imagen a texto con corrección ortográfica en Java

Convertir imagen a texto con corrección ortográfica en Java

Guardar imagen en texto con ortografía corregida en Java

Podemos guardar el texto reconocido de una imagen después de la corrección ortográfica siguiendo los pasos que se detallan a continuación:

  1. En primer lugar, cree una instancia de la clase AsposeOCR.
  2. A continuación, inicialice un objeto de la clase RecognitionSettings.
  3. Después de eso, obtenga RecognitionResult llamando al método RecognizePage(). Toma la ruta de la imagen y el objeto RecognitionSettings como argumentos.
  4. Finalmente, llama al método saveSpellCheckCorrectedText() para guardar el texto.

El siguiente código de ejemplo muestra cómo guardar el texto con corrección ortográfica en Java.

// Este ejemplo de código muestra cómo guardar el texto reconocido con corrección ortográfica.
// Camino a la imagen a reconocer
String imagePath = "C:\\Files\\sample.jpg";
String resultPath = "C:\\Files\\MyResult.txt";

// Crear API de OCR
AsposeOCR api = new AsposeOCR();

// Inicializar la configuración de reconocimiento
RecognitionSettings settings = new RecognitionSettings();

// Reconocer texto de una imagen 
RecognitionResult result = api.RecognizePage(imagePath, new RecognitionSettings());

// Guardar el texto corregido
result.saveSpellCheckCorrectedText(resultPath, Format.Text, SpellCheckLanguage.Eng);

Revisar la ortografía del texto en Java

También podemos ejecutar la revisión ortográfica en un texto personalizado siguiendo los pasos que se detallan a continuación:

  1. En primer lugar, cree una instancia de la clase AsposeOCR.
  2. A continuación, llame al método CorrectSpelling(). Toma el texto para corregir y SpellCheckLanguage como argumentos.
  3. Por último, mostrar los resultados.

El siguiente código de ejemplo muestra cómo revisar la ortografía del texto personalizado en Java.

// Este ejemplo de código demuestra cómo ejecutar la revisión ortográfica en una cadena de texto personalizada.
// Texto para revisión ortográfica
String textToCorrect = "This is sample text wth errrors";

// Crear API de OCR
AsposeOCR api = new AsposeOCR();

// Ejecute el corrector ortográfico para corregir errores
String correctedText = api.CorrectSpelling(textToCorrect, SpellCheckLanguage.Eng);

// Mostrar resultados
System.out.println(correctedText);
This is sample text with errors

Get a Free Evaluation License

Puede obtener una licencia temporal gratuita para probar Aspose.OCR para Java sin limitaciones de evaluación.

Conclusion

En este artículo, hemos aprendido a:

  • realizar OCR y reconocer texto en imágenes;
  • convertir imágenes a texto;
  • obtenga una lista de las palabras mal escritas junto con sugerencias de palabras correctas;
  • autocorregir errores ortográficos;
  • guarde el texto corregido usando Java.

Además de convertir una imagen en texto con correcciones ortográficas, puede obtener más información sobre Aspose.OCR para la API de Java utilizando la documentación. En caso de cualquier ambigüedad, no dude en contactarnos en nuestro foro de soporte gratuito.

See Also