PDF numérisé vers Word OCR csharp

Les fichiers PDF numérisés contiennent des images dont le texte ne peut pas être sélectionné ou modifié. Dans certaines situations, vous devrez peut-être convertir un PDF numérisé en document Word. Dans cet article, vous apprendrez comment convertir un PDF numérisé en document Word au format DOCX ou DOC par programmation à l’aide de C# :

Convertisseur PDF numérisé en Word DOCX - Installation de l’API C#

Vous pouvez travailler avec des fichiers PDF numérisés en effectuant des opérations OCR avec l’API Aspose.OCR for .NET, puis créer un document Word à l’aide de l’API Aspose.Words for .NET par programmation à l’aide de C#. Vous pouvez configurer les API en téléchargeant les fichiers DLL à partir des New Releases, ou avec les commandes d’installation NuGet suivantes :

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Convertir un PDF numérisé en document Word par programmation à l’aide de C#

Vous pouvez convertir des fichiers PDF numérisés en documents Word en reconnaissant optiquement le texte. Les opérations OCR convertissent le PDF numérisé en texte, puis le document Word est généré au format DOC ou DOCX. Veuillez suivre les étapes ci-dessous pour convertir un PDF numérisé en un document Word :

  1. Initialisez l’instance de classe AsposeOcr.
  2. Reconnaître les images du PDF avec la classe DocumentRecognitionSettings.
  3. Initialisez l’objet de classe StringBuilder et enregistrez le texte.
  4. Initialisez le document Word avec la classe Document.
  5. Spécifiez la police et la mise en forme des paragraphes.
  6. Enregistrez le document Word de sortie en tant que fichier DOCX ou DOC.

L’extrait de code suivant montre comment convertir un fichier PDF numérisé en un document Word par programmation à l’aide de C# :

// Initialiser l'instance de classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconnaître les images du PDF avec la classe DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Enregistrer les résultats de la reconnaissance
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Initialiser l'objet de classe StringBuilder
StringBuilder text = new StringBuilder();

// Enregistrer le résultat sous forme de texte
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Initialisez le document Word avec la classe Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Spécifier la mise en forme de la police
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Spécifier la mise en forme des paragraphes
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Enregistrer le document Word de sortie. 
doc.Save("Scanned_PDF_to_Word.docx");

Obtenez une licence d’évaluation gratuite

Vous pouvez tester les API à pleine capacité en demandant une licence temporaire gratuite.

Conclusion

Dans cet article, vous avez appris à convertir un fichier PDF numérisé en un document Word au format DOCX ou DOC par programmation à l’aide de C#. De plus, vous pouvez explorer plusieurs autres fonctionnalités liées à l’OCR en visitant la documentation. N’hésitez pas à nous contacter sur le forum en cas de questions.

Voir également

Conseil : Si vous avez besoin d’obtenir un document Word à partir d’une présentation PowerPoint, vous pouvez utiliser le convertisseur Aspose Presentation to Word Document.