PDF digitalizado para Word OCR csharp

Os arquivos PDF digitalizados contêm imagens em que o texto não pode ser selecionado ou editado. Em determinadas situações, pode ser necessário converter PDF digitalizado em documento do Word. Neste artigo, você aprenderá como converter um PDF digitalizado em um documento do Word no formato DOCX ou DOC programaticamente usando C#:

Conversor de PDF digitalizado para Word DOCX – Instalação da API C#

Você pode trabalhar com arquivos PDF digitalizados executando operações de OCR com a API Aspose.OCR for .NET e, em seguida, criar um documento do Word usando a API Aspose.Words for .NET programaticamente usando C#. Você pode configurar as APIs baixando os arquivos DLL de New Releases ou com os seguintes comandos de instalação do NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Converter PDF digitalizado em documento do Word programaticamente usando C#

Você pode converter arquivos PDF digitalizados em documentos do Word reconhecendo o texto opticamente. As operações de OCR convertem o PDF digitalizado em texto e, em seguida, o documento do Word é gerado no formato DOC ou DOCX. Siga as etapas abaixo para converter PDF digitalizado em um documento do Word:

  1. Inicialize a instância da classe AsposeOcr.
  2. Reconheça imagens de PDF com a classe DocumentRecognitionSettings.
  3. Inicialize o objeto da classe StringBuilder e salve o texto.
  4. Inicialize o documento do Word com a classe Document.
  5. Especifique a formatação da fonte e do parágrafo.
  6. Salve o documento do Word de saída como arquivo DOCX ou DOC.

O trecho de código a seguir mostra como converter um arquivo PDF digitalizado em um documento do Word programaticamente usando C#:

// Inicialize a instância da classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconhecer imagens de PDF com a classe DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Salvar resultados de reconhecimento
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Inicialize o objeto da classe StringBuilder
StringBuilder text = new StringBuilder();

// Salvar resultado como texto
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Inicialize o documento do Word com a classe Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Especificar a formatação da fonte
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Especificar formatação de parágrafo
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Salvar documento do Word de saída. 
doc.Save("Scanned_PDF_to_Word.docx");

Obtenha Licença de Avaliação Gratuita

Você pode testar as APIs em plena capacidade solicitando uma licença temporária gratuita.

Conclusão

Neste artigo, você aprendeu como converter um arquivo PDF digitalizado em um documento do Word no formato DOCX ou DOC programaticamente usando C#. Além disso, você pode explorar vários outros recursos relacionados ao OCR visitando a documentação. Sinta-se à vontade para entrar em contato conosco no fórum em caso de dúvidas.

Veja também

Dica: Se você precisar obter um documento do Word de uma apresentação do PowerPoint, poderá usar o conversor Aspose Apresentação para documento do Word.