Отсканированный PDF в Word OCR csharp

Отсканированные файлы PDF содержат изображения, текст которых нельзя выделить или отредактировать. В некоторых ситуациях вам может понадобиться преобразовать отсканированный PDF в документ Word. В этой статье вы узнаете, как программно преобразовать отсканированный PDF-файл в документ Word в формате DOCX или DOC с помощью C#:

Конвертер отсканированных PDF в Word DOCX — установка C# API

Вы можете работать с отсканированными PDF-файлами, выполняя операции OCR с помощью Aspose.OCR для .NET API, а затем создавать документ Word с помощью Aspose.Words для .NET API программно с помощью C#. Вы можете настроить API, загрузив файлы DLL из Новые выпуски или с помощью следующих команд установки NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Программное преобразование отсканированного PDF в документ Word с помощью C#

Вы можете преобразовать отсканированные PDF-файлы в документы Word, распознав текст оптически. Операции OCR преобразуют отсканированный PDF-файл в текст, после чего документ Word создается в формате DOC или DOCX. Чтобы преобразовать отсканированный PDF в документ Word, выполните следующие действия:

  1. Инициализировать экземпляр класса AsposeOcr.
  2. Распознавайте изображения из PDF с помощью класса DocumentRecognitionSettings.
  3. Инициализируйте объект класса StringBuilder и сохраните текст.
  4. Инициализируйте документ Word с помощью класса Document.
  5. Укажите шрифт и форматирование абзаца.
  6. Сохраните выходной документ Word как файл DOCX или DOC.

В следующем фрагменте кода показано, как программно преобразовать отсканированный PDF-файл в документ Word с помощью C#:

// Инициализировать экземпляр класса AsposeOcr
AsposeOcr api = new AsposeOcr();

// Распознавание изображений из PDF с помощью класса DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Сохранить результаты распознавания
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Инициализировать объект класса StringBuilder
StringBuilder text = new StringBuilder();

// Сохранить результат как текст
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Инициализируйте документ Word с помощью класса Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Укажите форматирование шрифта
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Укажите форматирование абзаца
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Сохраните выходной документ Word. 
doc.Save("Scanned_PDF_to_Word.docx");

Получите бесплатную ознакомительную лицензию

Вы можете протестировать API в полном объеме, запросив бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как программно преобразовать отсканированный PDF-файл в документ Word в формате DOCX или DOC с помощью C#. Кроме того, вы можете изучить некоторые другие функции, связанные с OCR, посетив документацию. Пожалуйста, не стесняйтесь обращаться к нам на форуме в случае возникновения каких-либо вопросов.

Смотрите также

Совет: если вам когда-нибудь понадобится получить документ Word из презентации PowerPoint, вы можете использовать конвертер Aspose Presentation to Word Document.