Отсканированные файлы PDF содержат изображения, текст которых нельзя выделить или отредактировать. В некоторых ситуациях вам может понадобиться преобразовать отсканированный PDF в документ Word. В этой статье вы узнаете, как программно преобразовать отсканированный PDF-файл в документ Word в формате DOCX или DOC с помощью C#:
- Конвертер отсканированных PDF в Word DOCX — установка C# API
- Программное преобразование отсканированного PDF в документ Word с помощью C#
Конвертер отсканированных PDF в Word DOCX — установка C# API
Вы можете работать с отсканированными PDF-файлами, выполняя операции OCR с помощью Aspose.OCR для .NET API, а затем создавать документ Word с помощью Aspose.Words для .NET API программно с помощью C#. Вы можете настроить API, загрузив файлы DLL из Новые выпуски или с помощью следующих команд установки NuGet:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Программное преобразование отсканированного PDF в документ Word с помощью C#
Вы можете преобразовать отсканированные PDF-файлы в документы Word, распознав текст оптически. Операции OCR преобразуют отсканированный PDF-файл в текст, после чего документ Word создается в формате DOC или DOCX. Чтобы преобразовать отсканированный PDF в документ Word, выполните следующие действия:
- Инициализировать экземпляр класса AsposeOcr.
- Распознавайте изображения из PDF с помощью класса DocumentRecognitionSettings.
- Инициализируйте объект класса StringBuilder и сохраните текст.
- Инициализируйте документ Word с помощью класса Document.
- Укажите шрифт и форматирование абзаца.
- Сохраните выходной документ Word как файл DOCX или DOC.
В следующем фрагменте кода показано, как программно преобразовать отсканированный PDF-файл в документ Word с помощью C#:
// Инициализировать экземпляр класса AsposeOcr
AsposeOcr api = new AsposeOcr();
// Распознавание изображений из PDF с помощью класса DocumentRecognitionSettings
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Сохранить результаты распознавания
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// Инициализировать объект класса StringBuilder
StringBuilder text = new StringBuilder();
// Сохранить результат как текст
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// Инициализируйте документ Word с помощью класса Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Укажите форматирование шрифта
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// Укажите форматирование абзаца
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// Сохраните выходной документ Word.
doc.Save("Scanned_PDF_to_Word.docx");
Получите бесплатную ознакомительную лицензию
Вы можете протестировать API в полном объеме, запросив бесплатную временную лицензию.
Вывод
В этой статье вы узнали, как программно преобразовать отсканированный PDF-файл в документ Word в формате DOCX или DOC с помощью C#. Кроме того, вы можете изучить некоторые другие функции, связанные с OCR, посетив документацию. Пожалуйста, не стесняйтесь обращаться к нам на форуме в случае возникновения каких-либо вопросов.
Смотрите также
Совет: если вам когда-нибудь понадобится получить документ Word из презентации PowerPoint, вы можете использовать конвертер Aspose Presentation to Word Document.