Відскановані файли PDF містять зображення, текст яких не можна вибрати чи відредагувати. У певних ситуаціях може знадобитися конвертувати сканований PDF-файл у документ Word. У цій статті ви дізнаєтеся, як програмно конвертувати сканований PDF-файл у документ Word у форматі DOCX або DOC за допомогою C#:
- Перетворювач відсканованих файлів PDF у Word DOCX – встановлення C# API
- Програмне перетворення відсканованого PDF-файлу на документ Word за допомогою C#
Перетворювач відсканованих файлів PDF у Word DOCX – встановлення C# API
Ви можете працювати зі сканованими PDF-файлами, виконуючи операції OCR за допомогою Aspose.OCR for .NET API, а потім створюючи документ Word за допомогою Aspose.Words for .NET API програмно за допомогою C#. Ви можете налаштувати API, завантаживши файли DLL із Нові випуски або за допомогою таких команд інсталяції NuGet:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
Програмне перетворення відсканованого PDF-файлу на документ Word за допомогою C#
Ви можете конвертувати відскановані PDF-файли в документи Word шляхом оптичного розпізнавання тексту. Операції оптичного розпізнавання символів перетворюють сканований PDF-файл на текст, а потім документ Word створюється у форматі DOC або DOCX. Будь ласка, виконайте наведені нижче кроки, щоб перетворити сканований PDF-файл на документ Word:
- Ініціалізувати екземпляр класу AsposeOcr.
- Розпізнавайте зображення з PDF за допомогою класу DocumentRecognitionSettings.
- Ініціалізуйте об’єкт класу StringBuilder і збережіть текст.
- Ініціалізуйте документ Word за допомогою класу Document.
- Вкажіть шрифт і форматування абзаців.
- Збережіть вихідний документ Word як файл DOCX або DOC.
У наведеному нижче фрагменті коду показано, як програмно перетворити сканований PDF-файл на документ Word за допомогою C#:
// Ініціалізація екземпляра класу AsposeOcr
AsposeOcr api = new AsposeOcr();
// Розпізнавайте зображення з PDF за допомогою класу DocumentRecognitionSettings
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Зберегти результати розпізнавання
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// Ініціалізація об’єкта класу StringBuilder
StringBuilder text = new StringBuilder();
// Зберегти результат як текст
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// Ініціалізація документа Word за допомогою класу Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Вкажіть форматування шрифту
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// Вкажіть форматування абзацу
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// Зберегти вихідний документ Word.
doc.Save("Scanned_PDF_to_Word.docx");
Отримайте безкоштовну оціночну ліцензію
Ви можете протестувати API на повну потужність, надіславши запит на безкоштовну тимчасову ліцензію.
Висновок
У цій статті ви дізналися, як програмним шляхом за допомогою C# конвертувати сканований файл PDF у документ Word у форматі DOCX або DOC. Крім того, ви можете ознайомитися з кількома іншими функціями, пов’язаними з OCR, відвідавши документацію. У разі будь-яких запитань зв’яжіться з нами на форумі.
Дивись також
Порада. Якщо вам колись знадобиться отримати документ Word із презентації PowerPoint, ви можете скористатися конвертером Aspose Presentation to Word Document.