Відсканований файл PDF у Word OCR csharp

Відскановані файли PDF містять зображення, текст яких не можна вибрати чи відредагувати. У певних ситуаціях може знадобитися конвертувати сканований PDF-файл у документ Word. У цій статті ви дізнаєтеся, як програмно конвертувати сканований PDF-файл у документ Word у форматі DOCX або DOC за допомогою C#:

Перетворювач відсканованих файлів PDF у Word DOCX – встановлення C# API

Ви можете працювати зі сканованими PDF-файлами, виконуючи операції OCR за допомогою Aspose.OCR for .NET API, а потім створюючи документ Word за допомогою Aspose.Words for .NET API програмно за допомогою C#. Ви можете налаштувати API, завантаживши файли DLL із Нові випуски або за допомогою таких команд інсталяції NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Програмне перетворення відсканованого PDF-файлу на документ Word за допомогою C#

Ви можете конвертувати відскановані PDF-файли в документи Word шляхом оптичного розпізнавання тексту. Операції оптичного розпізнавання символів перетворюють сканований PDF-файл на текст, а потім документ Word створюється у форматі DOC або DOCX. Будь ласка, виконайте наведені нижче кроки, щоб перетворити сканований PDF-файл на документ Word:

  1. Ініціалізувати екземпляр класу AsposeOcr.
  2. Розпізнавайте зображення з PDF за допомогою класу DocumentRecognitionSettings.
  3. Ініціалізуйте об’єкт класу StringBuilder і збережіть текст.
  4. Ініціалізуйте документ Word за допомогою класу Document.
  5. Вкажіть шрифт і форматування абзаців.
  6. Збережіть вихідний документ Word як файл DOCX або DOC.

У наведеному нижче фрагменті коду показано, як програмно перетворити сканований PDF-файл на документ Word за допомогою C#:

// Ініціалізація екземпляра класу AsposeOcr
AsposeOcr api = new AsposeOcr();

// Розпізнавайте зображення з PDF за допомогою класу DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Зберегти результати розпізнавання
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Ініціалізація об’єкта класу StringBuilder
StringBuilder text = new StringBuilder();

// Зберегти результат як текст
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Ініціалізація документа Word за допомогою класу Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Вкажіть форматування шрифту
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Вкажіть форматування абзацу
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Зберегти вихідний документ Word. 
doc.Save("Scanned_PDF_to_Word.docx");

Отримайте безкоштовну оціночну ліцензію

Ви можете протестувати API на повну потужність, надіславши запит на безкоштовну тимчасову ліцензію.

Висновок

У цій статті ви дізналися, як програмним шляхом за допомогою C# конвертувати сканований файл PDF у документ Word у форматі DOCX або DOC. Крім того, ви можете ознайомитися з кількома іншими функціями, пов’язаними з OCR, відвідавши документацію. У разі будь-яких запитань зв’яжіться з нами на форумі.

Дивись також

Порада. Якщо вам колись знадобиться отримати документ Word із презентації PowerPoint, ви можете скористатися конвертером Aspose Presentation to Word Document.