отсканированный pdf в текст csharp

Отсканированный PDF-файл — это, по сути, одно или несколько плоских изображений, снятых сканером или камерой. Вы не можете копировать, вставлять или обрабатывать информацию из таких файлов. В этой статье рассказывается, как преобразовать отсканированный файл PDF в текст на C#.

Преобразование отсканированного PDF в текст — установка C# API

Aspose.OCR for .NET API используется для выполнения операций OCR. Он может оптически распознавать символы из изображений или отсканированных PDF-документов. Настройте API, загрузив файл DLL из раздела Новые версии или с помощью следующей команды установки NuGet.

PM> Install-Package Aspose.OCR

Преобразование отсканированного PDF в текстовую строку на С#

Вы можете преобразовать отсканированный PDF-файл в текстовую строку, выполнив над ним операции OCR. Чтобы распечатать текст из отсканированного PDF-документа, выполните следующие действия:

  1. Укажите параметр для распознавания отсканированного PDF-файла.
  2. Инициализировать экземпляр класса AsposeOcr.
  3. Инициализировать объект класса RecognitionResult.
  4. Распечатайте текст после распознавания его из отсканированного PDF.

В следующем фрагменте кода показано, как распознать текст из отсканированного PDF-файла на C#:

// Инициализировать экземпляр класса AsposeOcr
AsposeOcr api = new AsposeOcr();

// Укажите параметр для распознавания отсканированного PDF-файла
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Инициализировать объект класса RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Печать текста после распознавания из отсканированного PDF
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Программное преобразование отсканированного PDF в файл TXT на C#

Вы можете преобразовать отсканированный файл PDF в файл TXT, выполнив следующие действия:

  1. Создайте объект класса AsposeOcr.
  2. Создайте объект класса DocumentRecognitionSettings.
  3. Сохраните результаты распознавания и инициализируйте экземпляр класса StringBuilder.
  4. Сохраните результат в файле TXT.

Фрагмент кода ниже объясняет, как программно преобразовать отсканированный файл PDF в файл TXT на C#:

// Инициализировать экземпляр класса AsposeOcr
AsposeOcr api = new AsposeOcr();

// Распознавать изображения из PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Сохранить результаты распознавания
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Инициализировать объект класса StringBuilder
StringBuilder builder = new StringBuilder();

// Сохранить результат в файл TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Получите бесплатную ознакомительную лицензию

Вы можете запросить бесплатную ознакомительную лицензию, чтобы полностью протестировать API.

Вывод

В этой статье вы узнали, как программно преобразовать отсканированный файл PDF в текстовую строку или текстовый файл с помощью C#. Кроме того, вы можете ознакомиться с некоторыми другими функциями API, посетив документацию. Пожалуйста, не стесняйтесь обращаться к нам на форум в случае каких-либо проблем.

Смотрите также