Отсканированный PDF-файл — это, по сути, одно или несколько плоских изображений, снятых сканером или камерой. Вы не можете копировать, вставлять или обрабатывать информацию из таких файлов. В этой статье рассказывается, как преобразовать отсканированный файл PDF в текст на C#.
- Преобразование отсканированного PDF в текст — установка C# API
- Преобразование отсканированного PDF в текстовую строку на С#
- Программное преобразование отсканированного PDF в файл TXT на C#
Преобразование отсканированного PDF в текст — установка C# API
Aspose.OCR for .NET API используется для выполнения операций OCR. Он может оптически распознавать символы из изображений или отсканированных PDF-документов. Настройте API, загрузив файл DLL из раздела Новые версии или с помощью следующей команды установки NuGet.
PM> Install-Package Aspose.OCR
Преобразование отсканированного PDF в текстовую строку на С#
Вы можете преобразовать отсканированный PDF-файл в текстовую строку, выполнив над ним операции OCR. Чтобы распечатать текст из отсканированного PDF-документа, выполните следующие действия:
- Укажите параметр для распознавания отсканированного PDF-файла.
- Инициализировать экземпляр класса AsposeOcr.
- Инициализировать объект класса RecognitionResult.
- Распечатайте текст после распознавания его из отсканированного PDF.
В следующем фрагменте кода показано, как распознать текст из отсканированного PDF-файла на C#:
// Инициализировать экземпляр класса AsposeOcr
AsposeOcr api = new AsposeOcr();
// Укажите параметр для распознавания отсканированного PDF-файла
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Инициализировать объект класса RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// Печать текста после распознавания из отсканированного PDF
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Программное преобразование отсканированного PDF в файл TXT на C#
Вы можете преобразовать отсканированный файл PDF в файл TXT, выполнив следующие действия:
- Создайте объект класса AsposeOcr.
- Создайте объект класса DocumentRecognitionSettings.
- Сохраните результаты распознавания и инициализируйте экземпляр класса StringBuilder.
- Сохраните результат в файле TXT.
Фрагмент кода ниже объясняет, как программно преобразовать отсканированный файл PDF в файл TXT на C#:
// Инициализировать экземпляр класса AsposeOcr
AsposeOcr api = new AsposeOcr();
// Распознавать изображения из PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Сохранить результаты распознавания
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// Инициализировать объект класса StringBuilder
StringBuilder builder = new StringBuilder();
// Сохранить результат в файл TXT
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
Получите бесплатную ознакомительную лицензию
Вы можете запросить бесплатную ознакомительную лицензию, чтобы полностью протестировать API.
Вывод
В этой статье вы узнали, как программно преобразовать отсканированный файл PDF в текстовую строку или текстовый файл с помощью C#. Кроме того, вы можете ознакомиться с некоторыми другими функциями API, посетив документацию. Пожалуйста, не стесняйтесь обращаться к нам на форум в случае каких-либо проблем.