сканований pdf в текст csharp

Відсканований PDF-файл містить одне або кілька плоских зображень, зроблених сканером або камерою. Ви не можете копіювати, вставляти або обробляти інформацію з таких файлів. У цій статті розповідається про те, як перетворити сканований PDF-файл на текст у C#.

Перетворення відсканованого PDF-файлу в текстовий – встановлення C# API

Aspose.OCR for .NET API використовується для виконання операцій OCR. Він може оптично розпізнавати символи із зображень або відсканованих PDF-документів. Будь ласка, налаштуйте API, завантаживши файл DLL із розділу Нові випуски або за допомогою наступної інсталяційної команди NuGet.

PM> Install-Package Aspose.OCR

Перетворення відсканованого PDF-файлу на текстовий рядок у C#

Відсканований PDF-файл можна перетворити на текстовий рядок, виконавши над ним операції OCR. Щоб надрукувати текст зі сканованого PDF-документа, потрібно виконати наведені нижче дії.

  1. Вкажіть параметр для розпізнавання відсканованого файлу PDF.
  2. Ініціалізувати екземпляр класу AsposeOcr.
  3. Ініціалізувати об’єкт класу RecognitionResult.
  4. Роздрукувати текст після його розпізнавання зі сканованого PDF-файлу.

У наведеному нижче фрагменті коду показано, як розпізнати текст зі сканованого PDF-файлу в C#:

// Ініціалізація екземпляра класу AsposeOcr
AsposeOcr api = new AsposeOcr();

// Вкажіть параметр для розпізнавання відсканованого файлу PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Ініціалізувати об’єкт класу RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Друк тексту після його розпізнавання зі сканованого PDF-файлу
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Програмне перетворення відсканованого PDF-файлу на файл TXT на C#

Ви можете конвертувати сканований файл PDF у файл TXT, виконавши такі дії:

  1. Створіть об’єкт класу AsposeOcr.
  2. Створіть об’єкт класу DocumentRecognitionSettings.
  3. Збережіть результати розпізнавання та ініціалізуйте екземпляр класу StringBuilder.
  4. Збережіть результат у файлі TXT.

У наведеному нижче фрагменті коду пояснюється, як програмно перетворити сканований файл PDF у файл TXT на C#:

// Ініціалізація екземпляра класу AsposeOcr
AsposeOcr api = new AsposeOcr();

// Розпізнавати зображення з PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Зберегти результати розпізнавання
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Ініціалізація об’єкта класу StringBuilder
StringBuilder builder = new StringBuilder();

// Збережіть результат у файлі TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Отримайте безкоштовну оціночну ліцензію

Ви можете надіслати запит на ліцензію на безкоштовну оцінку, щоб перевірити API на повну потужність.

Висновок

У цій статті ви дізналися, як програмно перетворити сканований PDF-файл у текстовий рядок або текстовий файл за допомогою C#. Крім того, ви можете перевірити кілька інших функцій API, відвідавши документація. Будь ласка, не соромтеся зв’язуватися з нами на форумі у разі будь-яких проблем.

Дивись також