OCR PDF і вилучення тексту з PDF на C#

Файл PDF є одним із найпоширеніших ділових документів. У деяких випадках нам може знадобитися програмне читання сканованих PDF-документів. Труднощі вилучення тексту зі сканованих PDF-файлів призвели до розробки інструментів, які полегшують читання та отримання тексту з таких PDF-документів. Залежно від вмісту вашого документа вилучення тексту з PDF-файлів може бути корисним з кількох причин. У цій статті ми дізнаємося, як розпізнавати PDF-документи та видобувати текст із PDF-файлів у C#.

У цій статті будуть розглянуті такі теми:

  1. OCR PDF to Text C# API
  2. OCR PDF і вилучення тексту з PDF
  3. Виконайте OCR у PDF-файлі та збережіть текст
  4. OCR PDF у файл Word
  5. OCR PDF у JSON

OCR PDF to Text C# API

Ми будемо використовувати API Aspose.OCR for .NET для розпізнавання PDF-документів. Він може розпізнавати скановані зображення, фотографії зі смартфона, скріншоти та області зображень. API повертає розпізнані текстові результати в найпопулярніших форматах документів і обміну даними. Окрім перетворення зображень у текст, API також може створювати PDF-файли з можливістю пошуку на основі сканованих зображень. Крім того, він здатний автоматично виправляти орфографічні помилки в розпізнаних текстах.

API надає клас AsposeOcr, який надає різні методи для виконання операцій OCR. Він надає метод RecognizePdf(string, DocumentRecognitionSettings) для розпізнавання тексту з наданого документа PDF. Клас DocumentRecognitionSettings API надає параметри для процесу розпізнавання PDF. Клас RecognitionResult представляє результати розпізнавання зображення.

Завантажте DLL API або встановіть його за допомогою NuGet.

PM> Install-Package Aspose.OCR

OCR PDF і вилучення тексту з PDF на C#

Ми можемо розпізнати PDF-документи та витягнути розпізнаний текст, виконавши наведені нижче дії.

  1. По-перше, створіть екземпляр класу AsposeOcr.
  2. Далі ініціалізуйте об’єкт класу DocumentRecognitionSettings.
  3. Потім вкажіть мову, яка буде використовуватися для OCR.
  4. Після цього отримайте RecognitionResult, викликавши метод RecognizePdf(). Він приймає шлях зображення та об’єкт DocumentRecognitionSettings як аргументи.
  5. Нарешті, прокрутіть список RecognitionResult і покажіть ідентифікований текст.

Наведений нижче зразок коду показує, як розпізнавати PDF-документи та витягувати розпізнаний текст у C#.

// Цей приклад коду демонструє, як розпізнавати документи PDF і витягувати розпізнаний текст.
// Ініціалізуйте механізм PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Ініціалізація налаштувань розпізнавання
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Укажіть мову для OCR. Багатомовність за замовчуванням
recognitionSettings.Language = Language.Eng;

// Розпізнати текст із PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Показати розпізнаний текст
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF і вилучення тексту з PDF на C#

OCR PDF і вилучення тексту з PDF на C#

Виконайте OCR у PDF та збережіть текст у C#

Ми можемо розпізнати PDF-документи та зберегти розпізнаний текст, виконавши наведені нижче дії.

  1. По-перше, створіть екземпляр класу AsposeOcr.
  2. Далі ініціалізуйте об’єкт класу DocumentRecognitionSettings.
  3. Потім вкажіть мову, яка буде використовуватися для OCR.
  4. Після цього викличте метод RecognizePdf(), щоб отримати RecognitionResult. Він приймає шлях зображення та об’єкт DocumentRecognitionSettings як аргументи.
  5. Нарешті, збережіть текст за допомогою методу SaveMultipageDocument(). Він приймає вихідний шлях до файлу, SaveFormat і об’єкт RecognitionResult як аргументи.

У наведеному нижче прикладі коду показано, як розпізнавати PDF-документи та зберігати розпізнаний текст у C#.

// Цей приклад коду демонструє, як розпізнавати документи PDF і витягувати розпізнаний текст.
// Ініціалізуйте механізм PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Ініціалізація налаштувань розпізнавання
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Укажіть мову для OCR. Багатомовність за замовчуванням
recognitionSettings.Language = Language.Eng;

// Розпізнати текст із PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Збережіть розпізнаний текст
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Виконайте OCR у PDF та збережіть текст у C#

Виконайте OCR у PDF та збережіть текст у C#

OCR PDF і перетворення відсканованих PDF-файлів у Word на C#

Ми можемо виконувати оптичне розпізнавання тексту на відсканованих PDF-документах і зберігати розпізнаний текст у документі Word, виконавши кроки, згадані раніше. Однак нам просто потрібно вказати SaveFormat.Docx на останньому кроці.

У наведеному нижче прикладі коду показано, як OCR PDF і зберегти розпізнаний текст як документ Word у C#.

// У цьому прикладі коду показано, як розпізнавати документи PDF і зберігати розпізнаний текст у форматі DOCX.
// Ініціалізуйте механізм PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Ініціалізація налаштувань розпізнавання
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Укажіть мову для OCR. Багатомовність за замовчуванням
recognitionSettings.Language = Language.Eng;

// Розпізнати текст із PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Збережіть розпізнаний текст як DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF і перетворення відсканованих PDF-файлів у Word на C#

OCR PDF і перетворення відсканованих PDF-файлів у Word на C#

OCR PDF і конвертація PDF у JSON на C#

Ми можемо розпізнати PDF-документи та зберегти розпізнаний текст у файлі JSON, виконавши кроки, згадані раніше. Однак нам просто потрібно вказати SaveFormat.Json на останньому кроці.

У наведеному нижче прикладі коду показано, як OCR PDF і зберегти розпізнаний текст як файл JSON у C#.

// У цьому прикладі коду показано, як розпізнавати документи PDF і зберігати розпізнаний текст як JSON.
// Ініціалізуйте механізм PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Ініціалізація налаштувань розпізнавання
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Укажіть мову для OCR. Багатомовність за замовчуванням
recognitionSettings.Language = Language.Eng;

// Розпізнати текст із PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Збережіть розпізнаний текст як JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Отримайте безкоштовну оціночну ліцензію

Ви можете отримати безкоштовну тимчасову ліцензію, щоб спробувати бібліотеку без оціночних обмежень.

Висновок

У цій статті ми дізналися, як розпізнавати PDF-документи та видобувати текст із PDF-файлів у C#. Ми також бачили, як зберегти розпізнаний текст як файли TXT, DOCX і JSON. Крім того, ви можете дізнатися більше про Aspose.OCR for .NET API за допомогою документації. У разі будь-якої неясності зв’яжіться з нами на нашому форумі.

Дивись також