Файл PDF є одним із найпоширеніших ділових документів. У деяких випадках нам може знадобитися програмне читання сканованих PDF-документів. Труднощі вилучення тексту зі сканованих PDF-файлів призвели до розробки інструментів, які полегшують читання та отримання тексту з таких PDF-документів. Залежно від вмісту вашого документа вилучення тексту з PDF-файлів може бути корисним з кількох причин. У цій статті ми дізнаємося, як розпізнавати PDF-документи та видобувати текст із PDF-файлів у C#.
У цій статті будуть розглянуті такі теми:
- OCR PDF to Text C# API
- OCR PDF і вилучення тексту з PDF
- Виконайте OCR у PDF-файлі та збережіть текст
- OCR PDF у файл Word
- OCR PDF у JSON
OCR PDF to Text C# API
Ми будемо використовувати API Aspose.OCR for .NET для розпізнавання PDF-документів. Він може розпізнавати скановані зображення, фотографії зі смартфона, скріншоти та області зображень. API повертає розпізнані текстові результати в найпопулярніших форматах документів і обміну даними. Окрім перетворення зображень у текст, API також може створювати PDF-файли з можливістю пошуку на основі сканованих зображень. Крім того, він здатний автоматично виправляти орфографічні помилки в розпізнаних текстах.
API надає клас AsposeOcr, який надає різні методи для виконання операцій OCR. Він надає метод RecognizePdf(string, DocumentRecognitionSettings) для розпізнавання тексту з наданого документа PDF. Клас DocumentRecognitionSettings API надає параметри для процесу розпізнавання PDF. Клас RecognitionResult представляє результати розпізнавання зображення.
Завантажте DLL API або встановіть його за допомогою NuGet.
PM> Install-Package Aspose.OCR
OCR PDF і вилучення тексту з PDF на C#
Ми можемо розпізнати PDF-документи та витягнути розпізнаний текст, виконавши наведені нижче дії.
- По-перше, створіть екземпляр класу AsposeOcr.
- Далі ініціалізуйте об’єкт класу DocumentRecognitionSettings.
- Потім вкажіть мову, яка буде використовуватися для OCR.
- Після цього отримайте RecognitionResult, викликавши метод RecognizePdf(). Він приймає шлях зображення та об’єкт DocumentRecognitionSettings як аргументи.
- Нарешті, прокрутіть список RecognitionResult і покажіть ідентифікований текст.
Наведений нижче зразок коду показує, як розпізнавати PDF-документи та витягувати розпізнаний текст у C#.
// Цей приклад коду демонструє, як розпізнавати документи PDF і витягувати розпізнаний текст.
// Ініціалізуйте механізм PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// Ініціалізація налаштувань розпізнавання
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// Укажіть мову для OCR. Багатомовність за замовчуванням
recognitionSettings.Language = Language.Eng;
// Розпізнати текст із PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// Показати розпізнаний текст
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
Виконайте OCR у PDF та збережіть текст у C#
Ми можемо розпізнати PDF-документи та зберегти розпізнаний текст, виконавши наведені нижче дії.
- По-перше, створіть екземпляр класу AsposeOcr.
- Далі ініціалізуйте об’єкт класу DocumentRecognitionSettings.
- Потім вкажіть мову, яка буде використовуватися для OCR.
- Після цього викличте метод RecognizePdf(), щоб отримати RecognitionResult. Він приймає шлях зображення та об’єкт DocumentRecognitionSettings як аргументи.
- Нарешті, збережіть текст за допомогою методу SaveMultipageDocument(). Він приймає вихідний шлях до файлу, SaveFormat і об’єкт RecognitionResult як аргументи.
У наведеному нижче прикладі коду показано, як розпізнавати PDF-документи та зберігати розпізнаний текст у C#.
// Цей приклад коду демонструє, як розпізнавати документи PDF і витягувати розпізнаний текст.
// Ініціалізуйте механізм PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// Ініціалізація налаштувань розпізнавання
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// Укажіть мову для OCR. Багатомовність за замовчуванням
recognitionSettings.Language = Language.Eng;
// Розпізнати текст із PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// Збережіть розпізнаний текст
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
OCR PDF і перетворення відсканованих PDF-файлів у Word на C#
Ми можемо виконувати оптичне розпізнавання тексту на відсканованих PDF-документах і зберігати розпізнаний текст у документі Word, виконавши кроки, згадані раніше. Однак нам просто потрібно вказати SaveFormat.Docx на останньому кроці.
У наведеному нижче прикладі коду показано, як OCR PDF і зберегти розпізнаний текст як документ Word у C#.
// У цьому прикладі коду показано, як розпізнавати документи PDF і зберігати розпізнаний текст у форматі DOCX.
// Ініціалізуйте механізм PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// Ініціалізація налаштувань розпізнавання
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// Укажіть мову для OCR. Багатомовність за замовчуванням
recognitionSettings.Language = Language.Eng;
// Розпізнати текст із PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// Збережіть розпізнаний текст як DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF і конвертація PDF у JSON на C#
Ми можемо розпізнати PDF-документи та зберегти розпізнаний текст у файлі JSON, виконавши кроки, згадані раніше. Однак нам просто потрібно вказати SaveFormat.Json на останньому кроці.
У наведеному нижче прикладі коду показано, як OCR PDF і зберегти розпізнаний текст як файл JSON у C#.
// У цьому прикладі коду показано, як розпізнавати документи PDF і зберігати розпізнаний текст як JSON.
// Ініціалізуйте механізм PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// Ініціалізація налаштувань розпізнавання
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// Укажіть мову для OCR. Багатомовність за замовчуванням
recognitionSettings.Language = Language.Eng;
// Розпізнати текст із PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// Збережіть розпізнаний текст як JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);
Отримайте безкоштовну оціночну ліцензію
Ви можете отримати безкоштовну тимчасову ліцензію, щоб спробувати бібліотеку без оціночних обмежень.
Висновок
У цій статті ми дізналися, як розпізнавати PDF-документи та видобувати текст із PDF-файлів у C#. Ми також бачили, як зберегти розпізнаний текст як файли TXT, DOCX і JSON. Крім того, ви можете дізнатися більше про Aspose.OCR for .NET API за допомогою документації. У разі будь-якої неясності зв’яжіться з нами на нашому форумі.