Відсканований PDF-файл містить одне або кілька плоских зображень, зроблених сканером або камерою. Ви не можете копіювати, вставляти або обробляти інформацію з таких файлів. У цій статті розповідається про те, як перетворити сканований PDF-файл на текст у C#.
- Перетворення відсканованого PDF-файлу в текстовий – встановлення C# API
- Перетворення відсканованого PDF-файлу на текстовий рядок у C#
- Програмне перетворення відсканованого PDF-файлу на файл TXT на C#
Перетворення відсканованого PDF-файлу в текстовий – встановлення C# API
Aspose.OCR for .NET API використовується для виконання операцій OCR. Він може оптично розпізнавати символи із зображень або відсканованих PDF-документів. Будь ласка, налаштуйте API, завантаживши файл DLL із розділу Нові випуски або за допомогою наступної інсталяційної команди NuGet.
PM> Install-Package Aspose.OCR
Перетворення відсканованого PDF-файлу на текстовий рядок у C#
Відсканований PDF-файл можна перетворити на текстовий рядок, виконавши над ним операції OCR. Щоб надрукувати текст зі сканованого PDF-документа, потрібно виконати наведені нижче дії.
- Вкажіть параметр для розпізнавання відсканованого файлу PDF.
- Ініціалізувати екземпляр класу AsposeOcr.
- Ініціалізувати об’єкт класу RecognitionResult.
- Роздрукувати текст після його розпізнавання зі сканованого PDF-файлу.
У наведеному нижче фрагменті коду показано, як розпізнати текст зі сканованого PDF-файлу в C#:
// Ініціалізація екземпляра класу AsposeOcr
AsposeOcr api = new AsposeOcr();
// Вкажіть параметр для розпізнавання відсканованого файлу PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Ініціалізувати об’єкт класу RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// Друк тексту після його розпізнавання зі сканованого PDF-файлу
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
Програмне перетворення відсканованого PDF-файлу на файл TXT на C#
Ви можете конвертувати сканований файл PDF у файл TXT, виконавши такі дії:
- Створіть об’єкт класу AsposeOcr.
- Створіть об’єкт класу DocumentRecognitionSettings.
- Збережіть результати розпізнавання та ініціалізуйте екземпляр класу StringBuilder.
- Збережіть результат у файлі TXT.
У наведеному нижче фрагменті коду пояснюється, як програмно перетворити сканований файл PDF у файл TXT на C#:
// Ініціалізація екземпляра класу AsposeOcr
AsposeOcr api = new AsposeOcr();
// Розпізнавати зображення з PDF
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// Зберегти результати розпізнавання
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// Ініціалізація об’єкта класу StringBuilder
StringBuilder builder = new StringBuilder();
// Збережіть результат у файлі TXT
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
Отримайте безкоштовну оціночну ліцензію
Ви можете надіслати запит на ліцензію на безкоштовну оцінку, щоб перевірити API на повну потужність.
Висновок
У цій статті ви дізналися, як програмно перетворити сканований PDF-файл у текстовий рядок або текстовий файл за допомогою C#. Крім того, ви можете перевірити кілька інших функцій API, відвідавши документація. Будь ласка, не соромтеся зв’язуватися з нами на форумі у разі будь-яких проблем.