OCR PDF Python

Працювати зі сканованими PDF-документами часто складно через відсутність тексту, який можна шукати чи редагувати. Однак завдяки потужності технології оптичного розпізнавання символів (OCR) вилучення тексту зі сканованих PDF-файлів і перетворення їх у формати для пошуку чи редагування стає реальністю. У цій публікації блогу ви дізнаєтеся, як виконувати розпізнавання тексту PDF за допомогою OCR у Python. Ми також дослідимо, як витягти текст зі сканованих PDF-файлів, перетворити їх у PDF-файли з можливістю пошуку або редагування та розкрити потенціал можливостей OCR Python за допомогою бібліотеки Aspose.OCR for Python через .NET.

Розпізнавання тексту зі сканованого PDF-файлу за допомогою OCR – встановлення Python API

Оптичне розпізнавання символів (OCR) — це технологія, яка дозволяє перетворювати зображення або відскановані документи на машиночитаний текст. Аналізуючи форми та візерунки символів на зображенні, алгоритми оптичного розпізнавання символів ідентифікують і розпізнають текст, уможливлюючи вилучення й обробку інформації, що міститься в ньому. Перш ніж почати, вам потрібно встановити Aspose.OCR for Python через .NET, завантаживши його зі сторінки Нові випуски або налаштувати його з PyPi, виконавши наведену нижче команду встановлення:

pip install aspose-ocr-python-net

Розпізнавайте текст із PDF за допомогою OCR у Python

Ви можете розпізнавати або витягувати текст із PDF-файлу за допомогою OCR у Python. Він ефективно витягне текст зі сканованого PDF-документа, оскільки наведені нижче кроки описують простий процес розпізнавання тексту з PDF-файлу за допомогою OCR у Python:

  1. Створити екземпляр об’єкта класу AsposeOcr.
  2. Завантажте сканований файл PDF.
  3. Розпізнавайте текст за допомогою оптичного розпізнавання тексту та друкуйте вихідні дані на консоль.

Наведений нижче зразок коду показує, як розпізнати текст із PDF-файлу за допомогою OCR у Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Перетворюйте відсканований PDF-файл у PDF-файл із можливістю пошуку чи редагування за допомогою OCR у Python

Відскановані PDF-файли містять зображення, де ви не можете шукати текст, тому вам потрібно перетворити його на PDF-документ із можливістю пошуку, щоб зробити документ машиночитаним і обробити його відповідно. Будь ласка, виконайте наведені нижче дії, щоб перетворити його на PDF-документ із можливістю пошуку або редагування на Python:

  1. Створіть об’єкт класу AsposeOcr.
  2. Ініціалізуйте екземпляр класу [RecognitionSettings][5] і встановіть необхідні властивості.
  3. Завантажте PDF-файл і встановіть діапазон сторінок для розпізнавання за допомогою OCR.
  4. Збережіть PDF-файл із можливістю пошуку.

У наведеному нижче прикладі коду показано, як перетворити відсканований PDF-файл на PDF-документ із можливістю пошуку за допомогою OCR у Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Тут варто зазначити, що ви можете OCR будь-якого діапазону сторінок у документі PDF. Наприклад, розпізнавання тексту з певних сторінок лише там, де індекс сторінки відраховується від нуля, а останнім параметром є підрахунок кількості сторінок, які потрібно обробити за допомогою API. Крім того, ви можете встановити різні параметри розпізнавання для попередньої обробки вихідного файлу, як-от видалення шуму, налаштування контрастності, перевірка перекосів вхідних сторінок тощо для покращеного й точного розпізнавання тексту за допомогою OCR.

Отримайте безкоштовну оціночну ліцензію

Ви можете подати запит на безкоштовну тимчасову ліцензію, щоб оцінити API без будь-яких обмежень оцінки.

Підводячи підсумки

Завдяки потужності технології OCR і Python вилучення тексту зі сканованих PDF-файлів і перетворення їх у формати, доступні для пошуку або редагування, стало дуже доступним. Тут ми дослідили процес розпізнавання тексту PDF за допомогою OCR у Python. Ми обговорили процес інсталяції та вилучення тексту зі сканованих PDF-файлів, впровадження оптичного розпізнавання тексту та перетворення сканованих PDF-файлів у формати, доступні для пошуку або редагування. Використовуючи можливості оптичного розпізнавання символів і передові методи, ви можете розкрити весь потенціал відсканованих PDF-файлів і зробити їх більш доступними та універсальними у своїх проектах. У разі будь-яких неясностей або запитів зв’яжіться з нами через безкоштовний форум підтримки.

Дивись також