Працювати зі сканованими PDF-документами часто складно через відсутність тексту, який можна шукати чи редагувати. Однак завдяки потужності технології оптичного розпізнавання символів (OCR) вилучення тексту зі сканованих PDF-файлів і перетворення їх у формати для пошуку чи редагування стає реальністю. У цій публікації блогу ви дізнаєтеся, як виконувати розпізнавання тексту PDF за допомогою OCR у Python. Ми також дослідимо, як витягти текст зі сканованих PDF-файлів, перетворити їх у PDF-файли з можливістю пошуку або редагування та розкрити потенціал можливостей OCR Python за допомогою бібліотеки Aspose.OCR for Python через .NET.
- Розпізнавання тексту зі сканованого PDF-файлу за допомогою OCR – встановлення Python API
- Розпізнавайте текст із PDF за допомогою OCR у Python
- Перетворюйте відсканований PDF-файл у PDF-файл із можливістю пошуку чи редагування за допомогою OCR у Python
Розпізнавання тексту зі сканованого PDF-файлу за допомогою OCR – встановлення Python API
Оптичне розпізнавання символів (OCR) — це технологія, яка дозволяє перетворювати зображення або відскановані документи на машиночитаний текст. Аналізуючи форми та візерунки символів на зображенні, алгоритми оптичного розпізнавання символів ідентифікують і розпізнають текст, уможливлюючи вилучення й обробку інформації, що міститься в ньому. Перш ніж почати, вам потрібно встановити Aspose.OCR for Python через .NET, завантаживши його зі сторінки Нові випуски або налаштувати його з PyPi, виконавши наведену нижче команду встановлення:
pip install aspose-ocr-python-net
Розпізнавайте текст із PDF за допомогою OCR у Python
Ви можете розпізнавати або витягувати текст із PDF-файлу за допомогою OCR у Python. Він ефективно витягне текст зі сканованого PDF-документа, оскільки наведені нижче кроки описують простий процес розпізнавання тексту з PDF-файлу за допомогою OCR у Python:
- Створити екземпляр об’єкта класу AsposeOcr.
- Завантажте сканований файл PDF.
- Розпізнавайте текст за допомогою оптичного розпізнавання тексту та друкуйте вихідні дані на консоль.
Наведений нижче зразок коду показує, як розпізнати текст із PDF-файлу за допомогою OCR у Python:
import aspose.ocr as ocr
# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()
# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")
# Recognize text with OCR
result = api.recognize(input)
# Print the output text to the console
print(result[0].recognition_text)
Перетворюйте відсканований PDF-файл у PDF-файл із можливістю пошуку чи редагування за допомогою OCR у Python
Відскановані PDF-файли містять зображення, де ви не можете шукати текст, тому вам потрібно перетворити його на PDF-документ із можливістю пошуку, щоб зробити документ машиночитаним і обробити його відповідно. Будь ласка, виконайте наведені нижче дії, щоб перетворити його на PDF-документ із можливістю пошуку або редагування на Python:
- Створіть об’єкт класу AsposeOcr.
- Ініціалізуйте екземпляр класу [RecognitionSettings][5] і встановіть необхідні властивості.
- Завантажте PDF-файл і встановіть діапазон сторінок для розпізнавання за допомогою OCR.
- Збережіть PDF-файл із можливістю пошуку.
У наведеному нижче прикладі коду показано, як перетворити відсканований PDF-файл на PDF-документ із можливістю пошуку за допомогою OCR у Python:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)
# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)
# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)
# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)
Тут варто зазначити, що ви можете OCR будь-якого діапазону сторінок у документі PDF. Наприклад, розпізнавання тексту з певних сторінок лише там, де індекс сторінки відраховується від нуля, а останнім параметром є підрахунок кількості сторінок, які потрібно обробити за допомогою API. Крім того, ви можете встановити різні параметри розпізнавання для попередньої обробки вихідного файлу, як-от видалення шуму, налаштування контрастності, перевірка перекосів вхідних сторінок тощо для покращеного й точного розпізнавання тексту за допомогою OCR.
Отримайте безкоштовну оціночну ліцензію
Ви можете подати запит на безкоштовну тимчасову ліцензію, щоб оцінити API без будь-яких обмежень оцінки.
Підводячи підсумки
Завдяки потужності технології OCR і Python вилучення тексту зі сканованих PDF-файлів і перетворення їх у формати, доступні для пошуку або редагування, стало дуже доступним. Тут ми дослідили процес розпізнавання тексту PDF за допомогою OCR у Python. Ми обговорили процес інсталяції та вилучення тексту зі сканованих PDF-файлів, впровадження оптичного розпізнавання тексту та перетворення сканованих PDF-файлів у формати, доступні для пошуку або редагування. Використовуючи можливості оптичного розпізнавання символів і передові методи, ви можете розкрити весь потенціал відсканованих PDF-файлів і зробити їх більш доступними та універсальними у своїх проектах. У разі будь-яких неясностей або запитів зв’яжіться з нами через безкоштовний форум підтримки.