Технологія оптичного розпізнавання символів (OCR) відіграє ключову роль у оцифровуванні друкованого, відсканованого чи рукописного тексту з різних джерел, зокрема документів PDF. У цій публікації блогу ми дізнаємося, як розпізнавати PDF-документи та видобувати текст із PDF-файлів у Python.
Ця стаття охоплює такі теми:
- PDF у TXT Python OCR API
- OCR PDF і вилучення тексту з PDF
- Зберегти відсканований PDF-файл у текст
- Безкоштовні навчальні ресурси
PDF у TXT – API OCR Python
Ми будемо використовувати Aspose.OCR for Python для розпізнавання PDF-документів і вилучення тексту з PDF-файлів. Aspose.OCR for Python — це потужний API оптичного розпізнавання символів (OCR), який може розпізнавати текст зі сканованих зображень, фотографій зі смартфона, скріншотів і областей зображень. API повертає розпізнані текстові результати в найпопулярніших форматах документів і обміну даними, включаючи PDF, XML, JSON і звичайний текст.
Крім перетворення зображень на текст, Aspose.OCR for Python також може створювати PDF-файли з можливістю пошуку на основі сканованих файлів. API також може автоматично виправляти орфографічні помилки в розпізнаних текстах, що робить його ідеальним для різноманітних програм.
Завантажте пакет або встановіть API з PyPI за допомогою такої команди pip у консолі:
pip install aspose-ocr-python-net
Python OCR PDF – видобуток тексту з PDF на Python
Ми можемо розпізнати PDF-документи та витягнути розпізнаний текст, виконавши наведені нижче дії.
- Створіть екземпляр класу AsposeOcr.
- Ініціалізація об’єкта класу DocumentRecognitionSettings.
- Додайте файл PDF до пакету розпізнавання.
- Після цього викличте метод розпізнавання().
- Нарешті, покажіть ідентифікований текст за допомогою класу RecognitionResult.
Наведений нижче зразок коду показує, як розпізнавати PDF-документи та витягувати текст із PDF-файлів у Python.
# Цей приклад коду демонструє, як розпізнавати та витягувати текст зі сканованого PDF-документа в Python.
import aspose.ocr as ocr
# Ініціалізувати механізм OCR
api = ocr.AsposeOcr()
# Ініціалізувати параметри розпізнавання
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Додайте файл до пакету розпізнавання
files = ocr.OcrInput(ocr.InputType.PDF)
# Перейдіть до відсканованого PDF-файлу та встановіть номер сторінки та загальну кількість сторінок
files.add("C:\\Files\\sample.pdf", 0, 1)
# Упізнай текст
result = api.recognize(files , settings)
# Результат розпізнавання друку
print(result[0].recognition_text)
Python OCR PDF – збереження відсканованого PDF-файлу в текст на Python
Ми можемо розпізнати PDF-документи та зберегти розпізнаний текст, виконавши наведені нижче дії.
- Створіть екземпляр класу AsposeOcr.
- Ініціалізація об’єкта класу DocumentRecognitionSettings.
- Додайте файл PDF до пакету розпізнавання.
- Після цього викличте метод розпізнавання().
- Нарешті, збережіть текст за допомогою методу savemultipagedocument(). Він приймає вихідний шлях до файлу, SaveFormat і об’єкт RecognitionResult як аргументи.
У наведеному нижче прикладі коду показано, як розпізнавати PDF-документи та зберігати розпізнаний текст у Python.
# Цей приклад коду демонструє, як зберегти розпізнаний і витягти текст за допомогою Python.
import aspose.ocr as ocr
# Ініціалізувати механізм OCR
api = ocr.AsposeOcr()
# Ініціалізувати параметри розпізнавання
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Додайте файл до пакету розпізнавання
files = ocr.OcrInput(ocr.InputType.PDF)
# Перейдіть до відсканованого PDF-файлу та встановіть номер сторінки та загальну кількість сторінок
files.add("C:\\Files\\sample.pdf", 0, 1)
# Упізнай текст
result = api.recognize(files , settings)
# Результат розпізнавання друку
print(result[0].recognition_text)
# Збережіть витягнутий текст
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)
Отримайте безкоштовну оціночну ліцензію
Ви можете отримати безкоштовну тимчасову ліцензію, щоб спробувати бібліотеку без оціночних обмежень.
Python OCR PDF – безкоштовні ресурси
Щоб дізнатися про Python OCR API, ви можете додатково ознайомитися з такими ресурсами:
Висновок
У цій статті ми дізналися, як розпізнавати PDF-документи та видобувати текст із PDF-файлів у Python. Можливість отримувати текст із PDF-файлів за допомогою оптичного розпізнавання тексту змінює правила в багатьох галузях, від архівування та юридичної документації до аналізу даних і оцифровки вмісту. Використовуючи Aspose.OCR for Python, розробники та ентузіасти можуть легко інтегрувати можливості OCR у свої проекти Python. У разі будь-яких неясностей зв’яжіться з нами на нашому безкоштовному форумі підтримки.