OCR PDF і вилучення тексту з PDF у Python

Технологія оптичного розпізнавання символів (OCR) відіграє ключову роль у оцифровуванні друкованого, відсканованого чи рукописного тексту з різних джерел, зокрема документів PDF. У цій публікації блогу ми дізнаємося, як розпізнавати PDF-документи та видобувати текст із PDF-файлів у Python.

Ця стаття охоплює такі теми:

  1. PDF у TXT Python OCR API
  2. OCR PDF і вилучення тексту з PDF
  3. Зберегти відсканований PDF-файл у текст
  4. Безкоштовні навчальні ресурси

PDF у TXT – API OCR Python

Ми будемо використовувати Aspose.OCR for Python для розпізнавання PDF-документів і вилучення тексту з PDF-файлів. Aspose.OCR for Python — це потужний API оптичного розпізнавання символів (OCR), який може розпізнавати текст зі сканованих зображень, фотографій зі смартфона, скріншотів і областей зображень. API повертає розпізнані текстові результати в найпопулярніших форматах документів і обміну даними, включаючи PDF, XML, JSON і звичайний текст.

Крім перетворення зображень на текст, Aspose.OCR for Python також може створювати PDF-файли з можливістю пошуку на основі сканованих файлів. API також може автоматично виправляти орфографічні помилки в розпізнаних текстах, що робить його ідеальним для різноманітних програм.

Завантажте пакет або встановіть API з PyPI за допомогою такої команди pip у консолі:

pip install aspose-ocr-python-net

Python OCR PDF – видобуток тексту з PDF на Python

Ми можемо розпізнати PDF-документи та витягнути розпізнаний текст, виконавши наведені нижче дії.

  1. Створіть екземпляр класу AsposeOcr.
  2. Ініціалізація об’єкта класу DocumentRecognitionSettings.
  3. Додайте файл PDF до пакету розпізнавання.
  4. Після цього викличте метод розпізнавання().
  5. Нарешті, покажіть ідентифікований текст за допомогою класу RecognitionResult.

Наведений нижче зразок коду показує, як розпізнавати PDF-документи та витягувати текст із PDF-файлів у Python.

# Цей приклад коду демонструє, як розпізнавати та витягувати текст зі сканованого PDF-документа в Python.
import aspose.ocr as ocr

# Ініціалізувати механізм OCR
api = ocr.AsposeOcr()

# Ініціалізувати параметри розпізнавання
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Додайте файл до пакету розпізнавання
files = ocr.OcrInput(ocr.InputType.PDF)

# Перейдіть до відсканованого PDF-файлу та встановіть номер сторінки та загальну кількість сторінок
files.add("C:\\Files\\sample.pdf", 0, 1)

# Упізнай текст
result = api.recognize(files , settings)

# Результат розпізнавання друку
print(result[0].recognition_text)

Python OCR PDF – збереження відсканованого PDF-файлу в текст на Python

Ми можемо розпізнати PDF-документи та зберегти розпізнаний текст, виконавши наведені нижче дії.

  1. Створіть екземпляр класу AsposeOcr.
  2. Ініціалізація об’єкта класу DocumentRecognitionSettings.
  3. Додайте файл PDF до пакету розпізнавання.
  4. Після цього викличте метод розпізнавання().
  5. Нарешті, збережіть текст за допомогою методу savemultipagedocument(). Він приймає вихідний шлях до файлу, SaveFormat і об’єкт RecognitionResult як аргументи.

У наведеному нижче прикладі коду показано, як розпізнавати PDF-документи та зберігати розпізнаний текст у Python.

# Цей приклад коду демонструє, як зберегти розпізнаний і витягти текст за допомогою Python.
import aspose.ocr as ocr

# Ініціалізувати механізм OCR
api = ocr.AsposeOcr()

# Ініціалізувати параметри розпізнавання
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Додайте файл до пакету розпізнавання
files = ocr.OcrInput(ocr.InputType.PDF)

# Перейдіть до відсканованого PDF-файлу та встановіть номер сторінки та загальну кількість сторінок
files.add("C:\\Files\\sample.pdf", 0, 1)

# Упізнай текст
result = api.recognize(files , settings)

# Результат розпізнавання друку
print(result[0].recognition_text)

# Збережіть витягнутий текст
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Отримайте безкоштовну оціночну ліцензію

Ви можете отримати безкоштовну тимчасову ліцензію, щоб спробувати бібліотеку без оціночних обмежень.

Python OCR PDF – безкоштовні ресурси

Щоб дізнатися про Python OCR API, ви можете додатково ознайомитися з такими ресурсами:

Висновок

У цій статті ми дізналися, як розпізнавати PDF-документи та видобувати текст із PDF-файлів у Python. Можливість отримувати текст із PDF-файлів за допомогою оптичного розпізнавання тексту змінює правила в багатьох галузях, від архівування та юридичної документації до аналізу даних і оцифровки вмісту. Використовуючи Aspose.OCR for Python, розробники та ентузіасти можуть легко інтегрувати можливості OCR у свої проекти Python. У разі будь-яких неясностей зв’яжіться з нами на нашому безкоштовному форумі підтримки.

Дивись також