OCR PDF и извлечение текста из PDF в Python

Технология оптического распознавания символов (OCR) играет ключевую роль в оцифровке печатного, отсканированного или рукописного текста из различных источников, включая документы PDF. В этом сообщении блога мы научимся распознавать PDF-документы с помощью оптического распознавания символов и извлекать текст из PDF в Python.

В этой статье рассматриваются следующие темы:

  1. API Python OCR из PDF в TXT
  2. OCR PDF и извлечение текста из PDF
  3. Сохранить отсканированный PDF-файл в текст
  4. Бесплатные учебные ресурсы

PDF в TXT — API Python OCR

Мы будем использовать Aspose.OCR for Python для выполнения оптического распознавания PDF-документов и извлечения текста из PDF-файлов. Aspose.OCR for Python — это мощный API оптического распознавания символов (OCR), который может распознавать текст из отсканированных изображений, фотографий со смартфона, снимков экрана и областей изображений. API возвращает распознанные текстовые результаты в наиболее популярных форматах документов и обмена данными, включая PDF, XML, JSON и обычный текст.

Помимо преобразования изображений в текст, Aspose.OCR for Python также может создавать PDF-файлы с возможностью поиска на основе сканирований. API также может автоматически исправлять орфографические ошибки в распознанных текстах, что делает его идеальным для различных приложений.

Пожалуйста, загрузите пакет или установите API из PyPI, используя следующую команду pip в консоли:

pip install aspose-ocr-python-net

Python OCR PDF — извлечение текста из PDF в Python

Мы можем выполнить распознавание текста в PDF-документах и извлечь распознанный текст, выполнив следующие действия:

  1. Создайте экземпляр класса AsposeOcr.
  2. Инициализируйте объект класса DocumentRecognitionSettings.
  3. Добавьте PDF-файл в пакет распознавания.
  4. После этого вызовите метод распознавания().
  5. Наконец, покажите идентифицированный текст, используя класс RecognitionResult.

В следующем примере кода показано, как распознавать документы PDF с помощью оптического распознавания символов и извлекать текст из PDF в Python.

# В этом примере кода показано, как распознавать и извлекать текст из отсканированного PDF-документа в Python.
import aspose.ocr as ocr

# Инициализировать механизм OCR
api = ocr.AsposeOcr()

# Инициализация настроек распознавания
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Добавить файл в пакет распознавания
files = ocr.OcrInput(ocr.InputType.PDF)

# Получите доступ к отсканированному PDF-файлу и установите номер страницы и общее количество страниц.
files.add("C:\\Files\\sample.pdf", 0, 1)

# Распознать текст
result = api.recognize(files , settings)

# Распечатать результат распознавания
print(result[0].recognition_text)

Python OCR PDF — сохранение отсканированного PDF в текст на Python

Мы можем выполнить распознавание текста в PDF-документах и сохранить распознанный текст, выполнив следующие действия:

  1. Создайте экземпляр класса AsposeOcr.
  2. Инициализируйте объект класса DocumentRecognitionSettings.
  3. Добавьте PDF-файл в пакет распознавания.
  4. После этого вызовите метод распознавания().
  5. Наконец, сохраните текст с помощью метода savemultipagedocument(). В качестве аргументов он принимает путь к выходному файлу, объект SaveFormat и RecognitionResult.

В следующем примере кода показано, как распознавать PDF-документы с помощью оптического распознавания символов и сохранять распознанный текст в Python.

# В этом примере кода показано, как сохранить распознанный и извлечь текст с помощью Python.
import aspose.ocr as ocr

# Инициализировать механизм OCR
api = ocr.AsposeOcr()

# Инициализация настроек распознавания
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Добавить файл в пакет распознавания
files = ocr.OcrInput(ocr.InputType.PDF)

# Получите доступ к отсканированному PDF-файлу и установите номер страницы и общее количество страниц.
files.add("C:\\Files\\sample.pdf", 0, 1)

# Распознать текст
result = api.recognize(files , settings)

# Распечатать результат распознавания
print(result[0].recognition_text)

# Сохраните извлеченный текст
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Получите бесплатную пробную лицензию

Вы можете получить бесплатную временную лицензию, чтобы опробовать библиотеку без ограничений ознакомительной версии.

Python OCR PDF — бесплатные ресурсы

Вы можете дополнительно изучить следующие ресурсы для изучения API Python OCR:

Заключение

В этой статье мы узнали, как выполнять распознавание текста в PDF-документах и извлекать текст из PDF в Python. Возможность извлекать текст из PDF-файлов с помощью оптического распознавания символов меняет правила игры во многих отраслях: от архивирования и юридической документации до анализа данных и оцифровки контента. Используя Aspose.OCR for Python, разработчики и энтузиасты могут легко интегрировать возможности OCR в свои проекты Python. В случае возникновения каких-либо неясностей, пожалуйста, свяжитесь с нами на нашем бесплатном форуме поддержки.

Смотрите также