Технология оптического распознавания символов (OCR) играет ключевую роль в оцифровке печатного, отсканированного или рукописного текста из различных источников, включая документы PDF. В этом сообщении блога мы научимся распознавать PDF-документы с помощью оптического распознавания символов и извлекать текст из PDF в Python.
В этой статье рассматриваются следующие темы:
- API Python OCR из PDF в TXT
- OCR PDF и извлечение текста из PDF
- Сохранить отсканированный PDF-файл в текст
- Бесплатные учебные ресурсы
PDF в TXT — API Python OCR
Мы будем использовать Aspose.OCR for Python для выполнения оптического распознавания PDF-документов и извлечения текста из PDF-файлов. Aspose.OCR for Python — это мощный API оптического распознавания символов (OCR), который может распознавать текст из отсканированных изображений, фотографий со смартфона, снимков экрана и областей изображений. API возвращает распознанные текстовые результаты в наиболее популярных форматах документов и обмена данными, включая PDF, XML, JSON и обычный текст.
Помимо преобразования изображений в текст, Aspose.OCR for Python также может создавать PDF-файлы с возможностью поиска на основе сканирований. API также может автоматически исправлять орфографические ошибки в распознанных текстах, что делает его идеальным для различных приложений.
Пожалуйста, загрузите пакет или установите API из PyPI, используя следующую команду pip в консоли:
pip install aspose-ocr-python-net
Python OCR PDF — извлечение текста из PDF в Python
Мы можем выполнить распознавание текста в PDF-документах и извлечь распознанный текст, выполнив следующие действия:
- Создайте экземпляр класса AsposeOcr.
- Инициализируйте объект класса DocumentRecognitionSettings.
- Добавьте PDF-файл в пакет распознавания.
- После этого вызовите метод распознавания().
- Наконец, покажите идентифицированный текст, используя класс RecognitionResult.
В следующем примере кода показано, как распознавать документы PDF с помощью оптического распознавания символов и извлекать текст из PDF в Python.
# В этом примере кода показано, как распознавать и извлекать текст из отсканированного PDF-документа в Python.
import aspose.ocr as ocr
# Инициализировать механизм OCR
api = ocr.AsposeOcr()
# Инициализация настроек распознавания
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Добавить файл в пакет распознавания
files = ocr.OcrInput(ocr.InputType.PDF)
# Получите доступ к отсканированному PDF-файлу и установите номер страницы и общее количество страниц.
files.add("C:\\Files\\sample.pdf", 0, 1)
# Распознать текст
result = api.recognize(files , settings)
# Распечатать результат распознавания
print(result[0].recognition_text)
Python OCR PDF — сохранение отсканированного PDF в текст на Python
Мы можем выполнить распознавание текста в PDF-документах и сохранить распознанный текст, выполнив следующие действия:
- Создайте экземпляр класса AsposeOcr.
- Инициализируйте объект класса DocumentRecognitionSettings.
- Добавьте PDF-файл в пакет распознавания.
- После этого вызовите метод распознавания().
- Наконец, сохраните текст с помощью метода savemultipagedocument(). В качестве аргументов он принимает путь к выходному файлу, объект SaveFormat и RecognitionResult.
В следующем примере кода показано, как распознавать PDF-документы с помощью оптического распознавания символов и сохранять распознанный текст в Python.
# В этом примере кода показано, как сохранить распознанный и извлечь текст с помощью Python.
import aspose.ocr as ocr
# Инициализировать механизм OCR
api = ocr.AsposeOcr()
# Инициализация настроек распознавания
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Добавить файл в пакет распознавания
files = ocr.OcrInput(ocr.InputType.PDF)
# Получите доступ к отсканированному PDF-файлу и установите номер страницы и общее количество страниц.
files.add("C:\\Files\\sample.pdf", 0, 1)
# Распознать текст
result = api.recognize(files , settings)
# Распечатать результат распознавания
print(result[0].recognition_text)
# Сохраните извлеченный текст
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)
Получите бесплатную пробную лицензию
Вы можете получить бесплатную временную лицензию, чтобы опробовать библиотеку без ограничений ознакомительной версии.
Python OCR PDF — бесплатные ресурсы
Вы можете дополнительно изучить следующие ресурсы для изучения API Python OCR:
- Руководство разработчика
- Бесплатные онлайн-приложения
- Справочник по API
- Практические руководства и статьи
Заключение
В этой статье мы узнали, как выполнять распознавание текста в PDF-документах и извлекать текст из PDF в Python. Возможность извлекать текст из PDF-файлов с помощью оптического распознавания символов меняет правила игры во многих отраслях: от архивирования и юридической документации до анализа данных и оцифровки контента. Используя Aspose.OCR for Python, разработчики и энтузиасты могут легко интегрировать возможности OCR в свои проекты Python. В случае возникновения каких-либо неясностей, пожалуйста, свяжитесь с нами на нашем бесплатном форуме поддержки.