OCR PDF Python

С отсканированными PDF-документами часто сложно работать из-за отсутствия в них текста, доступного для поиска или редактирования. Однако благодаря мощной технологии оптического распознавания символов (OCR) извлечение текста из отсканированных PDF-файлов и преобразование их в доступные для поиска или редактирования форматы становится реальностью. В этом сообщении блога вы узнаете, как выполнять распознавание текста PDF с помощью OCR в Python. Мы также рассмотрим, как извлекать текст из отсканированных PDF-файлов, преобразовывать их в PDF-файлы с возможностью поиска или редактирования, а также раскрывать потенциал возможностей оптического распознавания символов Python с помощью библиотеки Aspose.OCR for Python через .NET.

Распознавание текста из отсканированного PDF с помощью OCR — установка Python API

Оптическое распознавание символов (OCR) — это технология, позволяющая преобразовывать изображения или отсканированные документы в машиночитаемый текст. Анализируя формы и узоры символов на изображении, алгоритмы OCR идентифицируют и распознают текст, что позволяет извлекать и обрабатывать содержащуюся в нем информацию. Прежде чем приступить к работе, вам необходимо установить Aspose.OCR for Python через .NET, загрузив его со страницы Новые выпуски, или настроить его из PyPi, выполнив команду установки ниже:

pip install aspose-ocr-python-net

Распознавание текста из PDF с помощью OCR в Python

Вы можете распознавать или извлекать текст из PDF с помощью OCR в Python. Он будет эффективно извлекать текст из отсканированного PDF-документа, поскольку приведенные ниже шаги описывают простой процесс распознавания текста из PDF с помощью OCR в Python:

  1. Создайте экземпляр объекта класса AsposeOcr.
  2. Загрузите отсканированный PDF-файл.
  3. Распознавайте текст с помощью OCR и выводите результат на консоль.

Пример кода ниже показывает, как распознавать текст из PDF с помощью OCR в Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Преобразование отсканированного PDF в PDF с возможностью поиска или редактирования с помощью OCR в Python

Отсканированные PDF-файлы содержат изображения, в которых вы не можете найти текст, поэтому вам необходимо преобразовать его в доступный для поиска PDF-документ, чтобы сделать документ машиночитаемым и соответствующим образом обработать его. Выполните следующие шаги, чтобы преобразовать его в PDF-документ с возможностью поиска или редактирования на Python:

  1. Создайте объект класса AsposeOcr.
  2. Инициализируйте экземпляр класса [RecognitionSettings][5] и задайте необходимые свойства.
  3. Загрузите файл PDF и установите диапазон страниц для распознавания с помощью OCR.
  4. Сохраните выходной PDF-файл с возможностью поиска.

В следующем примере кода показано, как преобразовать отсканированный PDF-файл в доступный для поиска PDF-документ с помощью OCR в Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Здесь следует отметить, что вы можете распознавать любой диапазон страниц в документе PDF. Например, распознавание текста с определенных страниц только в том случае, если индекс страницы отсчитывается от нуля, а последним параметром является количество страниц, которые необходимо обработать с помощью API. Кроме того, вы можете установить различные параметры распознавания для предварительной обработки исходного файла, такие как удаление шума, настройка контрастности, проверка перекоса входных страниц и т. д., для улучшенного и точного распознавания текста с помощью OCR.

Получите бесплатную пробную лицензию

Вы можете запросить бесплатную временную лицензию для оценки API без каких-либо ограничений оценки.

Подводя итоги

Благодаря возможностям технологии OCR и Python извлечение текста из отсканированных PDF-файлов и преобразование их в доступные для поиска или редактирования форматы стало очень доступным. Здесь мы рассмотрели процесс распознавания текста PDF с помощью OCR в Python. Мы обсудили процесс установки и извлечение текста из отсканированных PDF-файлов, реализацию OCR и преобразование отсканированных PDF-файлов в доступные для поиска или редактирования форматы. Используя возможности OCR и применяя передовые методы, вы можете раскрыть весь потенциал отсканированных PDF-файлов и сделать их более доступными и универсальными в своих проектах. В случае каких-либо неясностей или вопросов обращайтесь к нам через бесплатный форум поддержки.

Смотрите также