PDF в Word OCR Python

Преобразование отсканированных PDF-файлов в документы Word дает несколько преимуществ, таких как редактирование текста в документе, что упрощает внесение изменений или обновлений. Это также обеспечивает возможность поиска по тексту, что неоценимо для больших документов или при проведении исследований. Кроме того, вы также можете выполнять проверку орфографии для исправления любых опечаток или слов с ошибками при выполнении OCR в Python. Соответственно, в этой статье объясняется, как преобразовать отсканированный PDF-файл в документ Word с распознаванием символов в Python с использованием библиотеки Aspose.OCR for Python через .NET.

PDF в Word с OCR — установка Python API

Прежде чем мы углубимся в распознавание текста, давайте удостоверимся, что у нас настроена необходимая среда для запуска OCR в Python. Убедитесь, что в вашей системе установлен Python, желательно версии 3.x или выше, а также надежный редактор кода или интегрированная среда разработки (IDE), такая как Visual Studio Code или IDLE и т. д. Затем вам нужно настроить Aspose.OCR for Python через .NET при доступе к нему из раздела Новые версии или из PyPi с помощью следующей команды установки:

pip install aspose-ocr-python-net

Преобразование отсканированного PDF в Word с помощью OCR в Python

Вы можете преобразовать отсканированный PDF в Word с OCR, выполнив следующие действия:

  1. Инициализируйте API с помощью класса AsposeOcr.
  2. Установите различные настройки для распознавания.
  3. Распознайте текст с помощью OCR и сохраните выходной файл DOCX Word.

В следующем фрагменте кода показано, как преобразовать отсканированный PDF-файл в Word с помощью OCR в Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF в Word с OCR и проверкой орфографии в Python

Механизмы OCR иногда могут давать неточности, особенно при работе со сложными макетами, рукописным текстом или низкокачественными сканами. В таких случаях исправление орфографии играет решающую роль в повышении точности преобразованного текста. В этом разделе особое внимание уделяется преобразованию PDF в Word с помощью OCR и функции проверки орфографии в Python. Для выполнения этих требований необходимо выполнить следующие шаги:

  1. Инициализировать экземпляр класса AsposeOcr.
  2. Установите различные свойства с помощью класса RecognitionSettings.
  3. Распознайте PDF с помощью OCR и проверьте орфографию извлеченной строки.
  4. Экспортируйте выходной документ Word в формате DOCX.

В приведенном ниже примере кода объясняется, как преобразовать PDF-файл в документ Word с помощью OCR в Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Получите бесплатную пробную лицензию

Вы можете получить бесплатную временную лицензию, чтобы избежать ограничений пробной версии и водяных знаков.

Подводя итоги

В этом сообщении блога мы рассмотрели, как преобразовать отсканированные PDF-файлы в документы Word с помощью OCR в Python. Мы обсудили важность оптического распознавания символов и его преимущества, предоставили пошаговое руководство по настройке среды, извлечению текста из документа PDF различными способами с указанием нескольких параметров и сохранению его в документе Word. Это руководство позволяет автоматизировать преобразование отсканированных PDF-файлов в редактируемые документы Word с помощью Python и OCR, открывая целый мир возможностей для извлечения данных и манипулирования ими. Если вам нужно обсудить какие-либо вопросы, напишите нам на бесплатный форум поддержки.

Смотрите также