PDF у Word OCR Python

Перетворення відсканованих PDF-файлів на документи Word пропонує кілька переваг, наприклад редагування тексту в документі, що полегшує внесення змін або оновлення. Це також забезпечує можливість пошуку тексту, що є безцінним для великих документів або під час проведення досліджень. Крім того, ви також можете виконати перевірку орфографії для виправлення будь-яких друкарських або неправильно написаних слів під час OCR у Python. Відповідно, у цій статті пояснюється, як конвертувати сканований PDF-документ у документ Word за допомогою OCR у Python за допомогою бібліотеки Aspose.OCR for Python через .NET.

PDF у Word з оптичним розпізнаванням символів – встановлення Python API

Перш ніж ми заглибимося в розпізнавання тексту, давайте переконаємося, що у нас налаштовано необхідне середовище для запуску OCR у Python. Переконайтеся, що у вашій системі встановлено Python, бажано версії 3.x або новішої, а також надійний редактор коду або інтегроване середовище розробки (IDE), наприклад Visual Studio Code або IDLE тощо. Потім вам потрібно налаштувати Aspose.OCR for Python через .NET під час доступу до нього з розділу Нові випуски або з PyPi за допомогою такої команди встановлення:

pip install aspose-ocr-python-net

Перетворюйте відскановані PDF-файли на Word за допомогою OCR у Python

Ви можете конвертувати сканований PDF-файл у Word за допомогою OCR, виконавши наведені нижче дії.

  1. Ініціалізуйте API за допомогою класу AsposeOcr.
  2. Встановіть різні параметри для розпізнавання.
  3. Розпізнайте текст за допомогою OCR і збережіть вихідний файл DOCX Word.

У наведеному нижче фрагменті коду показано, як конвертувати відсканований PDF-файл у Word за допомогою OCR у Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF у Word із OCR і перевіркою орфографії в Python

Механізми оптичного розпізнавання символів (OCR) іноді можуть давати неточності, особливо під час роботи зі складними макетами, рукописним текстом або низькоякісним скануванням. У таких випадках виправлення орфографії відіграє вирішальну роль у покращенні точності перетвореного тексту. У цьому розділі зокрема йдеться про перетворення PDF у Word за допомогою OCR і функції перевірки орфографії в Python. Вам потрібно виконати наведені нижче дії, щоб відповідати цим вимогам.

  1. Ініціалізувати екземпляр класу AsposeOcr.
  2. Встановіть різні властивості за допомогою класу RecognitionSettings.
  3. Розпізнайте PDF-файл за допомогою оптичного розпізнавання тексту та перевірте орфографію вилученого рядка.
  4. Експортуйте вихідний документ Word у формат DOCX.

У наведеному нижче прикладі коду пояснюється, як конвертувати PDF-файл у документ Word за допомогою OCR у Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Отримайте безкоштовну оціночну ліцензію

Ви можете отримати безкоштовну тимчасову ліцензію, щоб уникнути будь-яких обмежень оцінки та водяних знаків.

Підводячи підсумки

У цій публікації блогу ми досліджували, як конвертувати відскановані PDF-файли в документи Word за допомогою OCR у Python. Ми обговорили важливість оптичного розпізнавання тексту та його переваги, надали покрокову інструкцію з налаштування середовища, вилучення тексту з PDF-документа різними підходами, вказавши кілька налаштувань, і збереження його в документі Word. Цей посібник дає змогу автоматизувати перетворення відсканованих PDF-файлів у документи Word, які можна редагувати, за допомогою Python і OCR, відкриваючи цілий світ можливостей для вилучення та обробки даних. Якщо вам потрібно обговорити будь-які ваші проблеми, будь ласка, напишіть нам на безкоштовний форум підтримки.

Дивись також