Перетворення відсканованих PDF-файлів на документи Word пропонує кілька переваг, наприклад редагування тексту в документі, що полегшує внесення змін або оновлення. Це також забезпечує можливість пошуку тексту, що є безцінним для великих документів або під час проведення досліджень. Крім того, ви також можете виконати перевірку орфографії для виправлення будь-яких друкарських або неправильно написаних слів під час OCR у Python. Відповідно, у цій статті пояснюється, як конвертувати сканований PDF-документ у документ Word за допомогою OCR у Python за допомогою бібліотеки Aspose.OCR for Python через .NET.
- PDF у Word з оптичним розпізнаванням символів – встановлення Python API
- Перетворюйте відскановані PDF-файли на Word за допомогою OCR у Python
- PDF у Word з OCR і перевіркою орфографії в Python
PDF у Word з оптичним розпізнаванням символів – встановлення Python API
Перш ніж ми заглибимося в розпізнавання тексту, давайте переконаємося, що у нас налаштовано необхідне середовище для запуску OCR у Python. Переконайтеся, що у вашій системі встановлено Python, бажано версії 3.x або новішої, а також надійний редактор коду або інтегроване середовище розробки (IDE), наприклад Visual Studio Code або IDLE тощо. Потім вам потрібно налаштувати Aspose.OCR for Python через .NET під час доступу до нього з розділу Нові випуски або з PyPi за допомогою такої команди встановлення:
pip install aspose-ocr-python-net
Перетворюйте відскановані PDF-файли на Word за допомогою OCR у Python
Ви можете конвертувати сканований PDF-файл у Word за допомогою OCR, виконавши наведені нижче дії.
- Ініціалізуйте API за допомогою класу AsposeOcr.
- Встановіть різні параметри для розпізнавання.
- Розпізнайте текст за допомогою OCR і збережіть вихідний файл DOCX Word.
У наведеному нижче фрагменті коду показано, як конвертувати відсканований PDF-файл у Word за допомогою OCR у Python:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)
result = api.recognize(input , settings)
api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)
print(result[0].recognition_text)
PDF у Word із OCR і перевіркою орфографії в Python
Механізми оптичного розпізнавання символів (OCR) іноді можуть давати неточності, особливо під час роботи зі складними макетами, рукописним текстом або низькоякісним скануванням. У таких випадках виправлення орфографії відіграє вирішальну роль у покращенні точності перетвореного тексту. У цьому розділі зокрема йдеться про перетворення PDF у Word за допомогою OCR і функції перевірки орфографії в Python. Вам потрібно виконати наведені нижче дії, щоб відповідати цим вимогам.
- Ініціалізувати екземпляр класу AsposeOcr.
- Встановіть різні властивості за допомогою класу RecognitionSettings.
- Розпізнайте PDF-файл за допомогою оптичного розпізнавання тексту та перевірте орфографію вилученого рядка.
- Експортуйте вихідний документ Word у формат DOCX.
У наведеному нижче прикладі коду пояснюється, як конвертувати PDF-файл у документ Word за допомогою OCR у Python:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)
result = api.recognize(input , settings)
corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)
# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)
Отримайте безкоштовну оціночну ліцензію
Ви можете отримати безкоштовну тимчасову ліцензію, щоб уникнути будь-яких обмежень оцінки та водяних знаків.
Підводячи підсумки
У цій публікації блогу ми досліджували, як конвертувати відскановані PDF-файли в документи Word за допомогою OCR у Python. Ми обговорили важливість оптичного розпізнавання тексту та його переваги, надали покрокову інструкцію з налаштування середовища, вилучення тексту з PDF-документа різними підходами, вказавши кілька налаштувань, і збереження його в документі Word. Цей посібник дає змогу автоматизувати перетворення відсканованих PDF-файлів у документи Word, які можна редагувати, за допомогою Python і OCR, відкриваючи цілий світ можливостей для вилучення та обробки даних. Якщо вам потрібно обговорити будь-які ваші проблеми, будь ласка, напишіть нам на безкоштовний форум підтримки.