PDF ke Word OCR Python

Mengonversi PDF yang dipindai ke dokumen Word menawarkan beberapa keuntungan seperti mengedit teks di dalam dokumen, membuatnya mudah untuk melakukan perubahan atau pembaruan. Ini juga memungkinkan pencarian teks, yang sangat berharga untuk dokumen besar atau saat melakukan penelitian. Selain itu, Anda juga dapat melakukan pemeriksaan ejaan untuk mengoreksi kesalahan ketik atau kata yang salah eja saat melakukan OCR dengan Python. Oleh karena itu, artikel ini menjelaskan cara mengonversi dokumen PDF ke Word yang dipindai dengan OCR di Python menggunakan pustaka Aspose.OCR for Python via .NET.

PDF ke Word dengan OCR – Instalasi Python API

Sebelum kita menyelami pengenalan teks, mari pastikan bahwa kita memiliki lingkungan yang diperlukan untuk menjalankan OCR dengan Python. Pastikan Anda telah menginstal Python di sistem Anda, sebaiknya versi 3.x atau lebih baru, bersama dengan editor kode yang andal atau lingkungan pengembangan terintegrasi (IDE) seperti Visual Studio Code atau IDLE, dll. Kemudian Anda perlu mengonfigurasi Aspose.OCR for Python melalui .NET saat mengaksesnya dari bagian Rilis Baru atau dari PyPi dengan perintah instalasi berikut:

pip install aspose-ocr-python-net

Konversikan PDF yang dipindai ke Word dengan OCR dengan Python

Anda dapat mengonversi PDF yang dipindai ke Word dengan OCR dengan mengikuti langkah-langkah di bawah ini:

  1. Inisialisasi API menggunakan kelas AsposeOcr.
  2. Tetapkan pengaturan yang berbeda untuk pengenalan.
  3. Kenali teks dengan OCR dan simpan file keluaran DOCX Word.

Cuplikan kode berikut menunjukkan cara mengonversi PDF yang dipindai ke Word dengan OCR dengan Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF ke Word dengan OCR dan Pemeriksaan Ejaan dengan Python

Mesin OCR kadang-kadang menghasilkan ketidakakuratan, terutama ketika berhadapan dengan tata letak yang rumit, tulisan tangan, atau pindaian berkualitas rendah. Dalam kasus seperti itu, koreksi ejaan memainkan peran penting dalam meningkatkan keakuratan teks yang dikonversi. Bagian ini secara khusus membahas konversi PDF ke Word dengan OCR dan fitur pemeriksa ejaan dengan Python. Anda harus mengikuti langkah-langkah di bawah ini untuk memenuhi persyaratan ini:

  1. Inisialisasi instance dari kelas AsposeOcr.
  2. Tetapkan properti yang berbeda menggunakan kelas PengaturanPengenalan.
  3. Kenali PDF dengan OCR dan periksa ejaan string yang diekstraksi.
  4. Ekspor dokumen Word keluaran dalam format DOCX.

Kode contoh di bawah ini menjelaskan cara mengonversi PDF ke dokumen Word dengan OCR dengan Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Dapatkan Lisensi Evaluasi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk menghindari batasan evaluasi dan tanda air.

Menyimpulkan

Dalam posting blog ini, kami telah menjelajahi cara mengonversi PDF yang dipindai ke dokumen Word menggunakan OCR dengan Python. Kami membahas pentingnya OCR dan manfaatnya, memberikan panduan langkah demi langkah untuk menyiapkan lingkungan, mengekstraksi teks dari dokumen PDF dengan pendekatan berbeda sambil menentukan beberapa pengaturan, dan menyimpannya ke dokumen Word. Panduan ini memungkinkan Anda untuk mengotomatiskan konversi PDF yang dipindai menjadi dokumen Word yang dapat diedit menggunakan Python dan OCR, membuka dunia kemungkinan untuk ekstraksi dan manipulasi data. Jika Anda perlu mendiskusikan kekhawatiran Anda, jangan ragu untuk menulis kepada kami di forum dukungan gratis.

Lihat juga