Python PDF OCR

Dokumen PDF yang dipindai seringkali sulit untuk dikerjakan karena kurangnya teks yang dapat dicari atau diedit. Namun, dengan kekuatan teknologi Pengenalan Karakter Optik (OCR), mengekstraksi teks dari PDF yang dipindai dan mengubahnya menjadi format yang dapat dicari atau diedit menjadi kenyataan. Dalam posting blog ini, Anda akan belajar cara melakukan pengenalan teks PDF dengan OCR dengan Python. Kami juga akan menjelajahi cara mengekstrak teks dari file PDF yang dipindai, mengonversinya menjadi PDF yang dapat dicari atau diedit, dan membuka potensi kemampuan OCR Python menggunakan pustaka Aspose.OCR for Python via .NET.

Kenali Teks dari PDF yang Dipindai dengan OCR – Instalasi Python API

Pengenalan Karakter Optik (OCR) adalah teknologi yang memungkinkan konversi gambar atau dokumen yang dipindai menjadi teks yang dapat dibaca mesin. Dengan menganalisis bentuk dan pola karakter dalam sebuah gambar, algoritme OCR mengidentifikasi dan mengenali teks, sehingga memungkinkan untuk mengekstraksi dan memproses informasi yang terkandung di dalamnya. Sebelum memulai, Anda perlu menginstal Aspose.OCR for Python melalui .NET dengan mengunduhnya dari halaman Rilis Baru atau mengonfigurasinya dari PyPi dengan menjalankan perintah instalasi di bawah ini:

pip install aspose-ocr-python-net

Kenali Teks dari PDF dengan OCR dengan Python

Anda dapat mengenali atau mengekstrak teks dari PDF dengan OCR dengan Python. Ini akan mengekstrak teks dari dokumen PDF yang dipindai secara efisien karena langkah-langkah di bawah ini menguraikan proses sederhana untuk mengenali teks dari PDF dengan OCR dengan Python:

  1. Buat instance objek dari kelas AsposeOcr.
  2. Muat file PDF yang dipindai.
  3. Kenali teks dengan OCR dan cetak hasilnya ke konsol.

Kode contoh di bawah ini menunjukkan cara mengenali teks dari PDF dengan OCR dengan Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Ubah PDF yang Dipindai menjadi PDF yang Dapat Dicari atau Dapat Diedit dengan OCR dengan Python

File PDF yang dipindai berisi gambar di mana Anda tidak dapat mencari teks sehingga Anda perlu mengonversinya menjadi dokumen PDF yang dapat dicari agar dokumen dapat dibaca oleh mesin dan memprosesnya lebih lanjut. Silakan ikuti langkah-langkah di bawah ini untuk mengonversinya menjadi dokumen PDF yang dapat dicari atau diedit dengan Python:

  1. Buat objek kelas AsposeOcr.
  2. Inisialisasi instance kelas [RecognitionSettings][5] dan atur properti yang diperlukan.
  3. Muat file PDF dan atur rentang halaman untuk pengenalan dengan OCR.
  4. Simpan file PDF keluaran yang dapat dicari.

Kode contoh berikut menunjukkan cara mengonversi PDF yang dipindai menjadi dokumen PDF yang dapat dicari dengan OCR di Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Di sini perlu dicatat bahwa Anda dapat OCR berbagai halaman dalam dokumen PDF. Misalnya, mengenali teks dari halaman tertentu hanya di mana indeks halaman berbasis nol dan parameter terakhir adalah hitungan jumlah halaman yang akan diproses dengan API. Selain itu, Anda dapat menyetel pengaturan Pengenalan yang berbeda untuk pemrosesan awal file sumber seperti menghilangkan derau, menyetel kontras, memeriksa kemiringan halaman input, dll. untuk pengenalan teks yang ditingkatkan dan tepat dengan OCR.

Dapatkan Lisensi Evaluasi Gratis

Anda dapat meminta lisensi sementara gratis untuk mengevaluasi API tanpa batasan evaluasi apa pun.

Menyimpulkan

Dengan kekuatan teknologi OCR dan Python, mengekstraksi teks dari PDF yang dipindai dan mengonversinya menjadi format yang dapat dicari atau diedit menjadi sangat mudah diakses. Di sini kami telah menjelajahi proses pengenalan teks PDF dengan OCR dengan Python. Kami membahas proses penginstalan dan ekstraksi teks dari PDF yang dipindai, implementasi OCR, dan konversi PDF yang dipindai ke format yang dapat dicari atau diedit. Dengan memanfaatkan kemampuan OCR dan menggunakan teknik lanjutan, Anda dapat membuka potensi penuh dari PDF yang dipindai dan membuatnya lebih mudah diakses dan serbaguna dalam proyek Anda. Jika ada keraguan atau pertanyaan, harap hubungi kami melalui forum dukungan gratis.

Lihat juga