OCR PDF dan Ekstrak Teks dari PDF dengan Python

Teknologi Pengenalan Karakter Optik (OCR) memainkan peran penting dalam mendigitalkan teks yang dicetak, dipindai, atau ditulis tangan dari berbagai sumber, termasuk dokumen PDF. Dalam postingan blog ini, kita akan mempelajari cara OCR dokumen PDF dan mengekstrak teks dari PDF dengan Python.

Artikel ini mencakup topik-topik berikut:

  1. API OCR PDF ke TXT Python
  2. OCR PDF dan Ekstrak Teks dari PDF
  3. Simpan PDF yang Dipindai ke Teks
  4. Sumber Belajar Gratis

PDF ke TXT - API Python OCR

Kami akan menggunakan Aspose.OCR for Python untuk melakukan OCR pada dokumen PDF dan mengekstrak teks dari PDF. Aspose.OCR for Python adalah API pengenalan karakter optik (OCR) yang kuat yang dapat mengenali teks dari gambar yang dipindai, foto ponsel cerdas, tangkapan layar, dan area gambar. API mengembalikan hasil teks yang dikenali dalam format dokumen dan pertukaran data paling populer, termasuk PDF, XML, JSON, dan teks biasa.

Selain mengonversi gambar menjadi teks, Aspose.OCR for Python juga dapat membuat PDF yang dapat dicari berdasarkan pindaian. API juga dapat mengoreksi kesalahan ejaan secara otomatis pada teks yang dikenali, sehingga ideal untuk berbagai aplikasi.

Silakan unduh paketnya atau instal API dari PyPI menggunakan perintah pip berikut di konsol:

pip install aspose-ocr-python-net

Python OCR PDF - Ekstrak Teks dari PDF dengan Python

Kita dapat melakukan OCR pada dokumen PDF dan mengekstrak teks yang dikenali dengan mengikuti langkah-langkah di bawah ini:

  1. Buat sebuah instance dari kelas AsposeOcr.
  2. Inisialisasi objek kelas DocumentRecognitionSettings.
  3. Tambahkan file PDF ke kumpulan pengenalan.
  4. Setelah itu, panggil metode recognition().
  5. Terakhir, tampilkan teks yang diidentifikasi menggunakan kelas RecognitionResult.

Contoh kode berikut menunjukkan cara OCR dokumen PDF dan mengekstrak teks dari PDF dengan Python.

# Contoh kode ini menunjukkan cara mengenali dan mengekstrak teks dari dokumen PDF yang dipindai dengan Python.
import aspose.ocr as ocr

# Inisialisasi mesin OCR
api = ocr.AsposeOcr()

# Inisialisasi Pengaturan Pengenalan
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Tambahkan file ke kumpulan pengenalan
files = ocr.OcrInput(ocr.InputType.PDF)

# Akses PDF yang dipindai dan atur nomor halaman dan jumlah halaman total
files.add("C:\\Files\\sample.pdf", 0, 1)

# Kenali teksnya
result = api.recognize(files , settings)

# Hasil pengenalan cetak
print(result[0].recognition_text)

Python OCR PDF - Simpan PDF yang Dipindai ke Teks dengan Python

Kita dapat melakukan OCR pada dokumen PDF dan menyimpan teks yang dikenali dengan mengikuti langkah-langkah di bawah ini:

  1. Buat sebuah instance dari kelas AsposeOcr.
  2. Inisialisasi objek kelas DocumentRecognitionSettings.
  3. Tambahkan file PDF ke kumpulan pengenalan.
  4. Setelah itu, panggil metode recognition().
  5. Terakhir, simpan teks menggunakan metode savemultipagedocument(). Dibutuhkan jalur file keluaran, objek SaveFormat dan RecognitionResult sebagai argumen.

Contoh kode berikut menunjukkan cara OCR dokumen PDF dan menyimpan teks yang dikenali dengan Python.

# Contoh kode ini menunjukkan cara menyimpan pengenalan dan mengekstrak teks menggunakan Python.
import aspose.ocr as ocr

# Inisialisasi mesin OCR
api = ocr.AsposeOcr()

# Inisialisasi Pengaturan Pengenalan
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Tambahkan file ke kumpulan pengenalan
files = ocr.OcrInput(ocr.InputType.PDF)

# Akses PDF yang dipindai dan atur nomor halaman dan jumlah halaman total
files.add("C:\\Files\\sample.pdf", 0, 1)

# Kenali teksnya
result = api.recognize(files , settings)

# Hasil pengenalan cetak
print(result[0].recognition_text)

# Simpan teks yang diekstraksi
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Dapatkan Lisensi Evaluasi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk mencoba perpustakaan tanpa batasan evaluasi.

Python OCR PDF - Sumber Daya Gratis

Anda dapat menjelajahi lebih lanjut sumber daya berikut untuk mempelajari Python OCR API:

Kesimpulan

Pada artikel ini, kita mempelajari cara melakukan OCR pada dokumen PDF dan mengekstrak teks dari PDF dengan Python. Kemampuan mengekstrak teks dari PDF menggunakan OCR merupakan terobosan baru di berbagai industri, mulai dari pengarsipan dan dokumentasi hukum hingga analisis data dan digitalisasi konten. Dengan memanfaatkan Aspose.OCR for Python, pengembang dan peminat dapat dengan mudah mengintegrasikan kemampuan OCR ke dalam proyek Python mereka. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum dukungan gratis kami.

Lihat juga