Ekstrak teks dari PDF dengan Python

Saat memproses file PDF, Anda sering perlu mengekstrak konten dari halaman sebagai teks biasa. Teks biasa ini selanjutnya dapat digunakan untuk berbagai keperluan, seperti analisis teks, pemrosesan teks, dll. Pada artikel ini, Anda akan belajar cara mengekstrak teks dari PDF dengan Python. Dengan bantuan contoh kode, artikel ini akan mendemonstrasikan cara melakukan ekstraksi teks pada seluruh PDF atau satu halaman.

Perpustakaan Python untuk Mengekstrak Teks dari PDF

Untuk mengekstrak teks dari file PDF, kami akan menggunakan Anggap.PDF untuk Python. Ini adalah perpustakaan manipulasi PDF yang kuat yang memungkinkan Anda membuat dan memproses file PDF. Selain itu, ini memungkinkan Anda mengonversi file PDF ke format lain.

Anda dapat menginstal Aspose.PDF for Python menggunakan perintah pip berikut.

pip install aspose-pdf

Ekstrak Teks dari PDF dengan Python

Berikut ini adalah langkah-langkah untuk mengekstrak teks dari PDF dengan Python.

  • Gunakan kelas Document untuk memuat file PDF.
  • Buat instance kelas TextDevice.
  • Mulai satu putaran untuk jumlah halaman kali.
  • Di setiap iterasi, ekstrak teks dari halaman menggunakan metode TextDevice.process() dan simpan teks yang diekstrak dalam file .txt.

Contoh kode berikut menunjukkan cara mengekstrak teks dari PDF dengan Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Buka dokumen PDF
document = ap.Document("input.pdf")

# Buat perangkat teks
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Ekspor halaman ke TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Ekstrak Teks dari Halaman Tertentu dalam PDF

Anda juga dapat mengekstrak teks dari halaman tertentu di PDF menggunakan nomor halaman dalam array Document.pages. Contoh kode berikut menunjukkan cara mengekstrak teks dari halaman tertentu dalam PDF.

import aspose.pdf as ap

# Buka dokumen PDF
document = ap.Document("input.pdf")

# Buat perangkat teks
textDevice = ap.devices.TextDevice()

# Ekstrak teks dari halaman pertama
textDevice.process(document.pages[1], "extracted_text.txt")

Ekstrak Teks dari PDF Online

Anda juga dapat menggunakan alat ekstraksi teks PDF online kami untuk mengekstrak teks dari file PDF. Ini adalah alat gratis yang dapat Anda gunakan tanpa berlangganan atau mendaftar.

Perpustakaan Ekstraksi Teks PDF Gratis

Dapatkan [lisensi sementara gratis] Anda3 dan ekstrak teks dari file PDF tanpa batasan apa pun.

Jelajahi Perpustakaan Python PDF

Anda dapat mempelajari lebih lanjut tentang pustaka Python PDF menggunakan dokumentasi. Selain itu, Anda dapat memposting pertanyaan Anda ke forum kami.

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak teks dari PDF dengan Python. Langkah-langkah dan contoh kode telah menunjukkan cara mengekstrak teks dari seluruh PDF atau halaman tertentu. Anda dapat dengan mudah menginstal pustaka dan melakukan ekstraksi teks dari dalam aplikasi Python Anda.

Lihat juga