Ekstrak Teks dari PDF dengan Python

Sebagai seorang programmer, Anda mungkin perlu memproses banyak file PDF dan mengekstrak teks darinya. Ekstraksi teks dari PDF dapat diperlukan untuk berbagai keperluan seperti analisis teks. Pada artikel ini, kami akan menunjukkan betapa mudahnya mengekstrak teks dari file PDF dengan Python. Selanjutnya, Anda akan mengetahui, cara mengekstrak teks dan menyimpannya ke dalam file TXT.

Perpustakaan Python untuk Mengekstrak Teks dari PDF - Unduhan Gratis

Aspose.Words for Python adalah perpustakaan luar biasa yang memungkinkan Anda membuat dan memproses dokumen teks dengan mulus. Anda dapat memanipulasi dokumen format populer seperti DOC, DOCX, dan PDF. Kami akan menggunakan perpustakaan ini untuk melakukan ekstraksi teks pada file PDF kami. Anda dapat menginstal pustaka dari PyPI menggunakan perintah pip berikut.

> pip install aspose-words

Cara Mengekstrak Teks dari PDF dengan Python

Aspose.Words for Python telah membuat ekstraksi teks PDF menjadi sangat mudah dengan menyembunyikan operasi kompleks dari pengguna. Anda hanya perlu memuat file PDF dan menyimpan teks yang diekstraksi. Langkah-langkah berikut menunjukkan cara mengekstrak teks dari PDF menggunakan Aspose.Words for Python.

  • Muat file PDF dari lokasi yang diinginkan.
  • Ekstrak dan simpan teks ke dalam file .txt.

Dan itu dia. Anda kemudian dapat memproses file .txt dan memanipulasi teks biasa yang diekstraksi dari PDF.

Sekarang mari kita lihat cara mengekstrak teks dari PDF secara terprogram dengan Python.

Ekstraksi Teks dari PDF dengan Python

Berikut ini adalah langkah-langkah beserta kelas dan metode ekstraksi teks PDF dengan Python.

  • Muat file PDF menggunakan kelas Document.
  • Ekstrak teks dari PDF ke file .txt menggunakan metode Document.save(fileName).

Contoh kode berikut menunjukkan ekstraksi teks dari file PDF dengan Python.

# Impor Aspose.Words untuk modul Python
import aspose.words as aw

# Muat file PDF
pdf = aw.Document("file.pdf")

# Ekstrak dan simpan teks dalam file TXT
pdf.save("extracted-text.txt")

Tangkapan layar berikut menunjukkan file PDF input yang telah kami gunakan untuk ekstraksi teks.

PDF untuk Mengekstrak Teks dengan Python

Tangkapan layar berikut menunjukkan teks yang diekstraksi dalam file TXT.

Teks yang Diekstraksi dari PDF ke TXT

PDF Text Extractor untuk Python - Dapatkan Lisensi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk mengekstrak teks dari PDF tanpa batasan evaluasi.

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak teks dari file PDF dengan Python. Anda telah melihat betapa mudah dan cepatnya Anda dapat mengekstrak teks dari PDF dan menyimpannya dalam file TXT secara terprogram. Sekarang, Anda dapat mengimplementasikan ekstraksi teks untuk kumpulan file PDF di aplikasi Python Anda.

Jelajahi Ekstraktor Teks PDF Aspose untuk Python

Anda dapat menjelajahi fitur lain dari Aspose.Words for Python menggunakan dokumentasi. Jika Anda memiliki pertanyaan, jangan ragu untuk memberi tahu kami melalui forum kami.

Lihat juga