ekstrak gambar dari pdf dengan python

Gambar biasanya digunakan dalam dokumen PDF bersama dengan teks, yang membuat konten lebih menarik dan rumit. Saat memproses dan menganalisis dokumen PDF, Anda mungkin perlu mengekstrak gambar juga. Oleh karena itu, dalam artikel ini, kami akan mendemonstrasikan cara memproses file PDF dan mengekstrak gambar secara terprogram dengan Python. Panduan langkah demi langkah dan contoh kode akan menunjukkan seluruh proses ekstraksi gambar.

Perpustakaan Python untuk Mengekstrak Gambar dari PDF

Untuk mengekstrak gambar dari file PDF, kita akan menggunakan Aspose.Words for Python. Ini adalah perpustakaan yang kuat dan kaya fitur untuk membuat dan memanipulasi dokumen teks termasuk PDF dan DOCX. Anda dapat menginstal pustaka dari PyPI menggunakan perintah pip berikut.

> pip install aspose-words

Langkah-langkah untuk Mengekstrak Gambar dari PDF

Aspose.Words for Python memungkinkan Anda mengekstrak gambar dari file PDF dalam beberapa langkah sederhana. Berikut adalah alur kerja cara mengekstrak gambar dari PDF menggunakan Aspose.Words for Python.

  • Muat file PDF dari lokasi yang diinginkan.
  • Konversi format PDF ke DOCX.
  • Memproses PDF versi DOCX dan mengekstrak gambar
  • Simpan setiap gambar sebagai file ke lokasi yang diinginkan.

Bagian berikut menunjukkan cara mengubah langkah-langkah yang disebutkan di atas menjadi kode Python dan mengekstrak gambar dari PDF.

Ekstrak Gambar dari PDF dengan Python

Dalam proses ekstraksi gambar, pertama-tama kita akan mengubah file PDF ke format DOCX. Dalam file DOCX, gambar diwakili oleh node bentuk. Oleh karena itu, kami akan memproses setiap bentuk dan mengekstrak gambar darinya.

Berikut ini adalah langkah-langkah untuk mengekstrak gambar dari PDF dengan Python.

  • Pertama, muat file PDF menggunakan kelas Document.
  • Kemudian, simpan PDF dalam format DOCX dan muat versi DOCX dari file PDF tersebut.
  • Ambil semua bentuk menjadi objek menggunakan metode Document.getchildnodes(NodeType.SHAPE, True).
  • Ulangi bentuk dan lakukan operasi berikut untuk setiap simpul bentuk:
    • Keluarkan bentuk ke dalam tipe Bentuk menggunakan metode asshape().
    • Gunakan metode Shape.hasimage() untuk memeriksa apakah bentuknya memiliki gambar.
    • Ekstrak gambar dari bentuk dan simpan menggunakan metode Shape.imagedata.save(string).

Contoh kode berikut menunjukkan ekstraksi gambar dari dokumen PDF dengan Python.

# Impor Aspose.Words untuk modul Python
import aspose.words as aw

# muat file PDF dan konversikan ke format Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# memuat PDF versi DOCX
doc = aw.Document("pdf.docx")

# mengambil semua bentuk
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# lingkaran melalui bentuk
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # atur nama file gambar
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # menyimpan gambar
        shape.image_data.save(imageFileName)
        imageIndex += 1

Perpustakaan Ekstraksi Gambar Python PDF - Dapatkan Lisensi Gratis

Anda bisa mendapatkan lisensi sementara gratis untuk mengekstrak gambar dari PDF tanpa batasan evaluasi.

Kesimpulan

Saat menganalisis dokumen PDF, gambar juga harus diekstraksi bersama dengan teks. Pada artikel ini, Anda telah mempelajari cara mengekstrak gambar dari PDF dengan Python. Anda cukup menginstal Aspose.Words for Python dan mengintegrasikan ekstraksi gambar dalam aplikasi Anda.

Jelajahi Perpustakaan Ekstraksi Gambar PDF Aspose

Aspose.Words for Python menawarkan serangkaian fitur lain untuk memanipulasi dokumen teks. Anda dapat mengunjungi dokumentasi untuk mempelajari lebih lanjut tentang perpustakaan. Jika Anda memiliki pertanyaan, jangan ragu untuk memberi tahu kami melalui forum kami.

Lihat juga