ekstrak gambar dari dokumen kata dengan python

Sebuah gambar bernilai seribu kata. Inilah alasan mengapa gambar merupakan bagian integral dari dokumen, khususnya dokumen Word. Gambar digunakan untuk membuat konten lebih menarik dan eye-catching. Saat menguraikan dokumen Word, Anda mungkin menemukan skenario di mana Anda perlu mengekstrak gambar. Untuk mencapai ini secara terprogram, artikel ini membahas cara mengekstrak gambar dari Word DOC DOCX dengan Python.

Pustaka Python untuk Mengekstrak Gambar dari Dokumen Word DOC DOCX

Aspose.Words for Python adalah pustaka yang kuat dan kaya fitur yang digunakan untuk membuat dan memanipulasi dokumen Word. Kami akan menggunakan perpustakaan ini untuk mengekstrak gambar dari file DOCX atau DOC. Anda dapat menginstalnya di aplikasi Python Anda dari PyPI menggunakan perintah pip berikut.

pip install aspose-words

Mengekstrak Gambar dari Word DOC dengan Python

Gambar dalam dokumen Word diwakili oleh node bentuk. Oleh karena itu, untuk mengambil gambar dari dokumen, Anda harus mengurai bentuknya. Langkah-langkah berikut menunjukkan cara mengekstrak gambar dari Word DOC dengan Python.

  • Pertama, muat dokumen Word menggunakan kelas Document.
  • Kemudian, ambil semua bentuk menjadi objek menggunakan metode Document.getchildnodes(NodeType.SHAPE, True).
  • Ulangi bentuk dan untuk setiap bentuk, lakukan operasi berikut:
    • Keluarkan bentuk ke dalam tipe Bentuk menggunakan metode asshape().
    • Periksa apakah bentuk memiliki gambar menggunakan metode Shape.hasimage().
    • Simpan bentuk sebagai gambar menggunakan metode Shape.imagedata.save(string).

Contoh kode berikut menunjukkan cara mengekstrak gambar dari dokumen Word DOCX dengan Python.

import aspose.words as aw

# memuat dokumen Word
doc = aw.Document("calibre.docx")

# mengambil semua bentuk
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# lingkaran melalui bentuk
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # atur nama file gambar
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # menyimpan gambar
        shape.image_data.save(imageFileName)
        imageIndex += 1

API untuk Mengekstrak Gambar dari DOC DOCX - Dapatkan Lisensi API Gratis

Anda bisa mendapatkan lisensi sementara untuk menggunakan Aspose.Words for Python tanpa batasan evaluasi.

Kesimpulan

Gambar biasanya digunakan dalam dokumen Word untuk membuat konten lebih menarik. Dalam berbagai kasus, gambar juga harus diekstraksi dari dokumen beserta teksnya. Oleh karena itu, dalam artikel ini, Anda telah mempelajari cara mengekstrak gambar dari dokumen Word DOC DOCX dengan Python. Selain itu, Anda dapat menjelajahi dokumentasi dari Aspose.Words for Python. Jika Anda memiliki pertanyaan, jangan ragu untuk memberi tahu kami melalui forum kami.

Lihat juga

Info: Jika Anda perlu mendapatkan dokumen Word dari presentasi PowerPoint, Anda dapat menggunakan pengonversi Aspose Presentation to Word Document.