extrahovat obrázky z pdf v pythonu

Obrázky se běžně používají v dokumentech PDF spolu s textem, díky čemuž je obsah přitažlivější a propracovanější. Při zpracování a analýze dokumentů PDF možná budete muset extrahovat také obrázky. Proto si v tomto článku ukážeme, jak zpracovávat soubory PDF a extrahovat obrázky programově v Pythonu. Podrobný průvodce a ukázka kódu demonstrují celý proces extrakce obrazu.

Knihovna Python pro extrahování obrázků z PDF

K extrahování obrázků ze souboru PDF použijeme Aspose.Words pro Python. Je to výkonná knihovna bohatá na funkce pro vytváření a manipulaci s textovými dokumenty včetně PDF a DOCX. Knihovnu můžete nainstalovat z PyPI pomocí následujícího příkazu pip.

> pip install aspose-words

Kroky k extrahování obrázků z PDF

Aspose.Words pro Python vám umožňuje extrahovat obrázky ze souboru PDF v několika jednoduchých krocích. Následuje pracovní postup, jak extrahovat obrázky z PDF pomocí Aspose.Words pro Python.

  • Načtěte soubor PDF z požadovaného umístění.
  • Převést PDF do formátu DOCX.
  • Zpracujte DOCX verzi PDF a extrahujte obrázky
  • Uložte každý obrázek jako soubor na požadované místo.

Následující část ukazuje, jak převést výše uvedené kroky do kódu Pythonu a extrahovat obrázky z PDF.

Extrahujte obrázky z PDF v Pythonu

V procesu extrakce obrázku nejprve převedeme soubor PDF do formátu DOCX. V souboru DOCX jsou obrázky reprezentovány uzly tvaru. Každý tvar tedy zpracujeme a vyjmeme z něj obrázek.

Níže jsou uvedeny kroky k extrahování obrázků z PDF v Pythonu.

  • Nejprve načtěte soubor PDF pomocí třídy Document.
  • Poté uložte PDF ve formátu DOCX a načtěte DOCX verzi souboru PDF.
  • Načtěte všechny tvary do objektu pomocí metody Document.getchildnodes(NodeType.SHAPE, True).
  • Procházejte tvary a proveďte následující operace pro každý uzel tvaru:
    • Přeneste tvar do typu Shape pomocí metody asshape().
    • Pomocí metody Shape.hasimage() zkontrolujte, zda má tvar obraz.
    • Extrahujte obrázek z tvaru a uložte jej pomocí metody Shape.imagedata.save(string).

Následující ukázka kódu ukazuje extrakci obrázku z dokumentu PDF v Pythonu.

# Import modulu Aspose.Words pro Python
import aspose.words as aw

# načíst soubor PDF a převést do formátu Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# načíst DOCX verzi PDF
doc = aw.Document("pdf.docx")

# získat všechny tvary
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# procházet tvary
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # nastavit název souboru obrázku
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # uložit obrázek
        shape.image_data.save(imageFileName)
        imageIndex += 1

Python PDF Image Extraction Library – Získejte bezplatnou licenci

Můžete získat bezplatnou dočasnou licenci pro extrahování obrázků z PDF bez omezení hodnocení.

Závěr

Při analýze dokumentů PDF je také nutné extrahovat obrázky spolu s textem. V tomto článku jste se naučili, jak extrahovat obrázky z PDF v Pythonu. Můžete jednoduše nainstalovat Aspose.Words pro Python a integrovat extrakci obrázků do vašich aplikací.

Prozkoumejte Aspose’ PDF Image Extraction Library

Aspose.Words pro Python nabízí řadu dalších funkcí pro manipulaci s textovými dokumenty. Můžete navštívit dokumentaci a prozkoumat více o knihovně. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.

Viz také