Obrázky se běžně používají v dokumentech PDF spolu s textem, díky čemuž je obsah přitažlivější a propracovanější. Při zpracování a analýze dokumentů PDF možná budete muset extrahovat také obrázky. Proto si v tomto článku ukážeme, jak zpracovávat soubory PDF a extrahovat obrázky programově v Pythonu. Podrobný průvodce a ukázka kódu demonstrují celý proces extrakce obrazu.
- Knihovna Python pro extrahování obrázků z PDF
- Kroky k extrahování obrázků z PDF
- Extrahování obrázků z PDF v Pythonu
Knihovna Python pro extrahování obrázků z PDF
K extrahování obrázků ze souboru PDF použijeme Aspose.Words pro Python. Je to výkonná knihovna bohatá na funkce pro vytváření a manipulaci s textovými dokumenty včetně PDF a DOCX. Knihovnu můžete nainstalovat z PyPI pomocí následujícího příkazu pip.
> pip install aspose-words
Kroky k extrahování obrázků z PDF
Aspose.Words pro Python vám umožňuje extrahovat obrázky ze souboru PDF v několika jednoduchých krocích. Následuje pracovní postup, jak extrahovat obrázky z PDF pomocí Aspose.Words pro Python.
- Načtěte soubor PDF z požadovaného umístění.
- Převést PDF do formátu DOCX.
- Zpracujte DOCX verzi PDF a extrahujte obrázky
- Uložte každý obrázek jako soubor na požadované místo.
Následující část ukazuje, jak převést výše uvedené kroky do kódu Pythonu a extrahovat obrázky z PDF.
Extrahujte obrázky z PDF v Pythonu
V procesu extrakce obrázku nejprve převedeme soubor PDF do formátu DOCX. V souboru DOCX jsou obrázky reprezentovány uzly tvaru. Každý tvar tedy zpracujeme a vyjmeme z něj obrázek.
Níže jsou uvedeny kroky k extrahování obrázků z PDF v Pythonu.
- Nejprve načtěte soubor PDF pomocí třídy Document.
- Poté uložte PDF ve formátu DOCX a načtěte DOCX verzi souboru PDF.
- Načtěte všechny tvary do objektu pomocí metody Document.getchildnodes(NodeType.SHAPE, True).
- Procházejte tvary a proveďte následující operace pro každý uzel tvaru:
- Přeneste tvar do typu Shape pomocí metody asshape().
- Pomocí metody Shape.hasimage() zkontrolujte, zda má tvar obraz.
- Extrahujte obrázek z tvaru a uložte jej pomocí metody Shape.imagedata.save(string).
Následující ukázka kódu ukazuje extrakci obrázku z dokumentu PDF v Pythonu.
# Import modulu Aspose.Words pro Python
import aspose.words as aw
# načíst soubor PDF a převést do formátu Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")
# načíst DOCX verzi PDF
doc = aw.Document("pdf.docx")
# získat všechny tvary
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# procházet tvary
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# nastavit název souboru obrázku
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# uložit obrázek
shape.image_data.save(imageFileName)
imageIndex += 1
Python PDF Image Extraction Library – Získejte bezplatnou licenci
Můžete získat bezplatnou dočasnou licenci pro extrahování obrázků z PDF bez omezení hodnocení.
Závěr
Při analýze dokumentů PDF je také nutné extrahovat obrázky spolu s textem. V tomto článku jste se naučili, jak extrahovat obrázky z PDF v Pythonu. Můžete jednoduše nainstalovat Aspose.Words pro Python a integrovat extrakci obrázků do vašich aplikací.
Prozkoumejte Aspose’ PDF Image Extraction Library
Aspose.Words pro Python nabízí řadu dalších funkcí pro manipulaci s textovými dokumenty. Můžete navštívit dokumentaci a prozkoumat více o knihovně. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.