Extrahujte text z PDF v Pythonu

Při zpracování souborů PDF často potřebujete extrahovat obsah ze stránek jako prostý text. Tento prostý text lze dále použít pro různé účely, jako je analýza textu, zpracování textu atd. V tomto článku se dozvíte, jak extrahovat text z PDF v Pythonu. S pomocí ukázek kódu bude článek demonstrovat, jak provést extrakci textu z celého PDF nebo jedné stránky.

Knihovna Pythonu pro extrahování textu z PDF

K extrahování textu ze souborů PDF použijeme Aspose.PDF for Python. Je to výkonná knihovna pro manipulaci s PDF, která vám umožní vytvářet a zpracovávat soubory PDF. Kromě toho umožňuje převádět soubory PDF do jiných formátů.

Aspose.PDF for Python můžete nainstalovat pomocí následujícího příkazu pip.

pip install aspose-pdf

Extrahujte text z PDF v Pythonu

Níže jsou uvedeny kroky k extrahování textu z PDF v Pythonu.

  • K načtení souboru PDF použijte třídu Document.
  • Vytvořte instanci třídy TextDevice.
  • Spusťte smyčku pro počet stránek krát.
  • V každé iteraci extrahujte text ze stránky pomocí metody TextDevice.process() a uložte extrahovaný text do souboru .txt.

Následující ukázka kódu ukazuje, jak extrahovat text z PDF v Pythonu.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Otevřete dokument PDF
document = ap.Document("input.pdf")

# Vytvořte textové zařízení
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Exportujte stránku do TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Extrahujte text z konkrétní stránky v PDF

Můžete také extrahovat text z konkrétní stránky PDF pomocí čísla stránky v poli Document.pages. Následující ukázka kódu ukazuje, jak extrahovat text z konkrétní stránky v PDF.

import aspose.pdf as ap

# Otevřete dokument PDF
document = ap.Document("input.pdf")

# Vytvořte textové zařízení
textDevice = ap.devices.TextDevice()

# Extrahujte text z první stránky
textDevice.process(document.pages[1], "extracted_text.txt")

Extrahujte text z PDF online

K extrahování textu ze souborů PDF můžete také použít náš online nástroj pro extrakci textu PDF. Je to bezplatný nástroj, který můžete používat bez jakéhokoli předplatného nebo registrace.

Bezplatná knihovna extrakce textu PDF

Získejte bezplatnou dočasnou licenci a extrahujte text ze souborů PDF bez jakýchkoli omezení.

Prozkoumejte Python PDF Library

Více o knihovně Python PDF můžete prozkoumat pomocí dokumentace. Kromě toho můžete své dotazy zveřejňovat na našem fóru.

Závěr

V tomto článku jste se naučili, jak extrahovat text z PDF v Pythonu. Kroky a ukázky kódu ukázaly, jak extrahovat text z celého PDF nebo konkrétní stránky. Můžete snadno nainstalovat knihovnu a provádět extrakci textu ze svých aplikací Python.

Viz také