Extrahujte text z PDF v Pythonu

Jako programátor možná budete muset zpracovat spoustu souborů PDF a extrahovat z nich text. Extrakce textu z PDF může být vyžadována pro různé účely, jako je analýza textu. V tomto článku si ukážeme, jak snadné je extrahovat text ze souboru PDF v Pythonu. Dále se seznámíte s tím, jak extrahovat text a uložit jej do TXT souboru.

Knihovna Pythonu pro extrahování textu z PDF – ke stažení zdarma

Aspose.Words for Python je úžasná knihovna, která vám umožňuje bezproblémově vytvářet a zpracovávat textové dokumenty. Můžete manipulovat s dokumenty oblíbených formátů, jako jsou DOC, DOCX a PDF. Tuto knihovnu použijeme k provádění extrakce textu z našich souborů PDF. Knihovnu můžete nainstalovat z PyPI pomocí následujícího příkazu pip.

> pip install aspose-words

Jak extrahovat text z PDF v Pythonu

Aspose.Words pro Python učinil extrakci textu PDF extrémně snadnou tím, že před uživatelem skryl složité operace. Stačí načíst soubor PDF a uložit extrahovaný text. Následující kroky ukazují, jak extrahovat text z PDF pomocí Aspose.Words pro Python.

  • Načtěte soubor PDF z požadovaného umístění.
  • Extrahujte a uložte text do souboru .txt.

A to je vše. Poté můžete zpracovat soubor .txt a manipulovat s prostým textem extrahovaným z PDF.

Pojďme se nyní podívat na to, jak extrahovat text z PDF programově v Pythonu.

Extrakce textu z PDF v Pythonu

Následují kroky spolu s třídami a metodami pro extrakci textu PDF v Pythonu.

  • Načtěte soubor PDF pomocí třídy Document.
  • Extrahujte text z PDF do .txt souboru pomocí metody Document.save(fileName).

Následující ukázka kódu ukazuje extrakci textu ze souboru PDF v Pythonu.

# Import modulu Aspose.Words pro Python
import aspose.words as aw

# Načíst soubor PDF
pdf = aw.Document("file.pdf")

# Extrahujte a uložte text do souboru TXT
pdf.save("extracted-text.txt")

Následující snímek obrazovky ukazuje vstupní soubor PDF, který jsme použili pro extrakci textu.

PDF pro extrahování textu v Pythonu

Následující snímek obrazovky ukazuje extrahovaný text v souboru TXT.

Extrahovaný text z PDF do TXT

PDF Text Extractor pro Python – Získejte bezplatnou licenci

Můžete získat bezplatnou dočasnou licenci k extrahování textu z PDF bez omezení hodnocení.

Závěr

V tomto článku jste se naučili, jak extrahovat text ze souborů PDF v Pythonu. Viděli jste, jak snadno a rychle můžete extrahovat text z PDF a uložit jej do souboru TXT programově. Nyní můžete implementovat extrakci textu pro dávku souborů PDF ve svých aplikacích Python.

Prozkoumejte Aspose’ PDF Text Extractor pro Python

Další funkce Aspose.Words pro Python můžete prozkoumat pomocí dokumentace. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.

Viz také