
Jako programátor možná budete muset zpracovat spoustu souborů PDF a extrahovat z nich text. Extrakce textu z PDF může být vyžadována pro různé účely, jako je analýza textu. V tomto článku si ukážeme, jak snadné je extrahovat text ze souboru PDF v Pythonu. Dále se seznámíte s tím, jak extrahovat text a uložit jej do TXT souboru.
- Knihovna Python pro extrahování textu ze souborů PDF
- Jak extrahovat text z PDF
- Extrakce textu z PDF v Pythonu
Knihovna Pythonu pro extrahování textu z PDF – ke stažení zdarma
Aspose.Words for Python je úžasná knihovna, která vám umožňuje bezproblémově vytvářet a zpracovávat textové dokumenty. Můžete manipulovat s dokumenty oblíbených formátů, jako jsou DOC, DOCX a PDF. Tuto knihovnu použijeme k provádění extrakce textu z našich souborů PDF. Knihovnu můžete nainstalovat z PyPI pomocí následujícího příkazu pip.
> pip install aspose-words
Jak extrahovat text z PDF v Pythonu
Aspose.Words pro Python učinil extrakci textu PDF extrémně snadnou tím, že před uživatelem skryl složité operace. Stačí načíst soubor PDF a uložit extrahovaný text. Následující kroky ukazují, jak extrahovat text z PDF pomocí Aspose.Words pro Python.
- Načtěte soubor PDF z požadovaného umístění.
- Extrahujte a uložte text do souboru .txt.
A to je vše. Poté můžete zpracovat soubor .txt a manipulovat s prostým textem extrahovaným z PDF.
Pojďme se nyní podívat na to, jak extrahovat text z PDF programově v Pythonu.
Extrakce textu z PDF v Pythonu
Následují kroky spolu s třídami a metodami pro extrakci textu PDF v Pythonu.
- Načtěte soubor PDF pomocí třídy Document.
- Extrahujte text z PDF do .txt souboru pomocí metody Document.save(fileName).
Následující ukázka kódu ukazuje extrakci textu ze souboru PDF v Pythonu.
# Import modulu Aspose.Words pro Python
import aspose.words as aw
# Načíst soubor PDF
pdf = aw.Document("file.pdf")
# Extrahujte a uložte text do souboru TXT
pdf.save("extracted-text.txt")
Následující snímek obrazovky ukazuje vstupní soubor PDF, který jsme použili pro extrakci textu.

Následující snímek obrazovky ukazuje extrahovaný text v souboru TXT.

PDF Text Extractor pro Python – Získejte bezplatnou licenci
Můžete získat bezplatnou dočasnou licenci k extrahování textu z PDF bez omezení hodnocení.
Závěr
V tomto článku jste se naučili, jak extrahovat text ze souborů PDF v Pythonu. Viděli jste, jak snadno a rychle můžete extrahovat text z PDF a uložit jej do souboru TXT programově. Nyní můžete implementovat extrakci textu pro dávku souborů PDF ve svých aplikacích Python.
Prozkoumejte Aspose’ PDF Text Extractor pro Python
Další funkce Aspose.Words pro Python můžete prozkoumat pomocí dokumentace. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.