Při zpracování souborů PDF často potřebujete extrahovat obsah ze stránek jako prostý text. Tento prostý text lze dále použít pro různé účely, jako je analýza textu, zpracování textu atd. V tomto článku se dozvíte, jak extrahovat text z PDF v Pythonu. S pomocí ukázek kódu bude článek demonstrovat, jak provést extrakci textu z celého PDF nebo jedné stránky.
- Knihovna Python pro extrahování textu z PDF
- Extrahujte text z PDF v Pythonu
- Extrahujte text ze stránky v PDF
- Online extraktor textu PDF
Knihovna Pythonu pro extrahování textu z PDF
K extrahování textu ze souborů PDF použijeme Aspose.PDF for Python. Je to výkonná knihovna pro manipulaci s PDF, která vám umožní vytvářet a zpracovávat soubory PDF. Kromě toho umožňuje převádět soubory PDF do jiných formátů.
Aspose.PDF for Python můžete nainstalovat pomocí následujícího příkazu pip.
pip install aspose-pdf
Extrahujte text z PDF v Pythonu
Níže jsou uvedeny kroky k extrahování textu z PDF v Pythonu.
- K načtení souboru PDF použijte třídu Document.
- Vytvořte instanci třídy TextDevice.
- Spusťte smyčku pro počet stránek krát.
- V každé iteraci extrahujte text ze stránky pomocí metody TextDevice.process() a uložte extrahovaný text do souboru .txt.
Následující ukázka kódu ukazuje, jak extrahovat text z PDF v Pythonu.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# Otevřete dokument PDF
document = ap.Document("input.pdf")
# Vytvořte textové zařízení
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# Exportujte stránku do TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
Extrahujte text z konkrétní stránky v PDF
Můžete také extrahovat text z konkrétní stránky PDF pomocí čísla stránky v poli Document.pages. Následující ukázka kódu ukazuje, jak extrahovat text z konkrétní stránky v PDF.
import aspose.pdf as ap
# Otevřete dokument PDF
document = ap.Document("input.pdf")
# Vytvořte textové zařízení
textDevice = ap.devices.TextDevice()
# Extrahujte text z první stránky
textDevice.process(document.pages[1], "extracted_text.txt")
Extrahujte text z PDF online
K extrahování textu ze souborů PDF můžete také použít náš online nástroj pro extrakci textu PDF. Je to bezplatný nástroj, který můžete používat bez jakéhokoli předplatného nebo registrace.
Bezplatná knihovna extrakce textu PDF
Získejte bezplatnou dočasnou licenci a extrahujte text ze souborů PDF bez jakýchkoli omezení.
Prozkoumejte Python PDF Library
Více o knihovně Python PDF můžete prozkoumat pomocí dokumentace. Kromě toho můžete své dotazy zveřejňovat na našem fóru.
Závěr
V tomto článku jste se naučili, jak extrahovat text z PDF v Pythonu. Kroky a ukázky kódu ukázaly, jak extrahovat text z celého PDF nebo konkrétní stránky. Můžete snadno nainstalovat knihovnu a provádět extrakci textu ze svých aplikací Python.