![Extrahujte text z PDF v Pythonu](images/Extract-Text-From-PDF.jpg#center)
Při zpracování souborů PDF často potřebujete extrahovat obsah ze stránek jako prostý text. Tento prostý text lze dále použít pro různé účely, jako je analýza textu, zpracování textu atd. V tomto článku se dozvíte, jak extrahovat text z PDF v Pythonu. S pomocí ukázek kódu bude článek demonstrovat, jak provést extrakci textu z celého PDF nebo jedné stránky.
- Knihovna Python pro extrahování textu z PDF
- Extrahujte text z PDF v Pythonu
- Extrahujte text ze stránky v PDF
- Online extraktor textu PDF
Knihovna Pythonu pro extrahování textu z PDF
K extrahování textu ze souborů PDF použijeme Aspose.PDF for Python. Je to výkonná knihovna pro manipulaci s PDF, která vám umožní vytvářet a zpracovávat soubory PDF. Kromě toho umožňuje převádět soubory PDF do jiných formátů.
Aspose.PDF for Python můžete nainstalovat pomocí následujícího příkazu pip.
pip install aspose-pdf
Extrahujte text z PDF v Pythonu
Níže jsou uvedeny kroky k extrahování textu z PDF v Pythonu.
- K načtení souboru PDF použijte třídu Document.
- Vytvořte instanci třídy TextDevice.
- Spusťte smyčku pro počet stránek krát.
- V každé iteraci extrahujte text ze stránky pomocí metody TextDevice.process() a uložte extrahovaný text do souboru .txt.
Následující ukázka kódu ukazuje, jak extrahovat text z PDF v Pythonu.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# Otevřete dokument PDF
document = ap.Document("input.pdf")
# Vytvořte textové zařízení
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# Exportujte stránku do TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
Extrahujte text z konkrétní stránky v PDF
Můžete také extrahovat text z konkrétní stránky PDF pomocí čísla stránky v poli Document.pages. Následující ukázka kódu ukazuje, jak extrahovat text z konkrétní stránky v PDF.
import aspose.pdf as ap
# Otevřete dokument PDF
document = ap.Document("input.pdf")
# Vytvořte textové zařízení
textDevice = ap.devices.TextDevice()
# Extrahujte text z první stránky
textDevice.process(document.pages[1], "extracted_text.txt")
Extrahujte text z PDF online
K extrahování textu ze souborů PDF můžete také použít náš online nástroj pro extrakci textu PDF. Je to bezplatný nástroj, který můžete používat bez jakéhokoli předplatného nebo registrace.
![](images/Online%20PDF%20Text%20Extractor.png)
Bezplatná knihovna extrakce textu PDF
Získejte bezplatnou dočasnou licenci a extrahujte text ze souborů PDF bez jakýchkoli omezení.
Prozkoumejte Python PDF Library
Více o knihovně Python PDF můžete prozkoumat pomocí dokumentace. Kromě toho můžete své dotazy zveřejňovat na našem fóru.
Závěr
V tomto článku jste se naučili, jak extrahovat text z PDF v Pythonu. Kroky a ukázky kódu ukázaly, jak extrahovat text z celého PDF nebo konkrétní stránky. Můžete snadno nainstalovat knihovnu a provádět extrakci textu ze svých aplikací Python.