Hledáte snadný způsob, jak extrahovat text ze souborů PDF? Pokud ano, dostali jste se na správné místo, jako v tomto článku se dozvíte, jak převést soubor PDF na prostý text v Pythonu.
PDF je známý a celosvětově používaný formát dokumentu díky své podpoře napříč platformami. Mnoho lidí dává přednost sdílení a tisku dokumentů ve formátu PDF. Vzhledem k tomu, že PDF je hodně v podnikání, možná budete muset extrahovat prostý text z více souborů PDF programově pro analýzu textu nebo další zpracování. Pojďme se tedy podívat, jak provést převod PDF na text z aplikace Python.
- Python PDF to Text Converter – zdarma ke stažení
- Kroky k převodu PDF na text v Pythonu
- Uložit PDF jako soubor TXT v Pythonu
Knihovna Python PDF to Text Converter – ke stažení zdarma
Aspose.Words for Python je výkonná knihovna, která je navržena pro manipulaci s populárními formáty textových dokumentů, které zahrnují především soubory MS Word a PDF. Pomocí knihovny můžete snadno zpracovávat text v dokumentech. Tuto knihovnu použijeme k převodu souborů PDF na prostý text (TXT).
K instalaci Aspose.Words pro Python ve vaší aplikaci můžete použít následující příkaz pip.
pip install aspose-words
Jak převést PDF na text v Pythonu
Chcete-li převést soubor PDF na prostý text pomocí Aspose.Words pro Python, provedeme následující kroky:
- Načtěte dokument PDF z disku.
- Uložte PDF ve formátu TXT na požadované místo.
A to je vše.
Nyní se podívejme, jak provést tyto kroky v Pythonu pro převod souboru PDF do formátu TXT.
Uložit PDF jako soubor TXT v Pythonu
Níže jsou uvedeny kroky k uložení souboru PDF jako TXT v Pythonu.
- Načtěte soubor PDF pomocí třídy Document.
- Uložte PDF jako TXT pomocí metody Document.save() a předejte cestu k souboru jako parametr.
Následující ukázka kódu ukazuje, jak převést soubor PDF na text (TXT) v Pythonu.
import aspose.words as aw
# Načíst soubor PDF
doc = aw.Document("document.pdf")
# Uložit PDF jako TXT
doc.save("pdf-to-text.txt")
Python PDF to TXT Converter – Získejte bezplatnou licenci
Můžete použít bezplatnou dočasnou licenci k ukládání souborů PDF jako souborů TXT bez omezení hodnocení.
Závěr
V tomto článku jste se naučili, jak převést soubory PDF na text v Pythonu. S pomocí ukázky kódu jste viděli, jak načíst a uložit PDF jako soubor TXT do požadovaného umístění v Pythonu. Kromě toho můžete navštívit dokumentaci Aspose.Words pro Python a prozkoumat více o knihovně. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.