Hledáte snadný způsob, jak extrahovat text ze souborů PDF? Pokud ano, dostali jste se na správné místo, jako v tomto článku se dozvíte, jak převést soubor PDF na prostý text v Pythonu.

Převést PDF na text v Pythonu

PDF je známý a celosvětově používaný formát dokumentu díky své podpoře napříč platformami. Mnoho lidí dává přednost sdílení a tisku dokumentů ve formátu PDF. Vzhledem k tomu, že PDF je hodně v podnikání, možná budete muset extrahovat prostý text z více souborů PDF programově pro analýzu textu nebo další zpracování. Pojďme se tedy podívat, jak provést převod PDF na text z aplikace Python.

Knihovna Python PDF to Text Converter – ke stažení zdarma

Aspose.Words for Python je výkonná knihovna, která je navržena pro manipulaci s populárními formáty textových dokumentů, které zahrnují především soubory MS Word a PDF. Pomocí knihovny můžete snadno zpracovávat text v dokumentech. Tuto knihovnu použijeme k převodu souborů PDF na prostý text (TXT).

K instalaci Aspose.Words pro Python ve vaší aplikaci můžete použít následující příkaz pip.

pip install aspose-words

Jak převést PDF na text v Pythonu

Chcete-li převést soubor PDF na prostý text pomocí Aspose.Words pro Python, provedeme následující kroky:

  • Načtěte dokument PDF z disku.
  • Uložte PDF ve formátu TXT na požadované místo.

A to je vše.

Nyní se podívejme, jak provést tyto kroky v Pythonu pro převod souboru PDF do formátu TXT.

Uložit PDF jako soubor TXT v Pythonu

Níže jsou uvedeny kroky k uložení souboru PDF jako TXT v Pythonu.

  • Načtěte soubor PDF pomocí třídy Document.
  • Uložte PDF jako TXT pomocí metody Document.save() a předejte cestu k souboru jako parametr.

Následující ukázka kódu ukazuje, jak převést soubor PDF na text (TXT) v Pythonu.

import aspose.words as aw

# Načíst soubor PDF
doc = aw.Document("document.pdf")

# Uložit PDF jako TXT
doc.save("pdf-to-text.txt")

Python PDF to TXT Converter – Získejte bezplatnou licenci

Můžete použít bezplatnou dočasnou licenci k ukládání souborů PDF jako souborů TXT bez omezení hodnocení.

Závěr

V tomto článku jste se naučili, jak převést soubory PDF na text v Pythonu. S pomocí ukázky kódu jste viděli, jak načíst a uložit PDF jako soubor TXT do požadovaného umístění v Pythonu. Kromě toho můžete navštívit dokumentaci Aspose.Words pro Python a prozkoumat více o knihovně. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.

Viz také