Převeďte PDF do Wordu v Pythonu

PDF je běžně používaný formát souboru pro sdílení a tisk dokumentů. V některých případech jsou však soubory PDF převedeny do formátu Word DOCX, aby se text analyzoval nebo aby byl dokument upravitelný. Pro takové scénáře tento článek popisuje, jak převést PDF na DOCX v Pythonu. Navíc se naučíte, jak specifikovat různé možnosti načítání pro dynamické řízení načítání souborů PDF.

Python PDF to DOCX Converter

K převodu souborů PDF do formátu DOCX použijeme Aspose.Words pro Python. Jedná se o knihovnu Pythonu s bohatými funkcemi pro vytváření, manipulaci a převod dokumentů aplikace Word. Navíc poskytuje tam a zpět převod dokumentů Word a PDF s vysokou věrností. Aspose.Words pro Python je hostován na PyPI a lze jej nainstalovat pomocí následujícího příkazu pip.

pip install aspose-words

Jak převést PDF do DOCX v Pythonu

Pomocí Aspose.Words pro Python můžete převést soubor PDF na DOCX během několika kroků. Jednoduše načtěte soubor PDF a uložte jej jako dokument DOCX. Níže jsou uvedeny kroky pro převod PDF do DOCX v Pythonu.

  • Načtěte soubor PDF pomocí třídy Document.
  • Uložte soubor PDF jako dokument DOCX pomocí metody Document.save().

Následující ukázka kódu ukazuje, jak převést soubor PDF do formátu DOCX.

import aspose.words as aw

# načíst soubor PDF
doc = aw.Document("PDF.pdf")

# převést PDF do formátu Word DOCX
doc.save("pdf-to-word.docx")

Uložit PDF jako DOCX v Pythonu - Možnosti načtení

Aspose.Words pro Python vám také umožňuje přizpůsobit načítání dokumentů PDF podle vašich požadavků. Můžete například načíst pouze rozsah stránek v PDF, přeskakovat obrázky, zadat heslo pro šifrované soubory atd. Pro nastavení možností načítání se používá třída PdfLoadOptions. Níže jsou uvedeny kroky k určení možností načtení v převodu Python PDF na DOCX.

  • Vytvořte instanci třídy PdfLoadOptions.
  • Zadejte formát načtení pomocí vlastnosti PdfLoadOptions.loadformat.
  • Nastavte možnosti, jako jsou skippdfimages, index stránek, počet stránek atd.
  • Použijte třídu Document k načtení souboru PDF předáním jeho cesty a parametrů PdfLoadOptions.
  • Uložte soubor PDF jako dokument DOCX pomocí metody Document.save().

Následující ukázka kódu ukazuje, jak určit možnosti načtení v převodu PDF na DOCX v Pythonu.

import aspose.words as aw

# vytvořit možnosti načítání PDF
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# nastavit index úvodní stránky a počet stránek
loadOptions.page_index = 0
loadOptions.page_count = 1

# přeskočit obrázky v PDF
loadOptions.skip_pdf_images = True

# pro nastavení hesla pro šifrované soubory PDF
#loadOptions.password = "12345" 

# načíst soubor PDF
doc = aw.Document("PDF.pdf", loadOptions)

# převést PDF do Wordu
doc.save("pdf-to-word.docx")

Zdarma Python PDF to DOCX Converter

Můžete získat bezplatnou dočasnou licenci pro převod souborů PDF do DOCX bez omezení hodnocení.

Závěr

V tomto článku jste se naučili, jak převést soubory PDF do DOCX v Pythonu. Navíc jste viděli, jak dynamicky specifikovat různé možnosti načítání pro soubory PDF. Aspose.Words pro Python poskytuje širokou škálu dalších funkcí, které můžete prozkoumat pomocí dokumentace. Také se můžete ptát na naše fórum.

Viz také