Konvertieren Sie PDF in Word in Python

PDF ist ein häufig verwendetes Dateiformat zum Teilen und Drucken von Dokumenten. In bestimmten Fällen werden PDF Dateien jedoch in das Word-Format DOCX konvertiert, um den Text zu analysieren oder das Dokument bearbeitbar zu machen. Für solche Szenarien behandelt dieser Artikel das Konvertieren von PDF in DOCX in Python. Außerdem erfahren Sie, wie Sie verschiedene Ladeoptionen festlegen, um das Laden von PDF Dateien dynamisch zu steuern.

Python PDF to DOCX Converter – kostenloser Download

Um PDF Dateien in das DOCX-Format zu konvertieren, verwenden wir Aspose.Words for Python. Es ist eine funktionsreiche Python Bibliothek zum Erstellen, Bearbeiten und Konvertieren von Word Dokumenten. Darüber hinaus bietet es eine Hin und Her-Konvertierung von Word und PDF Dokumenten mit hoher Wiedergabetreue. Aspose.Words for Python wird auf PyPI gehostet und kann mit dem folgenden Pip-Befehl installiert werden.

pip install aspose-words

Konvertieren Sie PDF in DOCX in Python

Mit Aspose.Words for Python können Sie eine PDF-Datei in wenigen Schritten in DOCX konvertieren. Laden Sie einfach die PDF-Datei und speichern Sie sie als DOCX Dokument. Im Folgenden sind die Schritte zum Konvertieren einer PDF-Datei in DOCX in Python aufgeführt.

  • Laden Sie die PDF-Datei mit der Document Klasse.
  • Speichern Sie die PDF-Datei als DOCX Dokument mit der Methode Document.save().

Das folgende Codebeispiel zeigt, wie eine PDF-Datei in das DOCX-Format konvertiert wird.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Python-PDF zu DOCX-Konvertierung - Ladeoptionen angeben

Mit Aspose.Words for Python können Sie auch das Laden von PDF Dokumenten an Ihre Anforderungen anpassen. Beispielsweise können Sie nur einen Bereich von Seiten in PDF laden, Bilder überspringen, ein Passwort für verschlüsselte Dateien festlegen usw. Um die Ladeoptionen festzulegen, wird die Klasse PdfLoadOptions verwendet. Im Folgenden finden Sie die Schritte zum Festlegen von Ladeoptionen bei der Konvertierung von Python-PDF in DOCX.

  • Erstellen Sie eine Instanz der PdfLoadOptions Klasse.
  • Geben Sie das Ladeformat mit der Eigenschaft PdfLoadOptions.load_format an.
  • Legen Sie Optionen wie skip_pdf_images, page_index, page_count usw. fest.
  • Verwenden Sie die Document Klasse, um die PDF-Datei zu laden, indem Sie ihren Pfad und PdfLoadOptions als Parameter übergeben.
  • Speichern Sie die PDF-Datei als DOCX Dokument mit der Methode Document.save().

Das folgende Codebeispiel zeigt, wie Ladeoptionen bei der PDF zu DOCX-Konvertierung in Python angegeben werden.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Python PDF to DOCX Converter - Holen Sie sich eine kostenlose Lizenz

Sie können eine temporäre Lizenz erwerben, um Aspose.Words for Python ohne Evaluierungseinschränkungen zu verwenden.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie PDF Dateien in Python in DOCX konvertieren. Außerdem haben Sie gesehen, wie Sie verschiedene Ladeoptionen für die PDF Dateien dynamisch festlegen können. Aspose.Words for Python bietet eine Vielzahl weiterer Funktionen, die Sie mithilfe der Dokumentation erkunden können. Sie können Ihre Fragen auch über unser Forum stellen.

Siehe auch