Konvertieren Sie PDF in Word in Python

PDF ist ein häufig verwendetes Dateiformat zum Teilen und Drucken von Dokumenten. In bestimmten Fällen werden PDF Dateien jedoch in das Word Format DOCX oder DOC konvertiert, um den Text zu analysieren oder das Dokument bearbeitbar zu machen. Für solche Szenarien behandelt dieser Artikel das Konvertieren einer PDF Datei in ein Word Dokument mit Python. Außerdem erfahren Sie, wie Sie verschiedene Ladeoptionen festlegen, um das Laden von PDF Dateien dynamisch zu steuern.

Python PDF zu Word Konvertierung Bibliothek

Um PDF Dateien in das Word Format zu konvertieren, verwenden wir Aspose.Words for Python. Es ist eine funktionsreiche Python Bibliothek zum Erstellen, Bearbeiten und Konvertieren von Word Dokumenten. Darüber hinaus bietet es eine Hin und Her-Konvertierung von Word und PDF Dokumenten mit hoher Wiedergabetreue. Aspose.Words for Python wird auf PyPI gehostet und kann mit dem folgenden Pip Befehl installiert werden.

pip install aspose-words

Konvertieren Sie eine PDF Datei in Word DOCX in Python

Mit Aspose.Words for Python können Sie eine PDF Datei in wenigen Schritten in das Word DOCX Format konvertieren. Einfach die PDF Datei laden und als Word Dokument speichern. Im Folgenden sind die Schritte zum Konvertieren einer PDF Datei in das DOCX Format in Python aufgeführt.

  • Laden Sie die PDF Datei mit der Document Klasse.
  • Speichern Sie die PDF Datei als Word Dokument mit der methode Document.save().

Das folgende Codebeispiel zeigt, wie eine PDF Datei in das Word DOCX Format konvertiert wird.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Geben Sie Ladeoptionen in der PDF-in-Word-Konvertierung an

Mit Aspose.Words for Python können Sie auch das Laden von PDF Dokumenten an Ihre Anforderungen anpassen. Beispielsweise können Sie nur einen Bereich von Seiten in PDF laden, Bilder überspringen, ein Passwort für verschlüsselte Dateien festlegen usw. Um die Ladeoptionen festzulegen, wird die Klasse PdfLoadOptions verwendet. Im Folgenden finden Sie die Schritte zum Festlegen von Ladeoptionen bei der PDF-in-Word-Konvertierung.

  • Erstellen Sie eine Instanz der PdfLoadOptions Klasse.
  • Geben Sie das Ladeformat mit der Eigenschaft PdfLoadOptions.loadformat an.
  • Legen Sie Optionen wie skippdfimages, pageindex, pagecount usw. fest.
  • Verwenden Sie die Document Klasse, um die PDF Datei zu laden, indem Sie ihren Pfad und PdfLoadOptions als Parameter übergeben.
  • Speichern Sie die PDF Datei als Word Dokument mit der methode Document.save().

Das folgende Codebeispiel zeigt, wie Ladeoptionen bei der PDF zu DOCX Konvertierung mit Python angegeben werden.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Holen Sie sich eine kostenlose API Lizenz

Sie können eine temporäre Lizenz erwerben, um Aspose.Words for Python ohne Evaluierungseinschränkungen zu verwenden.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie PDF Dateien in Python in das Word DOCX oder DOC Format konvertieren. Außerdem haben Sie gesehen, wie Sie verschiedene Ladeoptionen für die PDF Dateien dynamisch festlegen können. Aspose.Words for Python bietet eine Vielzahl weiterer Funktionen, die Sie mithilfe der Dokumentation erkunden können. Sie können Ihre Fragen auch über unser Forum stellen.

Siehe auch