Konwertuj PDF na Word w Python

PDF to powszechnie używany format plików do udostępniania i drukowania dokumentów. Jednak w niektórych przypadkach pliki PDF są konwertowane do formatu Word DOCX w celu przeanalizowania tekstu lub umożliwienia edycji dokumentu. W przypadku takich scenariuszy w tym artykule opisano, jak przekonwertować plik PDF na DOCX w Python. Ponadto dowiesz się, jak określać różne opcje ładowania, aby dynamicznie kontrolować ładowanie plików PDF.

Konwerter plików PDF na DOCX w języku Python — bezpłatne pobieranie

Do konwersji plików PDF do formatu DOCX wykorzystamy Aspose.Words for Python. Jest to bogata w funkcje biblioteka Python do tworzenia, manipulowania i konwertowania dokumentów Worda. Ponadto zapewnia konwersję tam iz powrotem dokumentów Word i PDF z wysoką wiernością. Aspose.Words for Python jest hostowany na PyPI i można go zainstalować za pomocą następującego polecenia pip.

pip install aspose-words

Konwertuj PDF na DOCX w Python

Korzystając z Aspose.Words for Python, możesz przekonwertować plik PDF na DOCX w kilku krokach. Po prostu załaduj plik PDF i zapisz go jako dokument DOCX. Poniżej przedstawiono kroki konwersji pliku PDF na DOCX w Python.

  • Załaduj plik PDF za pomocą klasy Document.
  • Zapisz plik PDF jako dokument DOCX za pomocą metody Document.save().

Poniższy przykładowy kod pokazuje, jak przekonwertować plik PDF na format DOCX.

import aspose.words as aw

# załaduj plik PDF
doc = aw.Document("PDF.pdf")

# konwertować PDF do formatu Word DOCX
doc.save("pdf-to-word.docx")

Konwersja Python PDF na DOCX — Określ opcje ładowania

Aspose.Words for Python pozwala również dostosować ładowanie dokumentów PDF zgodnie z własnymi wymaganiami. Na przykład możesz załadować tylko zakres stron w formacie PDF, pominąć obrazy, określić hasło dla zaszyfrowanych plików itp. Do ustawienia opcji ładowania używana jest klasa PdfLoadOptions. Poniżej przedstawiono kroki, aby określić opcje ładowania w konwersji Python PDF na DOCX.

  • Utwórz instancję klasy PdfLoadOptions.
  • Określ format ładowania za pomocą właściwości PdfLoadOptions.loadformat.
  • Ustaw opcje, takie jak skippdfimages, pageindex, pagecount itp.
  • Użyj klasy Document, aby załadować plik PDF, przekazując jego ścieżkę i PdfLoadOptions jako parametry.
  • Zapisz plik PDF jako dokument DOCX za pomocą metody Document.save().

Poniższy przykładowy kod pokazuje, jak określić opcje ładowania w konwersji plików PDF na DOCX w języku Python.

import aspose.words as aw

# utwórz opcje ładowania plików PDF
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# ustawić indeks strony początkowej i liczbę stron
loadOptions.page_index = 0
loadOptions.page_count = 1

# pomiń obrazy w formacie PDF
loadOptions.skip_pdf_images = True

# ustawić hasło dla zaszyfrowanych plików PDF
#loadOptions.password = "12345" 

# załaduj plik PDF
doc = aw.Document("PDF.pdf", loadOptions)

# konwertować plik PDF do worda
doc.save("pdf-to-word.docx")

Python PDF to DOCX Converter — Uzyskaj bezpłatną licencję

Możesz uzyskać tymczasową licencję, aby używać Aspose.Words for Python bez ograniczeń ewaluacyjnych.

Wniosek

W tym artykule nauczyłeś się, jak konwertować pliki PDF na DOCX w Python. Ponadto widziałeś, jak dynamicznie określać różne opcje ładowania plików PDF. Aspose.Words for Python zapewnia szeroki zakres innych funkcji, które możesz eksplorować za pomocą dokumentacji. Możesz także zadawać pytania za pośrednictwem naszego forum.

Zobacz też