Преобразование PDF в Word в Python

PDF – широко используемый формат файлов для обмена и печати документов. Однако в некоторых случаях файлы PDF преобразуются в формат Word DOCX для анализа текста или предоставления возможности редактирования документа. Для таких сценариев в этой статье рассказывается, как преобразовать PDF в DOCX в Python. Кроме того, вы узнаете, как указать различные параметры загрузки для динамического управления загрузкой PDF-файлов.

Конвертер Python PDF в DOCX — Скачать бесплатно

Чтобы преобразовать файлы PDF в формат DOCX, мы будем использовать Aspose.Words for Python. Это многофункциональная библиотека Python для создания, обработки и преобразования документов Word. Кроме того, он обеспечивает преобразование документов Word и PDF в обе стороны с высокой точностью. Aspose.Words for Python размещен на PyPI и может быть установлен с помощью следующей команды pip.

pip install aspose-words

Преобразование PDF в DOCX в Python

Используя Aspose.Words for Python, вы можете преобразовать PDF-файл в DOCX за пару шагов. Просто загрузите файл PDF и сохраните его как документ DOCX. Ниже приведены шаги для преобразования PDF в DOCX в Python.

  • Загрузите файл PDF, используя класс Document.
  • Сохраните файл PDF как документ DOCX, используя метод Document.save().

В следующем примере кода показано, как преобразовать файл PDF в формат DOCX.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Преобразование Python PDF в DOCX — укажите параметры загрузки

Aspose.Words for Python также позволяет настраивать загрузку PDF-документов в соответствии с вашими требованиями. Например, вы можете загрузить только диапазон страниц в PDF, пропустить изображения, указать пароль для зашифрованных файлов и т. д. Для установки параметров загрузки используется класс PdfLoadOptions. Ниже приведены шаги для указания параметров загрузки при преобразовании Python PDF в DOCX.

  • Создайте экземпляр класса PdfLoadOptions.
  • Укажите формат загрузки, используя свойство PdfLoadOptions.load_format.
  • Установите такие параметры, как skip_pdf_images, page_index, page_count и т. д.
  • Используйте класс Document для загрузки файла PDF, передав его путь и PdfLoadOptions в качестве параметров.
  • Сохраните файл PDF как документ DOCX, используя метод Document.save().

В следующем примере кода показано, как указать параметры загрузки при преобразовании PDF в DOCX в Python.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Конвертер Python PDF в DOCX — получите бесплатную лицензию

Вы можете получить временную лицензию, чтобы использовать Aspose.Words for Python без ограничений на пробную версию.

Вывод

В этой статье вы узнали, как конвертировать PDF-файлы в DOCX в Python. Кроме того, вы видели, как динамически указывать различные параметры загрузки для файлов PDF. Aspose.Words for Python предоставляет широкий спектр других функций, которые вы можете изучить с помощью документации. Кроме того, вы можете задать свои вопросы через наш форум.

Смотрите также