Преобразование PDF в Word в Python

PDF – широко используемый формат файлов для обмена и печати документов. Однако в некоторых случаях файлы PDF преобразуются в формат Word DOCX или DOC для анализа текста или предоставления возможности редактирования документа. Для таких сценариев в этой статье рассказывается, как преобразовать файл PDF в документ Word с помощью Python. Кроме того, вы узнаете, как указать различные параметры загрузки для динамического управления загрузкой PDF-файлов.

Библиотека конвертера Python PDF в Word

Чтобы преобразовать PDF-файлы в формат Word, мы будем использовать Aspose.Words for Python. Это многофункциональная библиотека Python для создания, обработки и преобразования документов Word. Кроме того, он обеспечивает преобразование документов Word и PDF в обе стороны с высокой точностью. Aspose.Words for Python размещен на PyPI и может быть установлен с помощью следующей команды pip.

pip install aspose-words

Преобразование файла PDF в Word DOCX в Python

Используя Aspose.Words для Python, вы можете преобразовать файл PDF в формат Word DOCX за пару шагов. Просто загрузите файл PDF и сохраните его как документ Word. Ниже приведены шаги для преобразования файла PDF в формат DOCX в Python.

  • Загрузите файл PDF, используя класс Document.
  • Сохраните файл PDF как документ Word, используя метод Document.save().

В следующем примере кода показано, как преобразовать файл PDF в формат Word DOCX.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Укажите параметры загрузки при преобразовании PDF в Word

Aspose.Words для Python также позволяет настраивать загрузку PDF-документов в соответствии с вашими требованиями. Например, вы можете загрузить только диапазон страниц в PDF, пропустить изображения, указать пароль для зашифрованных файлов и т. д. Для установки параметров загрузки используется класс PdfLoadOptions. Ниже приведены шаги для указания параметров загрузки при преобразовании PDF в Word.

  • Создайте экземпляр класса PdfLoadOptions.
  • Укажите формат загрузки, используя свойство PdfLoadOptions.loadformat.
  • Установите такие параметры, как skippdfimages, pageindex, pagecount и т. д.
  • Используйте класс Document для загрузки файла PDF, передав его путь и PdfLoadOptions в качестве параметров.
  • Сохраните файл PDF как документ Word, используя метод Document.save().

В следующем примере кода показано, как указать параметры загрузки при преобразовании PDF в DOCX с помощью Python.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Получите бесплатную лицензию API

Вы можете получить временную лицензию, чтобы использовать Aspose.Words for Python без ограничений на пробную версию.

Вывод

В этой статье вы узнали, как конвертировать файлы PDF в формат Word DOCX или DOC в Python. Кроме того, вы видели, как динамически указывать различные параметры загрузки для файлов PDF. Aspose.Words for Python предоставляет широкий спектр других функций, которые вы можете изучить с помощью документации. Кроме того, вы можете задать свои вопросы через наш форум.

Смотрите также