PDF – широко используемый формат файлов для обмена и печати документов. Однако в некоторых случаях файлы PDF преобразуются в формат Word DOCX для анализа текста или предоставления возможности редактирования документа. Для таких сценариев в этой статье рассказывается, как преобразовать PDF в DOCX в Python. Кроме того, вы узнаете, как указать различные параметры загрузки для динамического управления загрузкой PDF-файлов.
- Конвертер Python PDF в DOCX
- Преобразование файла PDF в DOCX в Python
- Python PDF в DOCX — укажите параметры загрузки
Конвертер Python PDF в DOCX — Скачать бесплатно
Чтобы преобразовать файлы PDF в формат DOCX, мы будем использовать Aspose.Words for Python. Это многофункциональная библиотека Python для создания, обработки и преобразования документов Word. Кроме того, он обеспечивает преобразование документов Word и PDF в обе стороны с высокой точностью. Aspose.Words for Python размещен на PyPI и может быть установлен с помощью следующей команды pip.
pip install aspose-words
Преобразование PDF в DOCX в Python
Используя Aspose.Words for Python, вы можете преобразовать PDF-файл в DOCX за пару шагов. Просто загрузите файл PDF и сохраните его как документ DOCX. Ниже приведены шаги для преобразования PDF в DOCX в Python.
- Загрузите файл PDF, используя класс Document.
- Сохраните файл PDF как документ DOCX, используя метод Document.save().
В следующем примере кода показано, как преобразовать файл PDF в формат DOCX.
import aspose.words as aw
# load the PDF file
doc = aw.Document("PDF.pdf")
# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")
Преобразование Python PDF в DOCX — укажите параметры загрузки
Aspose.Words for Python также позволяет настраивать загрузку PDF-документов в соответствии с вашими требованиями. Например, вы можете загрузить только диапазон страниц в PDF, пропустить изображения, указать пароль для зашифрованных файлов и т. д. Для установки параметров загрузки используется класс PdfLoadOptions. Ниже приведены шаги для указания параметров загрузки при преобразовании Python PDF в DOCX.
- Создайте экземпляр класса PdfLoadOptions.
- Укажите формат загрузки, используя свойство PdfLoadOptions.load_format.
- Установите такие параметры, как skip_pdf_images, page_index, page_count и т. д.
- Используйте класс Document для загрузки файла PDF, передав его путь и PdfLoadOptions в качестве параметров.
- Сохраните файл PDF как документ DOCX, используя метод Document.save().
В следующем примере кода показано, как указать параметры загрузки при преобразовании PDF в DOCX в Python.
import aspose.words as aw
# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF
# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1
# skip images in PDF
loadOptions.skip_pdf_images = True
# to set password for encrypted PDF files
#loadOptions.password = "12345"
# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)
# convert PDF to Word
doc.save("pdf-to-word.docx")
Конвертер Python PDF в DOCX — получите бесплатную лицензию
Вы можете получить временную лицензию, чтобы использовать Aspose.Words for Python без ограничений на пробную версию.
Вывод
В этой статье вы узнали, как конвертировать PDF-файлы в DOCX в Python. Кроме того, вы видели, как динамически указывать различные параметры загрузки для файлов PDF. Aspose.Words for Python предоставляет широкий спектр других функций, которые вы можете изучить с помощью документации. Кроме того, вы можете задать свои вопросы через наш форум.