PDF é um formato de arquivo comumente usado para compartilhamento e impressão de documentos. No entanto, em certos casos, os arquivos PDF são convertidos para o formato Word DOCX ou DOC para analisar o texto ou tornar o documento editável. Para esses cenários, este artigo aborda como converter um arquivo PDF em um documento do Word usando Python. Além disso, você aprenderá a especificar diferentes opções de carregamento para controlar o carregamento de arquivos PDF dinamicamente.
- Biblioteca Python PDF para Word Converter
- Converter um arquivo PDF em documento do Word
- Especificar opções de carregamento na conversão de PDF para Word
Biblioteca Python PDF para Word Converter
Para converter arquivos PDF para o formato Word, usaremos Aspose.Words for Python. É uma biblioteca Python rica em recursos para criar, manipular e converter documentos do Word. Além disso, oferece conversão para frente e para trás de documentos Word e PDF com alta fidelidade. O Aspose.Words for Python está hospedado em PyPI e pode ser instalado usando o seguinte comando pip.
pip install aspose-words
Converter um arquivo PDF para Word DOCX em Python
Usando Aspose.Words para Python, você pode converter um arquivo PDF para o formato Word DOCX em algumas etapas. Basta carregar o arquivo PDF e salvá-lo como um documento do Word. A seguir estão as etapas para converter um arquivo PDF para o formato DOCX em Python.
- Carregue o arquivo PDF usando a classe Document.
- Salve o arquivo PDF como documento do Word usando o método Document.save().
O exemplo de código a seguir mostra como converter um arquivo PDF para o formato Word DOCX.
import aspose.words as aw
# load the PDF file
doc = aw.Document("PDF.pdf")
# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")
Especificar opções de carregamento na conversão de PDF para Word
Aspose.Words for Python também permite que você personalize o carregamento de documentos PDF de acordo com suas necessidades. Por exemplo, você pode carregar apenas um intervalo de páginas em PDF, pular imagens, especificar senha para arquivos criptografados, etc. Para definir as opções de carregamento, a classe PdfLoadOptions é usada. A seguir estão as etapas para especificar as opções de carregamento na conversão de PDF para Word.
- Crie uma instância da classe PdfLoadOptions.
- Especifique o formato de carregamento usando a propriedade PdfLoadOptions.loadformat.
- Defina opções como skippdfimages, pageindex, pagecount, etc.
- Use a classe Document para carregar o arquivo PDF passando seu caminho e PdfLoadOptions como parâmetros.
- Salve o arquivo PDF como documento do Word usando o método Document.save().
O exemplo de código a seguir mostra como especificar opções de carregamento na conversão de PDF para DOCX usando Python.
import aspose.words as aw
# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF
# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1
# skip images in PDF
loadOptions.skip_pdf_images = True
# to set password for encrypted PDF files
#loadOptions.password = "12345"
# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)
# convert PDF to Word
doc.save("pdf-to-word.docx")
Obtenha uma licença de API gratuita
Você pode obter uma licença temporária para usar o Aspose.Words for Python sem limitações de avaliação.
Conclusão
Neste artigo, você aprendeu como converter arquivos PDF para o formato Word DOCX ou DOC em Python. Além disso, você viu como especificar diferentes opções de carregamento para os arquivos PDF dinamicamente. Aspose.Words for Python fornece uma ampla gama de outros recursos que você pode explorar usando a documentação. Além disso, você pode fazer suas perguntas através do nosso fórum.