Python 查找和替換 PDF 中的文本

如果您正在尋找一種簡單而準確的方法來查找和替換 PDF 文件中的文本,那麼您來對地方了。在本文中,您將學習如何使用 Python 替換 PDF 中的特定文本。通過編寫幾行代碼,您可以解析整個 PDF 以搜索和替換所需的單詞/短語。

用於查找和替換 PDF 中文本的 Python 庫

要查找和替換 PDF 文件中的文本,我們將使用 Aspose.PDF for Python。它是一個強大的 Python 庫,可以毫不費力地創建和處理 PDF 文件。該庫還使您能夠以高精度和高速度查找和替換 PDF 文件中的文本。

要安裝該庫,您可以使用以下 pip 命令。

> pip install aspose-pdf

使用 Python 查找和替換 PDF 中的文本

以下步驟解釋瞭如何在 Aspose.PDF 的幫助下使用 Python 查找和替換 PDF 文檔中的文本。

  1. 使用 Document 類從其路徑加載 PDF。
  2. 創建 TextFragmentAbsorber 類的實例並將搜索短語提供給其構造函數。
  3. 使用 doc.pages.accept(textabsorber) 接受 PDF 所有頁面的文本吸收器。
  4. 將提取的文本片段放入一個對像中。
  5. 遍歷找到的文本片段並替換每個片段中的文本。
  6. 最後,使用 Document.save() 方法保存更新後的 PDF 文檔。

以下代碼示例展示瞭如何使用 Python 查找和替換 PDF 中的文本。

# 加載 PDF 文檔
document = ap.Document("input.pdf")

# 實例化一個 TextFragmentAbsorber 對象
txtAbsorber = ap.text.TextFragmentAbsorber("text-to-replace")

# 搜索文本
document.pages.accept(txtAbsorber)

# 獲取對找到的文本片段的引用
textFragmentCollection = txtAbsorber.text_fragments

# 解析所有搜索到的文本片段並替換文本
for txtFragment in textFragmentCollection:
    txtFragment.text = "replaced-text"

# 保存更新的 PDF
document.save("output.pdf")

在線替換 PDF 文本的工具

我們還開發了一個基於 Aspose.PDF for Python 的在線替換 PDF 文件中的文本的工具。只要有互聯網連接,您就可以隨時隨地使用此工具。

用於替換 PDF 中的文本的免費 Python 庫

您可以 獲得免費的臨時許可證 並無限制地替換 PDF 文件中的文本。

此外,您可以使用 文檔 探索 Python PDF 庫的其他功能。另外,請在 我們的論壇 上寫信給我們,說明您的問題、建議或反饋。

結論

在本文中,您學習瞭如何使用 Python 解析 PDF 以及查找和替換特定文本。只需幾行代碼,您就可以在一批 PDF 文件中搜索和替換文本。此外,我們還為您提供了一個免費的在線工具來替換 PDF 文件中的文本。您可以在任何具有互聯網連接的設備上使用此工具。

也可以看看