在 Python 中從 PDF 中提取文本

在處理 PDF 文件時,您經常需要從頁面中提取內容作為純文本。此純文本可進一步用於各種目的,例如文本分析、文本處理等。在本文中,您將學習如何使用 Python 從 PDF 中提取文本。借助代碼示例,本文將演示如何在整個 PDF 或單個頁面上執行文本提取。

從 PDF 中提取文本的 Python 庫

要從 PDF 文件中提取文本,我們將使用 Aspose.PDF for Python。它是一個功能強大的 PDF 操作庫,可讓您創建和處理 PDF 文件。此外,它還允許您將 PDF 文件轉換為其他格式。

您可以使用以下 pip 命令安裝 Aspose.PDF for Python。

pip install aspose-pdf

在 Python 中從 PDF 中提取文本

以下是使用 Python 從 PDF 中提取文本的步驟。

  • 使用 Document 類加載 PDF 文件。
  • 創建 TextDevice 類的實例。
  • 開始循環頁數次數。
  • 在每次迭代中,使用 TextDevice.process() 方法從頁面中提取文本,並將提取的文本保存在 .txt 文件中。

以下代碼示例顯示瞭如何使用 Python 從 PDF 中提取文本。

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# 打開 PDF 文檔
document = ap.Document("input.pdf")

# 創建文本設備
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # 將頁面導出到 TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

從 PDF 的特定頁面中提取文本

您還可以使用 Document.pages 數組中的頁碼從 PDF 的特定頁面中提取文本。以下代碼示例顯示如何從 PDF 中的特定頁面提取文本。

import aspose.pdf as ap

# 打開 PDF 文檔
document = ap.Document("input.pdf")

# 創建文本設備
textDevice = ap.devices.TextDevice()

# 從第一頁提取文本
textDevice.process(document.pages[1], "extracted_text.txt")

在線從 PDF 中提取文本

您還可以使用我們的在線 PDF 文本提取工具 從 PDF 文件中提取文本。這是一個免費工具,您無需任何訂閱或註冊即可使用。

免費的 PDF 文本提取庫

獲取您的 免費臨時許可證 並不受任何限制地從 PDF 文件中提取文本。

探索 Python PDF 庫

您可以使用 文檔 探索更多關於 Python PDF 庫的信息。此外,您可以將您的問題發佈到我們的論壇

結論

在本文中,您學習瞭如何使用 Python 從 PDF 中提取文本。這些步驟和代碼示例演示瞭如何從整個 PDF 或特定頁面中提取文本。您可以輕鬆地安裝該庫並從您的 Python 應用程序中執行文本提取。

也可以看看