在 Python 中從 PDF 中提取文本

作為一名程序員,您可能需要處理一堆 PDF 文件並從中提取文本。出於文本分析等各種目的,可能需要從 PDF 中提取文本。在本文中,我們將演示用 Python 從 PDF 文件中提取文本是多麼容易。此外,您將了解如何提取文本並保存到 TXT 文件中。

從 PDF 中提取文本的 Python 庫 - 免費下載

Aspose.Words for Python 是一個了不起的庫,可讓您無縫地創建和處理文本文檔。可以操作DOC、DOCX、PDF等流行格式的文檔。我們將使用這個庫對我們的 PDF 文件執行文本提取。您可以使用以下 pip 命令從 PyPI 安裝庫。

> pip install aspose-words

如何在 Python 中從 PDF 中提取文本

Aspose.Words for Python 通過對用戶隱藏複雜的操作,使得 PDF 文本提取變得極其簡單。您只需要加載 PDF 文件並保存提取的文本。以下步驟演示瞭如何使用 Aspose.Words for Python 從 PDF 中提取文本。

  • 從所需位置加載 PDF 文件。
  • 提取文本並將其保存到 .txt 文件中。

就是這樣。然後,您可以處理 .txt 文件並操作從 PDF 中提取的純文本。

現在讓我們看看如何在 Python 中以編程方式從 PDF 中提取文本。

在 Python 中從 PDF 中提取文本

以下是在 Python 中提取 PDF 文本的步驟以及類和方法。

  • 使用 Document 類加載 PDF 文件。
  • 使用 Document.save(fileName) 方法將 PDF 中的文本提取到 .txt 文件中。

以下代碼示例顯示了使用 Python 從 PDF 文件中提取文本。

# 導入 Aspose.Words for Python 模塊
import aspose.words as aw

# 加載PDF文件
pdf = aw.Document("file.pdf")

# 提取文本並將其保存在 TXT 文件中
pdf.save("extracted-text.txt")

以下屏幕截圖顯示了我們用於文本提取的輸入 PDF 文件。

PDF 在 Python 中提取文本

以下屏幕截圖顯示了 TXT 文件中提取的文本。

將文本從 PDF 提取為 TXT

適用於 Python 的 PDF 文本提取器 - 獲取免費許可證

您可以獲得免費的臨時許可證,以在沒有評估限制的情況下從 PDF 中提取文本。

結論

在本文中,您學習瞭如何使用 Python 從 PDF 文件中提取文本。您已經了解瞭如何輕鬆快速地從 PDF 中提取文本並將其以編程方式保存在 TXT 文件中。現在,您可以在 Python 應用程序中實現對一批 PDF 文件的文本提取。

探索 Aspose 的 Python PDF 文本提取器

您可以使用 文檔 探索 Aspose.Words for Python 的其他功能。如果您有任何疑問,請隨時通過我們的 論壇 告訴我們。

也可以看看