作為一名程序員,您可能需要處理一堆 PDF 文件並從中提取文本。出於文本分析等各種目的,可能需要從 PDF 中提取文本。在本文中,我們將演示用 Python 從 PDF 文件中提取文本是多麼容易。此外,您將了解如何提取文本並保存到 TXT 文件中。
從 PDF 中提取文本的 Python 庫 - 免費下載
Aspose.Words for Python 是一個了不起的庫,可讓您無縫地創建和處理文本文檔。可以操作DOC、DOCX、PDF等流行格式的文檔。我們將使用這個庫對我們的 PDF 文件執行文本提取。您可以使用以下 pip 命令從 PyPI 安裝庫。
> pip install aspose-words
如何在 Python 中從 PDF 中提取文本
Aspose.Words for Python 通過對用戶隱藏複雜的操作,使得 PDF 文本提取變得極其簡單。您只需要加載 PDF 文件並保存提取的文本。以下步驟演示瞭如何使用 Aspose.Words for Python 從 PDF 中提取文本。
- 從所需位置加載 PDF 文件。
- 提取文本並將其保存到 .txt 文件中。
就是這樣。然後,您可以處理 .txt 文件並操作從 PDF 中提取的純文本。
現在讓我們看看如何在 Python 中以編程方式從 PDF 中提取文本。
在 Python 中從 PDF 中提取文本
以下是在 Python 中提取 PDF 文本的步驟以及類和方法。
- 使用 Document 類加載 PDF 文件。
- 使用 Document.save(fileName) 方法將 PDF 中的文本提取到 .txt 文件中。
以下代碼示例顯示了使用 Python 從 PDF 文件中提取文本。
# 導入 Aspose.Words for Python 模塊
import aspose.words as aw
# 加載PDF文件
pdf = aw.Document("file.pdf")
# 提取文本並將其保存在 TXT 文件中
pdf.save("extracted-text.txt")
以下屏幕截圖顯示了我們用於文本提取的輸入 PDF 文件。
以下屏幕截圖顯示了 TXT 文件中提取的文本。
適用於 Python 的 PDF 文本提取器 - 獲取免費許可證
您可以獲得免費的臨時許可證,以在沒有評估限制的情況下從 PDF 中提取文本。
結論
在本文中,您學習瞭如何使用 Python 從 PDF 文件中提取文本。您已經了解瞭如何輕鬆快速地從 PDF 中提取文本並將其以編程方式保存在 TXT 文件中。現在,您可以在 Python 應用程序中實現對一批 PDF 文件的文本提取。
探索 Aspose 的 Python PDF 文本提取器
您可以使用 文檔 探索 Aspose.Words for Python 的其他功能。如果您有任何疑問,請隨時通過我們的 論壇 告訴我們。