在 Python 中從 PDF 中提取表格 |閱讀 PDF 格式的表格數據

在本文中，您將學習如何使用 Python 從 PDF 文件中提取表格。 PDF 是一種流行的數據共享格式，但是，從 PDF 中提取表格可能是一項具有挑戰性的任務。有幾個可用的 Python 庫可以幫助我們完成這項任務。儘管如此，仍可能缺乏準確的數據提取。

因此，讓我們了解如何在幾行代碼內從 PDF 中高精度地提取表格數據。在本教程結束時，您將能夠使用 Python 從 PDF 文件中提取表格並根據需要對其進行操作。

用於提取 PDF 表格的 Python 庫
在 Python 中從 PDF 表格中提取數據
提取 PDF 表格的在線工具

從 PDF 中提取表格的 Python 庫

要從 PDF 文件的表格中提取數據，我們將使用 Aspose.PDF for Python。它是一個功能強大的 Python 庫，具有一系列用於 PDF 處理和操作的功能。您可以使用以下 pip 命令安裝 Aspose.PDF for Python。

pip install aspose-pdf

在 Python 中從 PDF 中提取表格

以下是使用 Python 從 PDF 中的表格中提取數據的步驟。

使用 Document 類加載 PDF 文件。
獲取表所在的 PDF 頁面的引用。
初始化 TableAbsorber 對象並使用 TableAbsorber.visit(Page) 方法訪問所選頁面。
在循環中，遍歷 TableAbsorber.tablelist 集合中的表列表。
對於每個表，遍歷 AbsorbedTable.rowlist 中的行集合。
對於每個吸收的行，循環訪問 AbsorbedRow.celllist 中的單元格集合。
最後，遍歷每個吸收的單元格的 textfragments 集合併打印文本。

以下代碼示例展示瞭如何使用 Python 從 PDF 表格中提取文本。

import aspose.pdf as pdf

# 加載PDF文件
pdfDocument = pdf.Document("input.pdf")

# 初始化 TableAbsorber 對象
tableAbsorber =  pdf.text.TableAbsorber()

# 解析第一頁上的所有表格
tableAbsorber.visit(pdfDocument.pages[1])

# 獲取第一個表的引用
absorbedTable = tableAbsorber.table_list[0]

# 遍歷表中的所有行
for pdfTableRow in absorbedTable.row_list:
    
    # 遍歷行中的所有列
   for pdfTableCell in pdfTableRow.cell_list:
        
        # 獲取文本片段
        textFragmentCollection = pdfTableCell.text_fragments
        
        # 遍歷文本片段
       for textFragment in textFragmentCollection:
            
            # 打印文本
            print(textFragment.text)

提取 PDF 表格的在線工具

您也可以試用我們的免費在線工具 PDF 表格提取器，它基於 Aspose.PDF for Python 從 PDF 文件中提取表格。

免費使用 Python PDF 庫

您可以獲得免費臨時許可證並不受任何限制地從 PDF 文件中的表格中提取數據。

探索 Python PDF 庫

您可以使用文檔探索更多關於 Python PDF 庫的信息。此外，您可以在我們的論壇上發布您的疑問。

結論

在本文中，您學習瞭如何使用 Python 從 PDF 中的表格中提取數據。您可以使用稍作修改的相同代碼從 PDF 的所有頁面中提取表格。同樣，您可以從頁面上的所有表或特定表中提取數據。只需在您的應用程序中安裝 Aspose.PDF for Python，即可快速輕鬆地從 PDF 文件中提取表格數據。

也可以看看

在 Python 中創建 PDF 文件

從 PDF 中提取表格的 Python 庫#

在 Python 中從 PDF 中提取表格#

提取 PDF 表格的在線工具#

免費使用 Python PDF 庫#

探索 Python PDF 庫#

結論#

也可以看看#