Python에서 PDF 테이블 추출

이 기사에서는 Python을 사용하여 PDF 파일에서 표를 추출하는 방법을 배웁니다. PDF는 데이터 공유에 널리 사용되는 형식이지만 PDF에서 표를 추출하는 것은 어려운 작업이 될 수 있습니다. 이 작업에 도움이 되는 몇 가지 Python 라이브러리를 사용할 수 있습니다. 여전히 정확한 데이터 추출이 부족할 수 있습니다.

따라서 몇 줄의 코드 내에서 높은 정확도로 PDF에서 테이블 형식 데이터를 추출하는 방법을 알아보겠습니다. 이 자습서가 끝나면 Python을 사용하여 PDF 파일에서 테이블을 추출하고 필요에 따라 조작할 수 있습니다.

PDF에서 테이블을 추출하는 Python 라이브러리

PDF 파일의 테이블에서 데이터를 추출하기 위해 Aspose.PDF for Python을 사용합니다. PDF 처리 및 조작을 위한 여러 기능을 갖춘 강력한 Python 라이브러리입니다. 다음 pip 명령을 사용하여 Python용 Aspose.PDF를 설치할 수 있습니다.

pip install aspose-pdf

Python의 PDF에서 테이블 추출

다음은 Python을 사용하여 PDF의 테이블에서 데이터를 추출하는 단계입니다.

  • Document 클래스를 사용하여 PDF 파일을 로드합니다.
  • 테이블이 있는 PDF 페이지의 참조를 가져옵니다.
  • TableAbsorber 개체를 초기화하고 TableAbsorber.visit(Page) 메서드를 사용하여 선택한 페이지를 방문합니다.
  • 루프에서 TableAbsorber.tablelist 컬렉션의 테이블 목록을 반복합니다.
  • 각 테이블에 대해 AbsorbedTable.rowlist의 행 컬렉션을 반복합니다.
  • 흡수된 각 행에 대해 AbsorbedRow.celllist의 셀 컬렉션을 반복합니다.
  • 마지막으로 흡수된 각 셀의 textfragments 컬렉션을 반복하고 텍스트를 인쇄합니다.

다음 코드 샘플은 Python의 PDF 테이블에서 텍스트를 추출하는 방법을 보여줍니다.

import aspose.pdf as pdf

# PDF 파일 로드
pdfDocument = pdf.Document("input.pdf")

# TableAbsorber 객체 초기화
tableAbsorber =  pdf.text.TableAbsorber()

# 첫 페이지의 모든 테이블을 구문 분석
tableAbsorber.visit(pdfDocument.pages[1])

# 첫 번째 테이블의 참조 가져오기
absorbedTable = tableAbsorber.table_list[0]

# 테이블의 모든 행을 반복합니다.
for pdfTableRow in absorbedTable.row_list:
    
    # 행의 모든 열을 반복합니다.
   for pdfTableCell in pdfTableRow.cell_list:
        
        # 텍스트 조각 가져오기
        textFragmentCollection = pdfTableCell.text_fragments
        
        # 텍스트 조각을 통해 반복
       for textFragment in textFragmentCollection:
            
            # 텍스트 인쇄
            print(textFragment.text)
            

PDF 테이블을 추출하는 온라인 도구

Python용 Aspose.PDF를 기반으로 하는 무료 온라인 도구인 PDF 테이블 추출기를 사용하여 PDF 파일에서 테이블을 추출할 수도 있습니다.

무료로 Python PDF 라이브러리 사용

무료 임시 라이센스를 받고 제한 없이 PDF 파일의 테이블에서 데이터를 추출할 수 있습니다.

Python PDF 라이브러리 살펴보기

문서를 사용하여 Python PDF 라이브러리에 대해 자세히 알아볼 수 있습니다. 또한 포럼에 질문을 게시할 수 있습니다.

결론

이 기사에서는 Python을 사용하여 PDF의 테이블에서 데이터를 추출하는 방법을 배웠습니다. 동일한 코드를 약간만 수정하면 PDF의 모든 페이지에서 표를 추출할 수 있습니다. 마찬가지로 페이지의 모든 테이블 또는 특정 테이블에서 데이터를 추출할 수 있습니다. 애플리케이션에 Python용 Aspose.PDF를 설치하기만 하면 PDF 파일에서 표 형식 데이터를 빠르고 쉽게 추출하는 방법을 경험할 수 있습니다.

또한보십시오