![Python에서 PDF 테이블 추출](images/Extract%20Tables%20in%20PDF%20in%20Python.png#center)
이 기사에서는 Python을 사용하여 PDF 파일에서 표를 추출하는 방법을 배웁니다. PDF는 데이터 공유에 널리 사용되는 형식이지만 PDF에서 표를 추출하는 것은 어려운 작업이 될 수 있습니다. 이 작업에 도움이 되는 몇 가지 Python 라이브러리를 사용할 수 있습니다. 여전히 정확한 데이터 추출이 부족할 수 있습니다.
따라서 몇 줄의 코드 내에서 높은 정확도로 PDF에서 테이블 형식 데이터를 추출하는 방법을 알아보겠습니다. 이 자습서가 끝나면 Python을 사용하여 PDF 파일에서 테이블을 추출하고 필요에 따라 조작할 수 있습니다.
PDF에서 테이블을 추출하는 Python 라이브러리
PDF 파일의 테이블에서 데이터를 추출하기 위해 Aspose.PDF for Python을 사용합니다. PDF 처리 및 조작을 위한 여러 기능을 갖춘 강력한 Python 라이브러리입니다. 다음 pip 명령을 사용하여 Python용 Aspose.PDF를 설치할 수 있습니다.
pip install aspose-pdf
Python의 PDF에서 테이블 추출
다음은 Python을 사용하여 PDF의 테이블에서 데이터를 추출하는 단계입니다.
- Document 클래스를 사용하여 PDF 파일을 로드합니다.
- 테이블이 있는 PDF 페이지의 참조를 가져옵니다.
- TableAbsorber 개체를 초기화하고 TableAbsorber.visit(Page) 메서드를 사용하여 선택한 페이지를 방문합니다.
- 루프에서 TableAbsorber.tablelist 컬렉션의 테이블 목록을 반복합니다.
- 각 테이블에 대해 AbsorbedTable.rowlist의 행 컬렉션을 반복합니다.
- 흡수된 각 행에 대해 AbsorbedRow.celllist의 셀 컬렉션을 반복합니다.
- 마지막으로 흡수된 각 셀의 textfragments 컬렉션을 반복하고 텍스트를 인쇄합니다.
다음 코드 샘플은 Python의 PDF 테이블에서 텍스트를 추출하는 방법을 보여줍니다.
import aspose.pdf as pdf
# PDF 파일 로드
pdfDocument = pdf.Document("input.pdf")
# TableAbsorber 객체 초기화
tableAbsorber = pdf.text.TableAbsorber()
# 첫 페이지의 모든 테이블을 구문 분석
tableAbsorber.visit(pdfDocument.pages[1])
# 첫 번째 테이블의 참조 가져오기
absorbedTable = tableAbsorber.table_list[0]
# 테이블의 모든 행을 반복합니다.
for pdfTableRow in absorbedTable.row_list:
# 행의 모든 열을 반복합니다.
for pdfTableCell in pdfTableRow.cell_list:
# 텍스트 조각 가져오기
textFragmentCollection = pdfTableCell.text_fragments
# 텍스트 조각을 통해 반복
for textFragment in textFragmentCollection:
# 텍스트 인쇄
print(textFragment.text)
PDF 테이블을 추출하는 온라인 도구
Python용 Aspose.PDF를 기반으로 하는 무료 온라인 도구인 PDF 테이블 추출기를 사용하여 PDF 파일에서 테이블을 추출할 수도 있습니다.
![](images/Online%20PDF%20Table%20Extractor.png)
무료로 Python PDF 라이브러리 사용
무료 임시 라이센스를 받고 제한 없이 PDF 파일의 테이블에서 데이터를 추출할 수 있습니다.
Python PDF 라이브러리 살펴보기
문서를 사용하여 Python PDF 라이브러리에 대해 자세히 알아볼 수 있습니다. 또한 포럼에 질문을 게시할 수 있습니다.
결론
이 기사에서는 Python을 사용하여 PDF의 테이블에서 데이터를 추출하는 방법을 배웠습니다. 동일한 코드를 약간만 수정하면 PDF의 모든 페이지에서 표를 추출할 수 있습니다. 마찬가지로 페이지의 모든 테이블 또는 특정 테이블에서 데이터를 추출할 수 있습니다. 애플리케이션에 Python용 Aspose.PDF를 설치하기만 하면 PDF 파일에서 표 형식 데이터를 빠르고 쉽게 추출하는 방법을 경험할 수 있습니다.