Java를 사용하여 PDF에서 텍스트 추출

이 게시물에서는 Java를 사용하여 PDF 파일에서 텍스트를 원활하게 추출하는 방법을 배웁니다. 텍스트 추출은 텍스트 분석, 정보 검색, 문서 파싱 등과 같은 다양한 시나리오에서 유용할 수 있습니다. PDF는 가장 널리 사용되는 디지털 문서 중 하나이기 때문에 PDF 문서에서 텍스트를 추출하는 사용 사례가 더 많습니다. 이제 Java 응용 프로그램 내에서 PDF 텍스트 추출을 수행하는 방법을 시작하고 확인하겠습니다.

자바 텍스트 추출 API - 무료 다운로드
Java를 사용하여 PDF에서 텍스트 추출
PDF의 특정 페이지에서 텍스트 추출
PDF의 페이지 영역에서 텍스트 추출

PDF에서 텍스트를 추출하는 Java API - 무료 다운로드

Aspose.PDF for Java는 PDF 파일 생성 및 처리를 위한 다양한 기능을 제공하는 잘 알려진 PDF 파일 조작 API입니다. API에는 몇 줄의 코드 내에서 PDF 문서에서 텍스트를 추출하는 다양한 방법을 제공하는 강력한 텍스트 추출기가 포함되어 있습니다. API의 JAR을 다운로드하거나 다음 구성을 사용하여 Maven 기반 애플리케이션 내에 설치할 수 있습니다.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>20.11</version>
</dependency>

Java를 사용하여 PDF에서 텍스트 추출

다음은 Aspose.PDF for Java를 사용하여 PDF 문서에서 텍스트를 추출하는 단계입니다.

Document 클래스를 사용하여 PDF 파일을 로드합니다.
TextAbsorber 클래스의 객체를 생성합니다.
Document.getPages().accept(TextAbsorber) 메서드를 사용하여 PDF의 모든 페이지에 대해 TextAbsorber를 수락합니다.
TextAbsorber.getText() 메서드를 사용하여 PDF에서 모든 텍스트를 가져옵니다.
텍스트를 TXT 파일에 저장합니다(선택 사항).

다음 코드 샘플은 Java를 사용하여 PDF에서 텍스트를 추출하는 방법을 보여줍니다.

// 전체 예제 및 데이터 파일을 보려면 https://github.com/aspose-pdf/Aspose.Pdf-for-Java로 이동하십시오.
// 문서 열기
Document pdfDocument = new Document("input.pdf");

// 텍스트 추출을 위한 TextAbsorber 객체 생성
TextAbsorber textAbsorber = new TextAbsorber();

// 모든 페이지에 대해 흡수 장치를 수락하십시오.
pdfDocument.getPages().accept(textAbsorber);

// 추출된 텍스트 가져오기
String extractedText = textAbsorber.getText();

// 작성기 생성 및 파일 열기
java.io.FileWriter writer = new java.io.FileWriter(new java.io.File("Extracted_text.txt"));
writer.write(extractedText);

// 파일에 한 줄의 텍스트를 씁니다. tw.WriteLine(extractedText);
// 스트림 닫기
writer.close();

PDF의 특정 페이지에서 텍스트 추출

다음 단계를 사용하여 PDF 문서의 특정 페이지에서 텍스트를 추출할 수도 있습니다.

Document 클래스를 사용하여 PDF 파일을 로드합니다.
TextDevice 클래스의 인스턴스를 만듭니다.
TextExtractionOptions 클래스를 사용하여 추가 옵션을 정의합니다.
TextDevice.setExtractionOptions(TextExtractionOptions) 메서드를 사용하여 옵션을 설정합니다.
TextDevice.Process(Page, String)을 사용하여 지정된 페이지에서 텍스트를 추출합니다.

다음 코드 샘플은 Java를 사용하여 PDF의 특정 페이지에서 텍스트를 추출하는 방법을 보여줍니다.

// 전체 예제 및 데이터 파일을 보려면 https://github.com/aspose-pdf/Aspose.Pdf-for-Java로 이동하십시오.
// 문서 열기
Document pdfDocument = new Document("input.pdf");
// 문자 장치 만들기
TextDevice textDevice = new TextDevice();

// 텍스트 추출 옵션 설정 - 텍스트 추출 모드 설정(Raw 또는 Pure)
TextExtractionOptions textExtOptions = new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);

textDevice.setExtractionOptions(textExtOptions);

// PDF의 첫 페이지에서 텍스트를 가져와 파일 형식으로 저장
textDevice.process(pdfDocument.getPages().get_Item(1), "ExtractedText.txt");

PDF의 페이지 영역에서 텍스트 추출

PDF 페이지의 특정 영역에서 텍스트를 추출할 수도 있습니다. 이를 위해 텍스트를 추출해야 하는 영역을 덮도록 직사각형을 정의할 수 있습니다. 다음은 페이지 영역에서 텍스트를 추출하는 단계입니다.

Document 클래스를 사용하여 PDF 파일을 로드합니다.
TextAbsorber 클래스의 객체를 생성합니다.
페이지 경계에 제한을 설정하고 TextAbsorber.getTextSearchOptions().setLimitToPageBounds(true) 및 [TextAbsorber.getTextSearchOptions().setRectangle(new Rectangle(100, 200, 250, 350))][17을 사용하여 사각형을 만듭니다. ] 방법.
특정 페이지에 대한 흡수 장치를 수락합니다.
TextAbsorber.getText() 메서드를 사용하여 텍스트를 추출합니다.

다음 코드 샘플은 Java의 특정 페이지 영역에서 텍스트를 추출하는 방법을 보여줍니다.

// 전체 예제 및 데이터 파일을 보려면 https://github.com/aspose-pdf/Aspose.Pdf-for-Java로 이동하십시오.
// 문서 열기
Document doc = new Document("page_0001.pdf");

// 텍스트를 추출할 TextAbsorber 객체 생성
TextAbsorber absorber = new TextAbsorber();
absorber.getTextSearchOptions().setLimitToPageBounds(true);
absorber.getTextSearchOptions().setRectangle(new Rectangle(100, 200, 250, 350));
// 첫 페이지에 대한 흡수제를 수락하십시오.
doc.getPages().get_Item(1).accept(absorber);

// 추출된 텍스트 가져오기
String extractedText = absorber.getText();
// 작성자를 만들고 파일을 엽니다.
BufferedWriter writer = new BufferedWriter(new FileWriter(new java.io.File("ExtractedText.txt")));
// 추출한 내용 쓰기
writer.write(extractedText);
// 작가 닫기
writer.close();

결론

이 기사에서는 Java를 사용하여 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 전체 PDF, 특정 페이지 또는 특정 페이지 영역에서 텍스트를 추출하는 것과 같은 다양한 텍스트 추출 방법을 보았습니다. 문서를 사용하여 Java PDF API에 대해 자세히 알아볼 수 있습니다.

또한보십시오

Java에서 PDF를 DOCX로 변환

정보: Aspose는 최근에 텍스트를 애니메이션으로 만들거나 간단한 텍스트에서 GIF를 생성할 수 있는 무료 온라인 Text to GIF 서비스를 개발했습니다.

PDF에서 텍스트를 추출하는 Java API - 무료 다운로드#

Java를 사용하여 PDF에서 텍스트 추출#

PDF의 특정 페이지에서 텍스트 추출#

PDF의 페이지 영역에서 텍스트 추출#

결론#

또한보십시오#

PDF에서 텍스트를 추출하는 Java API - 무료 다운로드

Java를 사용하여 PDF에서 텍스트 추출

PDF의 특정 페이지에서 텍스트 추출

PDF의 페이지 영역에서 텍스트 추출

결론

또한보십시오