PDF C#에서 텍스트 추출

PDF 형식은 공유 및 인쇄용 읽기 전용 문서를 만드는 데 널리 사용됩니다. 일반적으로 PDF 문서에는 텍스트와 함께 이미지가 포함되어 있으며 경우에 따라 PDF를 구문 분석하는 동안 이러한 이미지를 추출해야 할 수도 있습니다. 이에 따라 이 기사에서는 C# .NET에서 프로그래밍 방식으로 PDF에서 이미지를 추출하는 방법을 다룹니다.

PDF에서 이미지를 추출하는 C# .NET API - 무료 다운로드

PDF에서 이미지를 추출하기 위해 Aspose.PDF for .NET을 사용합니다. 광범위한 PDF 생성 및 조작 기능을 구현할 수 있는 강력한 API입니다. 또한 PDF를 구문 분석하고 이미지를 원활하게 추출할 수 있습니다. API를 다운로드하거나 NuGet을 사용하여 설치할 수 있습니다.

PM> Install-Package Aspose.PDF

C#의 PDF에서 이미지 추출

다음은 C#의 PDF에서 이미지를 추출하는 단계입니다.

  • Document 클래스를 사용하여 문서를 로드합니다.
  • Document.Pages 컬렉션을 사용하여 PDF 문서의 페이지를 반복합니다.
  • 각 페이지에 대해 Page.Resources.Images 컬렉션의 모든 XImage에 액세스합니다.
  • 각 이미지에 대해 FileStream 개체를 만들고 JPEG, PNG 등으로 저장합니다.
  • 마지막으로 FileStream을 닫습니다.

다음 코드 샘플은 PDF에서 이미지를 추출하는 방법을 보여줍니다.

// 문서 열기
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// 페이지 반복
foreach (var page in pdfDocument.Pages)
{
    // 모든 이미지 반복
    foreach (XImage image in page.Resources.Images)
    {
        // 이미지에 대한 파일 스트림 생성
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // 출력 이미지 저장
        image.Save(outputImage, ImageFormat.Jpeg);

        // 스트림 닫기
        outputImage.Close();

        imageCounter++;
    }

    // 카운터 재설정
    imageCounter = 1;
}

무료 라이선스 받기

임시 라이선스를 사용하여 평가 제한 없이 Aspose.PDF for .NET을 사용할 수 있습니다.

결론

다양한 경우에 PDF 파일을 구문 분석하고 텍스트 또는 이미지를 추출해야 할 수 있습니다. 이 기사에서는 C#에서 프로그래밍 방식으로 PDF 파일에서 이미지를 추출하는 방법을 배웠습니다. 문서를 사용하여 C# PDF API에 대해 자세히 알아볼 수 있습니다. 또한 포럼에 질문을 게시할 수 있습니다.

또한보십시오