從 PDF C# 中提取文本

PDF 格式廣泛用於創建只讀文檔以供共享和打印。通常,PDF 文檔包含圖像和文本,在某些情況下,您可能需要在解析 PDF 時提取這些圖像。根據這一點,本文介紹瞭如何在 C# .NET 中以編程方式從 PDF 中提取圖像。

用於從 PDF 中提取圖像的 C# .NET API - 免費下載

為了從 PDF 中提取圖像,我們將使用 Aspose.PDF for .NET。它是一個強大的 API,可讓您實現範圍廣泛的 PDF 生成和操作功能。此外,它還允許您無縫解析 PDF 和提取圖像。您可以 下載 API 或使用 NuGet 安裝它。

PM> Install-Package Aspose.PDF

在 C# 中從 PDF 中提取圖像

以下是在 C# 中從 PDF 中提取圖像的步驟。

以下代碼示例展示瞭如何從 PDF 中提取圖像。

// 打開文檔
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// 循環瀏覽頁面
foreach (var page in pdfDocument.Pages)
{
    // 遍歷所有圖像
    foreach (XImage image in page.Resources.Images)
    {
        // 為圖像創建文件流
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // 保存輸出圖像
        image.Save(outputImage, ImageFormat.Jpeg);

        // 關閉流
        outputImage.Close();

        imageCounter++;
    }

    // 重置計數器
    imageCounter = 1;
}

獲得免費許可證

你可以使用 Aspose.PDF for .NET,沒有評估限制,使用臨時許可證

結論

在各種情況下可能需要解析 PDF 文件並提取文本或圖像。在本文中,您學習瞭如何在 C# 中以編程方式從 PDF 文件中提取圖像。您可以使用 文檔 探索有關 C# PDF API 的更多信息。此外,您可以在我們的 論壇 上發布您的疑問。

也可以看看