从 PDF C# 中提取文本

PDF 格式广泛用于创建用于共享和打印的只读文档。通常,PDF 文档包含图像和文本,在某些情况下,您可能需要在解析 PDF 时提取这些图像。据此,本文介绍了如何在 C# .NET 中以编程方式从 PDF 中提取图像。

C# .NET API 从 PDF 中提取图像 - 免费下载

为了从 PDF 中提取图像,我们将使用 Aspose.PDF for .NET。它是一个强大的 API,可让您实现广泛的 PDF 生成和操作功能。此外,它还允许您无缝解析 PDF 和提取图像。您可以 下载 API 或使用 NuGet 安装它。

PM> Install-Package Aspose.PDF

在 C# 中从 PDF 中提取图像

以下是在 C# 中从 PDF 中提取图像的步骤。

以下代码示例展示了如何从 PDF 中提取图像。

// 打开文档
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// 循环浏览页面
foreach (var page in pdfDocument.Pages)
{
    // 循环遍历所有图像
    foreach (XImage image in page.Resources.Images)
    {
        // 为图像创建文件流
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // 保存输出图像
        image.Save(outputImage, ImageFormat.Jpeg);

        // 关闭流
        outputImage.Close();

        imageCounter++;
    }

    // 重置计数器
    imageCounter = 1;
}

获得免费许可证

您可以使用 临时许可证 使用 Aspose.PDF for .NET,而不受评估限制。

结论

在各种情况下可能需要解析 PDF 文件并提取文本或图像。在本文中,您学习了如何使用 C# 以编程方式从 PDF 文件中提取图像。您可以使用 文档 探索有关 C# PDF API 的更多信息。此外,您可以在我们的 论坛 上发布您的查询。

也可以看看