PDF 到 HTML 转换是一种广泛且常用的功能,可以通过软件、工具和在线服务等不同方式实现。有时您需要将 PDF 内容转换为可以在浏览器中显示或成为 Web 应用程序的一部分的方式。 PDF 到 HTML 转换可让您实现此要求,其中 PDF 内容使用具有相似样式和格式的 HTML 标记呈现。感谢 Aspose,您现在可以使用 Aspose.PDF for .NET 在您的桌面或 Web 应用程序中实现该功能。 API 允许您使用几行代码将 PDF 文档转换为 HTML,不仅如此,它还允许您在转换过程中指定不同的格式和样式选项。这篇文章的以下部分将带您了解如何使用 Aspose.PDF for .NET 将 PDF 转换为 HTML 的完整指南。
.NET 中的 PDF 到 HTML 转换
可以通过加载 PDF 文档并使用 HtmlSaveOptions 将其保存为 HTML 来进行简单的 PDF 到 HTML 转换。以下示例不仅显示了转换,还显示了可以将图像保存为光栅格式的要求规范:
// 如需完整的示例和数据文件,请访问 https://github.com/aspose-pdf/Aspose.PDF-for-.NET
// 文档目录的路径。
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion_PDFToHTMLFormat();
// 源 PDF 文件
Document doc = new Document(dataDir + "input.pdf");
// 使用经过测试的功能创建 HtmlSaveOption
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.FixedLayout = true;
saveOptions.SplitIntoPages = false;
saveOptions.RasterImagesSavingMode = HtmlSaveOptions.RasterImagesSavingModes.AsExternalPngFilesReferencedViaSvg;
// 以 HTML 格式保存输出
doc.Save( dataDir + "SaveImages_out.html", saveOptions);
故事并没有到此结束。 Aspose.PDF for .NET 提供了海量和最苛刻的功能,不仅提高了它的可用性,而且让您可以根据自己的需要完全控制转换过程。您可以阅读 API 文档中的以下优秀且全面的文章,以了解该领域中的完整功能集,即 PDF 到 HTML:
- PDF to HTML - 将 CSS 拆分为页面
- PDF 到 HTML - 将字体另存为 WOFF 或 TTF
- PDF 到 HTML - 为图像指定前缀
- PDF to HTML - 为 SVG 文件的 URL 设置前缀
- PDF to HTML - 在 style.css 中为字体设置 URL 前缀
- PDF to HTML - 在 style.css 中为 CSS 类名添加前缀
- PDF 到 HTML - 为导入指令添加前缀
- PDF 到 HTML - 将输出保存到流对象
- PDF to HTML - 转换进度详情
- PDF 到 HTML - 避免以 SVG 格式保存图像
- PDF 到 HTML - 嵌入所有资源的单一 HTML
- PDF 到 HTML - 设置输出文件尺寸
- PDF 到 HTML - 排除字体资源
除了上述功能外,Aspose.PDF for .NET 19.8 带来了新的增强功能,您可以将 PDF 保存为具有完整内容宽度的 HTML。让我们看看这个新功能的用法:
具有完整内容宽度的 PDF 到 HTML 转换
最新版本的 API 允许您将 PDF 转换为具有完整内容宽度的 HTML,而 HTML 内容用于左对齐。 HtmlSaveOptions 类的 FlowLayoutParagraphFullWidth 属性可让您实现这一点,如以下代码示例所示。
// 如需完整的示例和数据文件,请访问 https://github.com/aspose-pdf/Aspose.PDF-for-.NET
// 文档目录的路径。
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.FixedLayout = (false);
saveOptions.FlowLayoutParagraphFullWidth = true;
Document doc = new Document(dataDir + "FlowLayoutParagraphFullWidth.Pdf");
doc.Save(dataDir + "FlowLayoutParagraphFullWidth_out.html", saveOptions);
进一步的改进和有用的修复
随着 API 在 [v19.8] (https://docs.aspose.com/display/pdfnet/Aspose.PDF+for+.NET+19.8) 中带来的有用改进列表,API 的可用性因素变得更强+Release+Notes “Aspose.PDF for .NET 19.8 Release Notes”):
- 添加表格功能进一步纠正
- 字体替换进一步改进
- 在 PDF 中添加 HTML 期间的内存消耗进一步即兴发挥
- 改进了 PDF 到图像的转换
- XML 到 PDF 的转换得到进一步改进
- 改进了 PDF 到 DOC/DOCX 的转换
- 文本添加和处理场景得到了进一步的改进
我们希望我们在上述指南中涵盖了 PDF 到 HTML 转换的各个方面。但是,如果您仍有任何疑问,请随时告诉我们。与往常一样,不要错过 一次有关 Aspose API 的更新。我们将很快返回具有令人兴奋的功能的 API 的新版本。