PDF 转 HTML

PDFHTML 转换是一种广泛且常用的功能,可以通过软件、工具和在线服务等不同方式实现。有时您需要将 PDF 内容转换为可以在浏览器中显示或成为 Web 应用程序的一部分的方式。 PDF 到 HTML 转换可让您实现此要求,其中 PDF 内容使用具有相似样式和格式的 HTML 标记呈现。感谢 Aspose,您现在可以使用 Aspose.PDF for .NET 在您的桌面或 Web 应用程序中实现该功能。 API 允许您使用几行代码将 PDF 文档转换为 HTML,不仅如此,它还允许您在转换过程中指定不同的格式和样式选项。这篇文章的以下部分将带您了解如何使用 Aspose.PDF for .NET 将 PDF 转换为 HTML 的完整指南。

.NET 中的 PDF 到 HTML 转换

可以通过加载 PDF 文档并使用 HtmlSaveOptions 将其保存为 HTML 来进行简单的 PDF 到 HTML 转换。以下示例不仅显示了转换,还显示了可以将图像保存为光栅格式的要求规范:

// 如需完整的示例和数据文件,请访问 https://github.com/aspose-pdf/Aspose.PDF-for-.NET
// 文档目录的路径。
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion_PDFToHTMLFormat();

// 源 PDF 文件
Document doc = new Document(dataDir + "input.pdf");

// 使用经过测试的功能创建 HtmlSaveOption
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.FixedLayout = true;
saveOptions.SplitIntoPages = false;
saveOptions.RasterImagesSavingMode = HtmlSaveOptions.RasterImagesSavingModes.AsExternalPngFilesReferencedViaSvg;
              
// 以 HTML 格式保存输出
doc.Save( dataDir + "SaveImages_out.html", saveOptions);

故事并没有到此结束。 Aspose.PDF for .NET 提供了海量和最苛刻的功能,不仅提高了它的可用性,而且让您可以根据自己的需要完全控制转换过程。您可以阅读 API 文档中的以下优秀且全面的文章,以了解该领域中的完整功能集,即 PDF 到 HTML:

除了上述功能外,Aspose.PDF for .NET 19.8 带来了新的增强功能,您可以将 PDF 保存为具有完整内容宽度的 HTML。让我们看看这个新功能的用法:

具有完整内容宽度的 PDF 到 HTML 转换

最新版本的 API 允许您将 PDF 转换为具有完整内容宽度的 HTML,而 HTML 内容用于左对齐。 HtmlSaveOptions 类的 FlowLayoutParagraphFullWidth 属性可让您实现这一点,如以下代码示例所示。

// 如需完整的示例和数据文件,请访问 https://github.com/aspose-pdf/Aspose.PDF-for-.NET
// 文档目录的路径。
string dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.FixedLayout = (false);
saveOptions.FlowLayoutParagraphFullWidth = true;
Document doc = new Document(dataDir + "FlowLayoutParagraphFullWidth.Pdf");
doc.Save(dataDir + "FlowLayoutParagraphFullWidth_out.html", saveOptions);

进一步的改进和有用的修复

随着 API 在 [v19.8] (https://docs.aspose.com/display/pdfnet/Aspose.PDF+for+.NET+19.8) 中带来的有用改进列表,API 的可用性因素变得更强+Release+Notes “Aspose.PDF for .NET 19.8 Release Notes”):

  • 添加表格功能进一步纠正
  • 字体替换进一步改进
  • 在 PDF 中添加 HTML 期间的内存消耗进一步即兴发挥
  • 改进了 PDF 到图像的转换
  • XML 到 PDF 的转换得到进一步改进
  • 改进了 PDF 到 DOC/DOCX 的转换
  • 文本添加和处理场景得到了进一步的改进

我们希望我们在上述指南中涵盖了 PDF 到 HTML 转换的各个方面。但是,如果您仍有任何疑问,请随时告诉我们。与往常一样,不要错过 一次有关 Aspose API 的更新。我们将很快返回具有令人兴奋的功能的 API 的新版本。