如何在 Java 中将 DOCX 转换为 HTML

玉面郎君 2021-08-24 11:44:30 浏览数 (3875)
反馈

虽然 Word DOCX 格式是创建文本文档的首选,但当我们进入基于 Web 的领域时,它可能是不够的。在考虑格式化在线文档时,超文本标记语言 (HTML) 成为应用程序和网站的明显赢家之一。这种动态语言利用设置提示或元素来构建可以传输到浏览器并作为可读网页呈现给最终用户的文档。HTML 的结构甚至允许集成图像、交互式表单和其他更难用简单的 Word 文档创建的对象。

Word DOCX 格式实际上基于不同的标记语言 XML(可扩展标记语言)。微软在 2000 年代中期将其最受欢迎的程序——Word、Excel 和 PowerPoint——转变为开放标准、基于 XML 的格式。此举旨在改进文件大小、图像压缩和安全性,并保持领先于竞争对手的优势。虽然由于与其他平台兼容,一些用户仍然更喜欢旧的 DOC 版本,但 DOCX 格式通常是当前文字处理项目的更好选择。

由于每种格式的细微差别,如果您尝试从 Word 文档中起草 HTML 代码,则与文件格式相关的附加格式和样式可能会阻碍其使用。除此之外,DOCX 设计的复杂性使得解析信息成为一项令人不快的任务。在本教程中,我们将演示如何使用 Java 中的 API 将任何 DOCX 文件自动转换为 HTML,从而即时改进兼容性和产品质量。

首先,我们将通过在 pom.xml 中添加对存储库的引用来安装 Maven:

<repositories>
    <repository>
        <id>jitpack.io</id>
        <url>https://jitpack.io</url>
    </repository>
</repositories>

然后,我们可以在 pom.xml 中添加

<dependencies>
    <dependecy>
        <groupId>com.github.Cloudmersive</groupId>
        <artifactId>Cloudmersive.APIClient.Java</artifactId>
        <version>v3.90</version>
    </dependecy>
</dependencies>

安装完成后,我们准备将导入添加到我们的控制器顶部,并使用以下代码调用转换函数:

// 导入类
// import com.cloudmersive.client.invoker.ApiClient;
// import com.cloudmersive.client.invoker.ApiException;
// import com.cloudmersive.client.invoker.Configuration;
// import com.cloudmersive.client.invoker.auth.*;
// import com.cloudmersive.client.invoker.ConvertDocumentApi;

APIClient defaultClient = Configuration.getDefau;tApiClient();

// Configure API key authorization : Apikey
ApiKeyAuth Apikey = (ApiKeyAuth) defaultClient.getAuthentication("Apikey");

// Uncomment the following line to set a prefix for the API key, e.g. "Token" (defaults to null)

//Apikey.setApiKeyPrefix("Token");

ConvertDocumentApi apiInstance = new ConvertDocumentApi();

File inputFile = new File("/path/to/inputfile"); // File | Input file to perform the operation on.

try {

    byte[] result = apiInstance.convertDocumentDocxToHtml(inputFile);

    System.out.println(result);

} catch (ApiException e) {

    System.err.println("Exception when calling ConvertDocumentApi#convertDocumentDocxToHtml");

    e.printStackTrace();

}

为确保流程正确运行,您需要输入几个参数:

  • 文件 - 要对其执行操作的 DOCX 文件。
  • API 密钥 – 您的个人 API 密钥。如需获取API key,可访问Cloudmersive网站注册免费账号;这在我们的 API 库中每月提供 800 次调用。

该过程将返回一个 HTML 文档,该文档可轻松用于适用的网站和/或应用程序。


0 人点赞