Markdown转DOCX
更新时间:2026-06-12
简介
Markdown 转 DOCX 转换器 - 将 Markdown 文档转换为 Word 文档
功能描述
- Markdown 转 DOCX:使用 Pandoc 将 Markdown 转换为 DOCX 格式
- 支持图片处理:处理 Markdown 中的图片引用
- 支持网络图片:自动下载网络图片并嵌入文档
- 本地和云端路径:支持本地和 BOS/S3 存储
- 标准 Markdown 语法:标题、列表、代码块、引用等
- 复杂表格:通过 HTML 中间格式支持复杂的 HTML 表格
- LaTeX 公式:支持将 LaTeX 公式转换为 MathML 格式
- 图片支持:本地图片和网络图片
- 行内格式:粗体、斜体、代码、删除线等
- 链接和引用:超链接和引用块
算子参数
输入
| 输入 | 含义 |
|---|---|
| markdown_files | 输入的 Markdown 文件路径,支持 bos 与 https 路径 |
输出
| 输出 | 含义 |
|---|---|
| result | 输出的 DOCX 文件路径,仅支持 bos 路径 |
参数
| 参数名称 | 类型 | 默认值 | 描述 |
|---|---|---|---|
| output_dir | str | 必填 | 输出目录路径,可以是本地路径或 BOS/S3 路径 |
调用示例
Python
1from __future__ import annotations
2
3import os
4
5import daft
6from daft import col
7
8from daft.aihc.common.udf import aihc_udf
9from daft.aihc.functions.doc.markdown2docx import Markdown2Docx
10
11if __name__ == "__main__":
12 if os.getenv("DAFT_RUNNER", "native") == "ray":
13 import ray
14 ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
15 daft.set_runner_ray()
16 daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
17
18 # TODO: 根据实际场景准备样本数据
19 samples = {"markdown_files": [...]}
20 ds = daft.from_pydict(samples)
21 constructor_kwargs = {
22 }
23 ds = ds.with_column(
24 "result",
25 aihc_udf(
26 Markdown2Docx,
27 construct_args=constructor_kwargs,
28 num_cpus=1,
29 concurrency=4,
30 batch_size=8,
31 )(col("markdown_files")),
32 )
33 ds.show()
评价此篇文章
