文档格式转换
更新时间:2026-06-12
简介
文档格式转换处理器,支持多种办公文档格式互转
功能描述
- 支持 doc/docx 到多种格式的转换
- 使用 LibreOffice 进行高质量转换
- 支持本地和云端存储路径
- 提供转换超时控制
- 自动处理文件上传下载
- 输入格式:Microsoft Word (.doc, .docx)
- 输出格式:PDF (.pdf), ODT (.odt), HTML (.html), 纯文本 (.txt), DOCX (.docx)
- 建议使用 docx 格式以获得最佳转换效果
算子参数
输入
| 输入 | 含义 |
|---|---|
| files | - |
输出
| 输出 | 含义 |
|---|---|
| result | 输出文件路径,仅支持 bos 路径 |
参数
| 参数名称 | 类型 | 默认值 | 描述 |
|---|---|---|---|
| target_format | str | 必填 | 目标格式,支持 pdf/odt/html/txt/docx |
| output_dir | str | 必填 | 输出路径,必须提供,可以是本地路径或 BOS/S3 路径 |
| convert_time_out | int | 60 | 转换超时时间,单位为秒 |
调用示例
Python
1from __future__ import annotations
2
3import os
4
5import daft
6from daft import col
7
8from daft.aihc.common.udf import aihc_udf
9from daft.aihc.functions.doc.doc_convert import DocConvert
10
11if __name__ == "__main__":
12 if os.getenv("DAFT_RUNNER", "native") == "ray":
13 import ray
14 ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
15 daft.set_runner_ray()
16 daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
17
18 # TODO: 根据实际场景准备样本数据
19 samples = {"files": [...]}
20 ds = daft.from_pydict(samples)
21 constructor_kwargs = {
22 "convert_time_out": 60,
23 }
24 ds = ds.with_column(
25 "result",
26 aihc_udf(
27 DocConvert,
28 construct_args=constructor_kwargs,
29 num_cpus=1,
30 concurrency=4,
31 batch_size=8,
32 )(col("files")),
33 )
34 ds.show()
评价此篇文章
