Excel 表格解析处理器

更新时间：2026-04-23

简介

Excel 表格解析处理器

功能描述

支持 xlsx/xls 格式解析
输出 markdown 或 html 格式
保留表格结构与数据关系
支持多工作表处理

算子参数

输入

输入	含义
xlsx_col	包含 xlsx/xls 文件路径的列

输出

输出	含义
data_item_uri	原始文件路径
text	合并后的 markdown/html 文本
text_by_table	每个 sheet 的 markdown/html 文本列表

参数

参数名称	类型	默认值	描述
if_save_md_content	bool	True	是否保存为 markdown 格式，默认 True
if_save_html_content	bool	False	是否保存为 html 格式，默认 False 当两者都为 True 时，仅保存 markdown
output_path	str		处理后的文档输出位置

调用示例

Plain Text

1from __future__ import annotations
2
3import os
4import daft
5from daft import col
6
7from daft.aihc.common.udf import aihc_udf
8from daft.aihc.functions.doc.xlsx_parse import XlsxParse
9
10if __name__ == "__main__":
11    if os.getenv("DAFT_RUNNER", "native") == "ray":
12        import ray
13        ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
14        daft.set_runner_ray()
15    daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
16
17    samples = {
18        "xlsx_path": [
19            "file:///local/test_doc_01.xlsx",
20            "file:///mnt/pfs/test_doc_02.xlsx",
21            "file:///mnt/bos/test_doc_02.xlsx",
22        ],
23    }
24    output_path = "file:///local/test_doc_output/",
25    df = daft.from_pydict(samples)
26
27    constructor_kwargs = {
28        "if_save_md_content": True,
29        "if_save_html_content": True,
30        "output_path": output_path,
31    }
32
33    df = df.with_column(
34        "result",
35        aihc_udf(XlsxParse, construct_args=constructor_kwargs, concurrency=1)(col("xlsx_path")),
36    )
37    df = df.with_column("data_item_uri", col("result")["data_item_uri"])
38    df = df.with_column("text", col("result")["text"])
39    df = df.with_column("text_by_table", col("result")["text_by_table"])
40    df.show()

评价此篇文章

有帮助没帮助

具身

Markdown转DOCX

百度智能云

百度百舸 · AI计算平台

百度百舸 · AI计算平台

Excel 表格解析处理器

简介

功能描述

算子参数

输入

输出

参数

调用示例