Excel 表格解析处理器
更新时间:2026-04-23
简介
Excel 表格解析处理器
功能描述
- 支持 xlsx/xls 格式解析
- 输出 markdown 或 html 格式
- 保留表格结构与数据关系
- 支持多工作表处理
算子参数
输入
| 输入 | 含义 |
|---|---|
| xlsx_col | 包含 xlsx/xls 文件路径的列 |
输出
| 输出 | 含义 |
|---|---|
| data_item_uri | 原始文件路径 |
| text | 合并后的 markdown/html 文本 |
| text_by_table | 每个 sheet 的 markdown/html 文本列表 |
参数
| 参数名称 | 类型 | 默认值 | 描述 |
|---|---|---|---|
| if_save_md_content | bool | True | 是否保存为 markdown 格式,默认 True |
| if_save_html_content | bool | False | 是否保存为 html 格式,默认 False 当两者都为 True 时,仅保存 markdown |
| output_path | str | 处理后的文档输出位置 |
调用示例
Plain Text
1from __future__ import annotations
2
3import os
4import daft
5from daft import col
6
7from daft.aihc.common.udf import aihc_udf
8from daft.aihc.functions.doc.xlsx_parse import XlsxParse
9
10if __name__ == "__main__":
11 if os.getenv("DAFT_RUNNER", "native") == "ray":
12 import ray
13 ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
14 daft.set_runner_ray()
15 daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
16
17 samples = {
18 "xlsx_path": [
19 "file:///local/test_doc_01.xlsx",
20 "file:///mnt/pfs/test_doc_02.xlsx",
21 "file:///mnt/bos/test_doc_02.xlsx",
22 ],
23 }
24 output_path = "file:///local/test_doc_output/",
25 df = daft.from_pydict(samples)
26
27 constructor_kwargs = {
28 "if_save_md_content": True,
29 "if_save_html_content": True,
30 "output_path": output_path,
31 }
32
33 df = df.with_column(
34 "result",
35 aihc_udf(XlsxParse, construct_args=constructor_kwargs, concurrency=1)(col("xlsx_path")),
36 )
37 df = df.with_column("data_item_uri", col("result")["data_item_uri"])
38 df = df.with_column("text", col("result")["text"])
39 df = df.with_column("text_by_table", col("result")["text_by_table"])
40 df.show()
评价此篇文章
