空白字符标准化器
更新时间:2026-04-23
简介
空白字符标准化器 - 将文本中不同种类的空白符号替换成标准空格
功能描述
- 空白字符识别:自动识别各种Unicode空白字符
- 标准化处理:将所有空白字符替换为标准空格
算子参数
输入
| 输入 | 含义 |
|---|---|
| text | 待处理的文本列,要求元素类型为字符串 |
输出
| 输出 | 含义 |
|---|---|
| normalized_text | 标准化后的文本列 |
调用示例
Plain Text
1from __future__ import annotations
2
3import os
4import daft
5from daft import col
6
7from daft.aihc.common.udf import aihc_udf
8from daft.aihc.functions.text.whitespace_normalizer import WhitespaceNormalizer
9
10if __name__ == "__main__":
11 if os.getenv("DAFT_RUNNER", "native") == "ray":
12 import ray
13 ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
14 daft.set_runner_ray()
15 daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
16
17 samples = {
18 "text": [
19 "Hello\u00a0World",
20 "中文\u3000全角空格\u3000测试",
21 "Tab\t分隔\t文本",
22 "多 个 普 通 空 格",
23 ]
24 }
25
26 ds = daft.from_pydict(samples)
27 ds = ds.with_column(
28 "url_ratio",
29 aihc_udf(
30 UrlRatioCalculator,
31 construct_args={},
32 )(col("text")),
33 )
34 ds.show()
评价此篇文章
