URL占比计算器
更新时间:2026-04-23
简介
URL占比计算器 - 基于URL字符占比的文本特征提取
功能描述
- URL占比计算:精确统计URL字符在文本中的占比
- 多协议支持:支持HTTP、HTTPS等多种URL协议
- 智能识别:使用正则表达式精确识别URL格式
算子参数
输入
| 输入 | 含义 |
|---|---|
| text | 待处理的文本列,要求元素类型为字符串 |
输出
| 输出 | 含义 |
|---|---|
| url_ratio | 占比结果列,元素为浮点数,表示URL字符的占比 |
调用示例
Plain Text
1from __future__ import annotations
2
3import os
4import daft
5from daft import col
6
7from daft.aihc.common.udf import aihc_udf
8from daft.aihc.functions.text.url_ratio_calculator import UrlRatioCalculator
9
10if __name__ == "__main__":
11 if os.getenv("DAFT_RUNNER", "native") == "ray":
12 import ray
13 ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
14 daft.set_runner_ray()
15 daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
16
17 samples = {
18 "text": [
19 "今天天气很好",
20 "请访问 https://baidu.com 获取更多信息",
21 "官网 http://example.com 和镜像站 https://mirror.example.org 均可访问",
22 "这段文字中没有任何链接",
23 "联系我们:https://contact.us 或发邮件至 support@test.com",
24 "http://a.com https://b.com https://c.com 三个链接",
25 "",
26 ]
27 }
28
29 ds = daft.from_pydict(samples)
30 ds = ds.with_column(
31 "url_ratio",
32 aihc_udf(
33 UrlRatioCalculator,
34 construct_args={},
35 )(col("text")),
36 )
37 ds.show()
评价此篇文章
