TOPN_WEIGHTED
更新时间:2025-10-16
描述
TOPN_WEIGHTED 函数返回指定列中出现频率最高的 N 个值,并且可以为每个值指定权重。与普通的 TOPN 函数不同,TOPN_WEIGHTED 允许通过权重来调整值的重要性。
语法
SQL
1TOPN_WEIGHTED(<expr>, <weight>, <top_num> [, <space_expand_rate>])
参数
| 参数 | 说明 |
|---|---|
<expr> |
要统计的列或表达式 |
<weight> |
用于调整权重的列或表达式 |
<top_num> |
要返回的最高频率值的数量,必须是正整数 |
<space_expand_rate> |
可选项,该值用来设置 Space-Saving 算法中使用的 counter 个数counter_numbers = top_num * space_expand_rate space_expand_rate 的值越大,结果越准确,默认值为 50 |
返回值
返回一个数组,包含值和对应的加权计数。
举例
SQL
1-- 创建示例表
2CREATE TABLE product_sales (
3 product_id INT,
4 sale_amount DECIMAL(10,2),
5 sale_date DATE
6) DISTRIBUTED BY HASH(product_id)
7PROPERTIES (
8 "replication_num" = "1"
9);
10
11-- 插入测试数据
12INSERT INTO product_sales VALUES
13(1, 100.00, '2024-01-01'),
14(2, 50.00, '2024-01-01'),
15(1, 150.00, '2024-01-01'),
16(3, 75.00, '2024-01-01'),
17(1, 200.00, '2024-01-01'),
18(2, 80.00, '2024-01-01'),
19(1, 120.00, '2024-01-01'),
20(4, 90.00, '2024-01-01');
21
22-- 查找销售额最高的前 3 个产品(按销售金额加权)
23SELECT TOPN_WEIGHTED(product_id, sale_amount, 3) as top_products
24FROM product_sales;
Text
1+--------------+
2| top_products |
3+--------------+
4| [1, 2, 4] |
5+--------------+
