TOPN
更新时间:2025-10-16
描述
TOPN 函数用于返回指定列中出现频率最高的 N 个值。它是一个近似计算函数,返回结果的顺序是按照计数值从大到小排序。
语法
SQL
1TOPN(<expr>, <top_num> [, <space_expand_rate>])
参数
参数 | 说明 |
---|---|
<expr> |
要统计的列或表达式 |
<top_num> |
要返回的最高频率值的数量,必须是正整数 |
<space_expand_rate> |
可选项,该值用来设置 Space-Saving 算法中使用的 counter 个数counter_numbers = top_num * space_expand_rate space_expand_rate 的值越大,结果越准确,默认值为 50 |
返回值
返回一个 JSON 字符串,包含值和对应的出现次数。
举例
SQL
1-- 创建示例表
2CREATE TABLE page_visits (
3 page_id INT,
4 user_id INT,
5 visit_date DATE
6) DISTRIBUTED BY HASH(page_id)
7PROPERTIES (
8 "replication_num" = "1"
9);
10
11-- 插入测试数据
12INSERT INTO page_visits VALUES
13(1, 101, '2024-01-01'),
14(2, 102, '2024-01-01'),
15(1, 103, '2024-01-01'),
16(3, 101, '2024-01-01'),
17(1, 104, '2024-01-01'),
18(2, 105, '2024-01-01'),
19(1, 106, '2024-01-01'),
20(4, 107, '2024-01-01');
21
22-- 查找访问量最高的前 3 个页面
23SELECT TOPN(page_id, 3) as top_pages
24FROM page_visits;
Text
1+---------------------+
2| top_pages |
3+---------------------+
4| {"1":4,"2":2,"4":1} |
5+---------------------+