Hive 常用聚合函数 collect_list 详解 | 极客日志

SQLjava算法

Hive 常用聚合函数 collect_list 详解

Hive 中的 collect_list 聚合函数用于将分组内的列值收集为数组，保留重复值且不保证顺序。常用于用户行为序列分析、数据结构转换及复杂统计场景。使用时需配合 GROUP BY，可通过 ORDER BY 控制数组元素顺序。若单组数据量过大需注意内存溢出风险，建议结合窗口函数排序或提前过滤数据以优化性能。

RefactorPro发布于 2026/3/16更新于 2026/6/1334 浏览

一、函数特点

分组聚合：需配合 GROUP BY 使用，将每个分组内的 col 值收集为数组。
保留重复值：与 collect_set(col) 不同，collect_list 不会去重，保留所有原始值（包括重复值）。
顺序不确定：默认不保证数组内元素的顺序（除非配合窗口函数 ORDER BY）。

二、典型应用场景

用户行为序列分析：将用户的多次操作按时间串联为行为路径。
数据结构转换：将行式存储的数据转为列式（如将多行商品标签转为单个商品的标签数组）。
复杂统计：计算每个分组内的所有值的列表（如收集每个班级的所有学生成绩）。

三、示例演示

场景 1：用户订单列表收集

需求：收集每个用户的所有订单 ID，生成 用户 ID → [订单 ID 列表] 的映射。

数据：

text
user_id | order_id
------------------
1       | 1001
1       | 1002
2       | 1003
2       | 1003 -- 重复订单
3       | 1004

HQL：

SELECT user_id, collect_list(order_id) AS order_list -- 收集订单 ID 到数组
FROM orders
GROUP BY user_id;

结果：

text
user_id  

        [, ]
        [, ]  
        []

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

text
user_id | action_time           | page
-----------------------------------
1       | 2025-07-24 10:00:00   | 首页
1       | 2025-07-24 10:05:00   | 商品页
1       | 2025-07-24 10:10:00   | 购物车
2       | 2025-07-24 09:30:00   | 搜索页
2       | 2025-07-24 09:40:00   | 商品页

SELECT user_id, concat_ws('→', collect_list(page ORDER BY action_time)) AS behavior_path
FROM user_behavior
GROUP BY user_id;

text
user_id | behavior_path
------------------------
1       | 首页→商品页→购物车
2       | 搜索页→商品页

text
product_id | tag
-----------------
101        | 电子产品
101        | 手机
102        | 服装
102        | 男装
102        | 休闲装

SELECT product_id, collect_list(tag) AS tags_array -- 生成标签数组
FROM product_tags
GROUP BY product_id;

text
product_id | tags_array
-------------------------
101        | ["电子产品", "手机"]
102        | ["服装", "男装", "休闲装"]

to_json(collect_list(tag)) AS tags_json -- 输出："["电子产品","手机"]"

WITH sorted_orders AS (
    SELECT user_id, order_id, ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_time) AS rn
    FROM orders
)
SELECT user_id, collect_list(order_id ORDER BY rn) AS ordered_orders
FROM sorted_orders
GROUP BY user_id;

SELECT user_id, collect_list(order_id)
FROM orders
WHERE order_date >= '2025-01-01' -- 先过滤近一年订单
GROUP BY user_id;

Hive 常用聚合函数 collect_list 详解

一、函数特点

二、典型应用场景

三、示例演示

场景 1：用户订单列表收集

更多推荐文章

相关免费在线工具

场景 2：按时间排序的用户行为路径

场景 3：JSON 数组生成（结合 `explode` 反向操作）

四、注意事项

五、性能优化建议

更多推荐文章

相关免费在线工具

Hive 常用聚合函数 collect_list 详解

一、函数特点

二、典型应用场景

三、示例演示

场景 1：用户订单列表收集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

场景 2：按时间排序的用户行为路径

场景 3：JSON 数组生成（结合 explode 反向操作）

四、注意事项

五、性能优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

场景 3：JSON 数组生成（结合 `explode` 反向操作）