大数据 OLAP 中的近似聚合算法 | 极客日志

Javajava算法

大数据 OLAP 中的近似聚合算法

介绍大数据 OLAP 中的近似聚合算法，包括 HyperLogLog、Count-Min Sketch 和 T-Digest。通过牺牲少量精度换取性能提升，适用于海量数据的去重计数、频率估算和分位数计算。文章涵盖算法原理、Java 实现细节、在 Druid 和 Spark 中的应用，以及参数调优指南，帮助开发者在准确性和效率间取得平衡。

指针猎手发布于 2026/3/27更新于 2026/5/2836 浏览

大数据 OLAP 中的近似聚合算法

1 背景介绍

1.1 大数据分析的挑战

随着数据量的爆炸式增长，传统精确计算方式面临着严峻挑战。一个简单的 COUNT(DISTINCT) 查询在 PB 级数据上可能需要小时级甚至天级的时间完成，消耗大量计算资源和存储空间。在许多实际应用场景中，用户往往不需要 100% 精确的结果，而是可以接受有一定误差的高效近似值。

1.2 近似聚合的价值主张

近似聚合算法的核心价值在于：用可控制的精度损失，换取数量级的性能提升。就像在日常生活中，我们不需要知道一杯水中确切的水分子数量，只需要知道大概的毫升数就能满足大多数使用场景。

1.3 目标读者

本文适合以下读者：

大数据开发工程师和架构师
数据科学家和分析师
对高性能计算感兴趣的技术人员
需要处理海量数据的业务决策者

2 核心概念解析

2.1 近似聚合的基本思想

想象一下，你要估算一个大型商场一天的客流量。精确计算需要每个入口安装高精度计数器并实时同步数据，而近似估算可以通过统计几个主要入口的人流并乘以一个系数来实现。后者虽然不够精确，但成本低、速度快，足以满足大多数决策需求。

2.2 精度与效率的权衡

在近似算法中，我们常用以下指标衡量算法效果：

误差边界 (ε)：算法结果与真实值的最大可能偏差
置信度 (δ)：算法结果满足误差边界的概率
空间复杂度：算法需要的内存空间
时间复杂度：算法处理数据所需的时间

2.3 常见近似聚合类型

类型	算法
基数估算	HyperLogLog, Linear Counting
频率估算	Count-Min Sketch, Count-Sketch
分位数计算	GK 算法, T-Digest
数据采样	随机采样，分层采样

3 技术原理与实现

3.1 基数估算：HyperLogLog 算法

3.1.1 算法原理

HyperLogLog(HLL) 是基数估算中最著名的算法之一，用于估算大规模数据集中不重复元素的个数。它的核心思想是：通过观测数据哈希值的分布模式来推断基数。

让我们通过一个有趣的比喻来理解 HLL：假设你在一片森林中想要估算鸟类的种类数量，而不是一只只数。你可以记录下每只鸟的叫声模式，通过分析叫声的多样性来估计种类数量。叫声就相当于哈希值，多样性模式就反映了基数值。

3.1.2 数学基础

HLL 基于以下概率论观察：对于均匀分布的随机变量，连续出现 k 次正面的概率与样本大小存在数学关系。

设我们有一个哈希函数 h 将元素映射到 [0,1) 区间，则： P(max(h(x1), h(x2), ..., h(xn)) ≤ t) = t^n

对于随机哈希值，观察前导零的个数ρ（第一个 1 出现的位置），则： E[2^-ρ] ≈ 1/n

3.1.3 算法实现

HLL 的标准实现步骤如下：

初始化：创建 m 个寄存器 (通常 m=2^k，k 取 10-16)，初始值为 0
处理元素：

相关免费在线工具

Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online
JavaScript 压缩与混淆
Terser 压缩、变量名混淆，或 javascript-obfuscator 高强度混淆（体积会增大）。在线工具，JavaScript 压缩与混淆在线工具，online
加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online

public class HyperLogLog {
    private final int[] registers;
    private final int registerCount;
    private final int log2RegisterCount;

    public HyperLogLog(int precision) {
        this.log2RegisterCount = precision;
        this.registerCount = 1 << precision;
        this.registers = new int[registerCount];
    }

    public void add(Object element) {
        long hash = MurmurHash.hash64(element);
        int index = (int) (hash & (registerCount - 1));
        int value = Long.numberOfLeadingZeros(hash >>> log2RegisterCount) + 1;
        if (value > registers[index]) {
            registers[index] = value;
        }
    }

    public long count() {
        double sum = 0.0;
        for (int value : registers) {
            sum += 1.0 / (1 << value);
        }
        double estimate = ALPHA * registerCount * registerCount / sum;
        // 小范围修正
        if (estimate <= 2.5 * registerCount) {
            int zeroCount = 0;
            for (int value : registers) {
                if (value == 0) zeroCount++;
            }
            if (zeroCount > 0) {
                estimate = registerCount * Math.log(registerCount / (double) zeroCount);
            }
        }
        return (long) estimate;
    }

    // 合并多个 HLL 实例
    public void merge(HyperLogLog other) {
        for (int i = 0; i < registerCount; i++) {
            if (other.registers[i] > this.registers[i]) {
                this.registers[i] = other.registers[i];
            }
        }
    }
}

public class CountMinSketch {
    private final long[][] table;
    private final int depth;
    private final int width;
    private final long[] hashA;
    private long count;

    public CountMinSketch(int depth, int width) {
        this.depth = depth;
        this.width = width;
        this.table = new long[depth][width];
        this.hashA = new long[depth];
        this.count = 0;
        Random random = new Random();
        for (int i = 0; i < depth; i++) {
            hashA[i] = random.nextLong();
        }
    }

    private int[] getIndices(Object element) {
        int[] indices = new int[depth];
        long hash = MurmurHash.hash64(element);
        for (int i = 0; i < depth; i++) {
            long mixed = hash ^ hashA[i];
            indices[i] = (int) (Math.abs(mixed) % width);
        }
        return indices;
    }

    public void add(Object element, long increment) {
        int[] indices = getIndices(element);
        for (int i = 0; i < depth; i++) {
            table[i][indices[i]] += increment;
        }
        count += increment;
    }

    public long estimateFrequency(Object element) {
        int[] indices = getIndices(element);
        long min = Long.MAX_VALUE;
        for (int i = 0; i < depth; i++) {
            min = Math.min(min, table[i][indices[i]]);
        }
        return min;
    }

    // 计算点积，用于内积估算
    public long dotProduct(CountMinSketch other) {
        // 简化实现，实际需要更复杂的合并逻辑
        long result = 0;
        for (int i = 0; i < depth; i++) {
            for (int j = 0; j < width; j++) {
                result += this.table[i][j] * other.table[i][j];
            }
        }
        return result;
    }
}

public class TDigest {
    private final List<Centroid> centroids;
    private final double compression;
    private long count;

    private static class Centroid {
        double mean;
        long count;
        Centroid(double mean, long count) {
            this.mean = mean;
            this.count = count;
        }
    }

    public TDigest(double compression) {
        this.compression = compression;
        this.centroids = new ArrayList<>();
        this.count = 0;
    }

    public void add(double value) {
        add(value, 1);
    }

    public void add(double value, long weight) {
        // 寻找插入位置
        int index = findInsertionIndex(value);
        if (index < centroids.size() && canMerge(index, value, weight)) {
            // 合并到现有中心点
            mergeCentroid(index, value, weight);
        } else {
            // 创建新中心点
            centroids.add(index, new Centroid(value, weight));
        }
        count += weight;
        // 定期压缩
        if (count % 1000 == 0) {
            compress();
        }
    }

    private boolean canMerge(int index, double value, long weight) {
        // 根据缩放函数判断是否可以合并
        Centroid centroid = centroids.get(index);
        double newMean = (centroid.mean * centroid.count + value * weight) / (centroid.count + weight);
        double q1 = (double) getCumulativeCount(index) / count;
        double q2 = (double) (getCumulativeCount(index) + centroid.count + weight) / count;
        return (scaleFunction(q2) - scaleFunction(q1)) * count <= compression;
    }

    private double scaleFunction(double q) {
        return (compression / (2 * Math.PI)) * Math.asin(2 * q - 1);
    }

    public double quantile(double q) {
        // 计算分位数
        long target = (long) (q * count);
        long cumulative = 0;
        for (int i = 0; i < centroids.size(); i++) {
            Centroid c = centroids.get(i);
            long nextCumulative = cumulative + c.count;
            if (nextCumulative >= target) {
                // 线性插值
                if (i == 0 || i == centroids.size() - 1) {
                    return c.mean;
                }
                double left = centroids.get(i - 1).mean;
                double right = centroids.get(i + 1).mean;
                double t = (double) (target - cumulative) / c.count;
                return left + (right - left) * t;
            }
            cumulative = nextCumulative;
        }
        return centroids.get(centroids.size() - 1).mean;
    }
}

-- 精确计数
SELECT COUNT(DISTINCT user_id) FROM user_events
-- 近似计数（使用 HLL）
SELECT APPROX_COUNT_DISTINCT(user_id) FROM user_events
-- 分位数计算
SELECT APPROX_QUANTILE(response_time, 0.99) FROM metrics

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions._

// 精确去重计数
df.agg(countDistinct("user_id"))
// 近似去重计数（默认 5% 误差）
df.agg(approx_count_distinct("user_id"))
// 可控制误差的近似计数
df.agg(approx_count_distinct("user_id", 0.01))
// 分位数计算
df.stat.approxQuantile("response_time", Array(0.5, 0.95), 0.01)

// 使用 HLL 统计 UV
HyperLogLog dailyUV = new HyperLogLog(14); // 0.8% 误差
// 使用 CM Sketch 统计页面热度
CountMinSketch pagePopularity = new CountMinSketch(5, 8192);
// 使用 T-Digest 统计响应时间
TDigest responseTimeDigest = new TDigest(100);

// 实时处理每条访问记录
public void processVisit(Visit visit) {
    dailyUV.add(visit.userId);
    pagePopularity.add(visit.pageUrl, 1);
    responseTimeDigest.add(visit.responseTime);
}

需求	推荐算法	误差特征	内存占用	适用场景
去重计数	HyperLogLog	1-5%	极低	UV 统计、distinct 计算
频率统计	Count-Min Sketch	可控	低	热门排行、频率分析
分位数计算	T-Digest	高精度	中	性能监控、指标分布
Join 大小估算	FM Sketch	中等	低	查询优化

// 期望误差 1%，置信度 99%
int width = (int) Math.ceil(2 / 0.01); // ε=0.01 → w=200
int depth = (int) Math.ceil(Math.log(1 / 0.01)); // δ=0.01 → d=5

大数据 OLAP 中的近似聚合算法

大数据 OLAP 中的近似聚合算法

1 背景介绍

1.1 大数据分析的挑战

1.2 近似聚合的价值主张

1.3 目标读者

2 核心概念解析

2.1 近似聚合的基本思想

2.2 精度与效率的权衡

2.3 常见近似聚合类型

3 技术原理与实现

3.1 基数估算：HyperLogLog 算法

3.1.1 算法原理

3.1.2 数学基础

3.1.3 算法实现

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.1.4 Java 代码实现

3.1.5 误差分析

3.2 频率估算：Count-Min Sketch 算法

3.2.1 算法原理

3.2.2 数学基础

3.2.3 Java 实现

3.3 分位数计算：T-Digest 算法

3.3.1 算法原理

3.3.2 核心公式

3.3.3 Java 实现

4 实际应用

4.1 大数据平台中的实现

4.1.1 Apache Druid 中的近似计算

4.1.2 Spark 中的近似聚合

4.2 实际业务场景

4.2.1 网站流量分析

4.2.2 电商平台实时监控

4.3 性能对比与选择指南

4.3.1 算法选择矩阵

4.3.2 参数调优建议

5 未来展望

5.1 技术发展趋势

5.1.1 算法融合与优化

5.1.2 硬件加速

5.1.3 自适应误差控制

5.2 行业应用前景

5.2.1 实时决策支持

5.2.2 边缘计算

5.2.3 AI 与机器学习

5.3 挑战与机遇

5.3.1 技术挑战

5.3.2 机遇

6 总结

6.1 核心要点回顾

6.2 思考问题

6.3 参考资源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具