Bruin 数据质量检查实用指南
Bruin 是一款简单易用的数据管道工具,支持使用 SQL 和 Python 构建数据管道,并内置强大的数据质量检查功能。本指南将带你快速掌握 Bruin 的数据质量检查功能,通过实用的方法确保你的数据可靠又准确。
为什么数据质量检查至关重要?
在数据分析和决策过程中,数据质量直接影响结果的准确性。Bruin 提供的内置数据质量检查功能,能帮助你在数据处理流程中及时发现并解决数据问题,避免错误数据进入下游系统。无论是数据清洗、转换还是加载阶段,质量检查都是保障数据可靠性的关键环节。
Bruin 内置数据质量检查类型
Bruin 提供了多种开箱即用的数据质量检查类型,满足大多数常见场景需求:
基础数据验证检查
- Not-Null 检查:确保列中没有空值
- Unique 检查:验证列值的唯一性
- Accepted Values:限制列值只能是指定的允许值集合
columns:
- name: status
type: string
checks:
- name: accepted_values
value: ["active", "inactive", "pending"]
数值范围检查
- Positive/Negative:验证数值是否为正/负数
- Non-Negative:确保数值为非负数
- Min/Max:检查数值是否在指定范围内
columns:
- name: quantity
type: integer
checks:
- name: min
value: 1
- name: max
value: 1000
格式验证检查
- Pattern:使用正则表达式验证字符串格式

