数据分析是指运用适当的方法和技巧对数据进行分析,从看似杂乱无序或毫无关联的数据中挖掘出有价值的信息,总结出隐藏在数据背后的规律。
概括地说,数据分析就是通过分析手段将原始数据提炼成有价值的信息。数据分析一般是带有目的性的,它可能是为了制订解决方案或研究某个对象,也可能是为了预测事物的发展趋势。因此,要有针对性地分析数据、提炼信息,因为分析相同的数据如果目的不同,得到的信息也可能会大不相同。数据分析只有与实际问题相结合,才能体现出自身的价值。
数据分析的基础流程
数据分析并不是毫无章法的,如果遵循一定的流程,可以提高工作效率,也能降低出错的概率。数据分析的整个流程大致可以分为 5 个相对独立又相互关联的阶段:明确需求、数据收集、数据处理、数据分析和数据展示。下面简单介绍各个阶段。
01 明确需求
数据分析不是无目的性的,否则在面对大量数据时我们会无从下手。只有明确需求,清楚我们想知道什么,才能有针对性地分析数据。明确需求和目标,可以帮助我们在后续的分析流程中选择适当的方法。对于需求本身,要定义它的范围,太宽泛则会导致收集数据时没有导向性,分析结果也会散乱且没有重点。
02 数据收集
数据收集指的是根据定义的范围和明确的目标,收集相关数据。通常要先提出需求,定义了分析范围后,再收集数据,否则没有边界会导致收集大量无效数据。收集的数据可以是一手数据,如企业内部的销售数据、实验室的试验结果;也可以是二手数据,如第三方机构发布的权威数据、利用爬虫技术获取的网络数据。根据收集方式的不同,数据收集又可分为线下收集和线上收集。数据收集为数据分析提供输入和素材,做好收集工作才能为数据分析打下坚实的基础。
03 数据处理
从不同渠道收集到的原始数据在大部分情况下都比较粗糙,无法直接拿来分析。因此,在进行数据分析之前需要对数据进行二次加工,降低原始数据的复杂度,清除干扰项,把数据处理成合适的形式和结构。这就好比制作一份佳肴之前,我们可能需要清洗食材、加工食材。数据处理包括数据过滤、数据筛选、数据清理、缺失数据填补、类型转换、数据排序等。
04 数据分析
这个阶段包括分析和挖掘:数据分析侧重于观察和描述数据本身的特征,通常依赖数据分析人员的个人经验和对业务的熟悉程度;数据挖掘侧重于知识发现,挖掘数据背后更深层次的规律,通常需要建立数学模型。
其实,整个数据分析的流程与烹饪有很多相似的地方。制作一道菜品,需要先了解品尝者的口味(明确需求),再购买食材(数据收集)、准备食材(数据处理)。数据分析则是最后烹制的过程,煎炸蒸煮,哪种是最合适的烹饪手段也同样是在数据分析中需要考虑的问题。因此,基于准备好的数据,我们要结合实际业务使用合理的策略和方法去分析数据的特征,选择适当的模型去挖掘数据背后的信息。
05 数据展示
数据展示是将最终分析的结果以更直观、易懂的方式呈现出来,呈现方式可以是报告、报表、图表,甚至是更生动的动态演示。是否需要数据展示,主要根据项目需求而定,它并不是必要的阶段。
统计分析策略
01 描述性统计分析
描述性统计分析是比较基础的数据分析,主要是对目标数据集进行统计性描述。描述性统计分析通过统计指标描述数据的特征,主要包括数据的平均数、数据的分布、数据的集中趋势、数据的离散度等。
02 推断性统计分析
推断性统计分析是根据样本数据推断总体的特征,并对总体特征进行估计、检验和分析。推断性统计分析是经典的统计分析方法,常用于探索数据背后所呈现的规律。通过分析样本数据,可以推断总体的很多数据特征,如推断数据分布,检验总体是否服从正态分布;分析样本数据的多个特征属性,判断属性之间的关联性;通过比较样本数据之间的差异,推测总体受外部因素影响的变化规律。
03 探索性统计分析
探索性统计分析也是一种挖掘数据内在规律的分析方法,但更具有探索性。不同于推断性统计分析,探索性统计分析是在尽量少的先验假设下,通过数据分析探索数据背后的模式或规律。在实际应用中,很多数据并不符合假设的统计模型分布,从先假设再分析得出的结果中往往挖掘不到有意义的信息。探索性统计分析则更侧重于用数据本身解释隐藏在背后的真相,通过数据可视化、制表或拟合等手段去观察和发现数据的特征及其内在联系。
探索性统计分析在实际生活中的应用较广泛,例如调查男性和女性在商品购买习惯方面的差异、探讨泳衣阻力与游泳成绩之间的关系等。数据分析中有一个经典的成功案例——啤酒与尿不湿的故事,这个故事将看似毫无关联的啤酒与尿不湿通过数据分析联系在一起。探索性统计分析就是拥有这样的魔力,可以探索和挖掘不易被察觉的规律和内在联系。
数据分析方法
随着科学计算的不断发展,越来越多的数据分析方法被提出来,如何选择合适的方法则是数据分析人员需要不断去学习的。本节我们介绍几种常用的数据分析方法。
01 公式拆解法
公式拆解法是指对某一指标用公式层层拆解并分析其影响因素。公式拆解法借助公式的形式,对影响指标的因素层层抽丝剥茧,最终找出核心问题的所在。使用公式拆解法时,需要先确定表明问题的关键指标,然后层层拆解。如分析某游戏产品利润低的原因,过程如下。
纯利润 = 销售额 - 开发成本,分析发现是销售额较低。


