Python 数据分析学习路线
数据分析是必备技能。本文总结 Python 数据分析的学习大纲,涵盖思维、获取、存储、清理、核心知识、Excel、Pandas、建模、可视化及挖掘等方面。
1 数据分析思维
数据分析属于分析思维的一个子类,有专门的数据方法论。只有先养成正确的分析思维,才能使用好数据。
大多数人的思维方式都依赖于生活和经验做出直觉性的判断,最直观的体现是,在数据和业务分析中有时无从下手。
什么是好的分析思维?
用两张图片说明两种思维模式:
- 依赖经验和直觉的线性思维:例如认为销售下降是因为年终影响,询问销售员后得到主观反馈。
- 注重逻辑推导的结构化思维:排除大环境因素,通过数据发现 A 地区因竞争对手低价策略导致下降,B 地区因经济预期低导致投入缩减。
1.1 金字塔原理
麦肯锡思维中很重要的一条原理叫做金字塔原理,它的核心是层次化思考、逻辑化思考、结构化思考。
1.1.1 什么是金字塔?
任何一件事情都有一个中心论点,中心论点可以划分成 3~7 个分论点,分论点又可以由 3~7 个论据支撑。层层拓展,这个结构由上至下呈金字塔状。
1.1.2 结构化思维
(图示:金字塔结构)
1.1.3 核心法则:MECE
金字塔原理有一个核心法则 MECE,全称 Mutually Exclusive Collectively Exhaustive,论点相互独立,尽可能多的列举。
1.1.4 假设先行
首先得有一个思考作为开始。因为金字塔是从上而下,需要有一个中心论点,也就是塔尖。我们可以先提出一个问题,比如此产品的核心功能是某某功能吗?
1.2 二八法则
1.2.1 20% 的分析过程决定 80% 的分析结果
1.2.2 抓住关键因素
以上节选的两个分析思维,都能在麦肯锡问题分析与解决技巧中找到原型。
2 数据获取
2.1 大数据平台提取
各个公司都可能有自己专属的大数据平台,进入公司要首先掌握如何从这上面获取我们需要的业务数据。
2.2 第三方服务接口
合作企业或公司购买的服务接口,我们可以直接调用拿到数据。
2.3 开源公开数据集
2.4 爬虫爬取网站数据
python 的常用包:
- requests
- json
- BeautifulSoup
requests 库就是用来进行网络请求的,说白了就是模拟浏览器来获取资源。
由于我们采集的是 api 接口,它的格式为 json,所以要用到 json 库来解析。
BeautifulSoup 是用来解析 html 文档的,可以很方便的帮我们获取指定 div 的内容。
3 数据存储
3.1 SQL 分组,聚合,多表 join 操作
groupby, aggregate, join 操作。
join 操作可参考相关技术文档。
3.2 大数据平台 Hadoop
大数据架构,分布式存储,详细自行查阅。
3.3 Mysql
这个大家应该都不陌生。
3.4 hive 拉链表
拉链表的知识大家需要好好理解体会,dp 的状态 active 和 history。


