干货 | 想学数据分析不知道该读什么书、从哪本读,翻遍专业知识类网站最全的整理!
作为一名工作两年的产品新人,想学一些数据分析的知识,推荐的书多又杂,并且没有一个阅读顺序,实在是不知道该怎么办才好。 整理了各大网站关于学习数据分析的文章,整理如下,希望把这篇文章分享给处于和我一样想学数据分析不知该从何入门的小伙伴们一起学习。也希望可以收到别人对我这种小公司产品新人的建议或处于相同阶段的小伙伴们的交流。
因工作原因要学习一些数据的知识,从人人都是产品经理网站上并没有找到一篇从入门到进阶成体系的文章,且查找的分享都是数据体系中一个分支的分支,整体看起来烟雾缭绕,经一位前辈点播还是先从书籍中建立整体的认知再看这些碎片化的知识,才能更有体会(手动@前辈谭小超,私聊的感受就是人的超级平易近人,受我一拜orz),故有了这篇内容。
文章内容整理至知乎,感谢两位大佬的分享,其中@知乎用户 张溪梦 Simon、DataCastle(其中大部分内容源自Simon,部分属于DataCastle已标注)
part 1 | 入门版
适合对数据分析的入门者,对数据分析没有整体概念的人,常见于应届毕业生,经验尚浅的转行者。
HeadFirst类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。——Simon
深入浅出数据分析:把这本书放在第一顺序,是因为它真的很简单,但是能够让你对数据分析的一些基本概念有大致的了解。即便是你毫无数据分析经验,一两天也足够读完整本书了。这本书的实操性并不强,所以也不建议你去跟着实践,了解作者传达出来的数据分析基本思想和原则就OK了,这对你建立宏观的视野,和接下来的学习很有帮助。
另外,书中提到的一些案例,比如提升化妆品销量、分析星巴克销量、生产线最优解、网站ABtest、竞品分析、薪资预测等等,看起来很简单,但其实都是工作最常见的一些分析场景。这对数据思维的养成,非常有帮助。
个人觉得书中最有用的一些点:
统计学概念在数据分析中的作用:比如方差、标准差、相关系数、均方根误差等; 集中数据分析的基本方法:假设检验、回归分析、误差分析等; 统计图形分析:散点图、直方图等来探索数据中隐藏的规律; 数据库以及数据整理。
这本书很让你掌握数据分析技术,过一遍即可。
谁说菜鸟不会数据分析:不仅讲解了一些常见的分析技巧,并附带excel的一些知识及数据分析再公司中所处的位置,对职场了解亦有一定帮助。
赤裸裸的统计学:作者年轻时是个追求学习意义的学霸,后来自己从统计学中发掘了很多可以应用到生活的地方。这也是本书的主旨,结合生活讲解统计知识,生动有趣。可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。
统计数字会撒谎:知名度高,但是还没看过…
part 2 | 进阶版
具有一定的行业针对性,要求具备一定的分析常识,适合网站分析师,商业分析师以及数据产品经理。
深入浅出统计学: HeadFirst类书籍,可以帮助你快速了解统计方面的知识。——Simon
非常非常基础的统计书,适合任何一个没有基础的小白,文科生也能看懂。有人说这本书简直太简单了,但是对于数据分析来说,需要用到的恰好是这些最简单的东西。比如基本的统计量,基本上每个分析项目中都会用到。比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,我去,都是为数据分析定制的统计学知识。
所以强烈推荐这本,其他的比较深度的书,并不建议在入门的阶段去啃,一方面是很多难以理解,二是即便你花大力气学习了,入门的阶段你也不怎么能在实践中使用。当然多学一些是没有坏处的,但你需要知道在什么时候学习哪些东西性价比最高。或者你自我感觉良好,誓要学最难的,从入门到放弃,得不偿失。
总结起来,需要重点了解的统计学知识如下:
基本的统计量:均值、中位数、众数、方差、标准差、百分位数等; 概率分布:几何分布、二项分布、泊松分布、正态分布等; 总体和样本:了解基本概念、抽样的概念;
这本书非常的简单,但是基本的数据分析的一些方法都有了,你需要做的,是利用之前学过的Python 的一些库(pandas、Numpy、matplotlib)来实现这些数据分析的方法、实现基本的可视化来进行图形化的分析。——DataCastle
MySQL必知必会:这本也是我当年学习SQL的入门书,薄册子一本,看起来很快。SQL是个性价比很高的技能,简单而强大。任何想进一步提高自己数据分析技能的产品/运营/分析师 同学,都建议点亮这个技能点。——Simon
这本书把SQL写的非常简单,没办法,SQL确实也很简单。其实pandas 就已可以实现很多数据管理的工作,而了解SQL 的意义在于融入到实际的数据使用的场景。比如企业的数据,多是以数据库的形式存储起来的,那么如果你需要去调用你需要的那部分数据,那么SQL就是必须的技能。如果你在最开始就想用公司的数据来练习,那么你可以把这本书的阅读放到最前面。(当然,如果你不回遇到数据提取的问题,SQL这部分也可以暂时不管,对具体的数据分析没有影响,等到你真正需要用到SQL的时候再学习。)
MySQL本身比较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进行基本的数据提取和处理就能够应对一般的数据分析需求了。
书中重点掌握以下几个点:
SELECT语句:让你能够去提取你需要的那部分数据; DELETE和UPDATE:知道怎么实现数据的增、删、改; 数据过滤:where、and、or、通配符等过滤方式; 数据的汇总和分组、数据库连接:应对更加复杂的数据和相关联的数据; 子查询:查询中的查询。
当然还是希望你去公司的数据库找一些数据来进行练习,如果不方便的话,也可以直接用上述UCI数据集中的数据来进行实践。
如果遇到问题,可以去菜鸟教程查询相关操作。
好了,恭喜,你已经基本入门了。到此,你就完全可以去进行一个完整的数据分析项目了,如果你没有头绪,可以去找一些行业的分析报告来看看,找一找分析的思路。能够独立完成一些项目,通过数据分析能够得出一些深刻的结论,能够给人以可视化的形式将结果描述出来,能够基于历史数据对未来的一些情况进行预测,那么一般的数据分析岗位,完全可以胜任了。
互联网增长的第一本数据分析手册:GrowingIO出的一本数据分析的增长手册,为大家提供常见的分析手段讲解,如漏斗分析,同期群分析等等。可在GrowingIO技术论坛中免费下载。
利用Python进行数据分析:这应该是最经典的数据分析书之一了,作者是pandas 库的作者WesMcKinney 。所以这本书对于pandas 的理解,应该是非常深刻的,而利用梳理介绍的pandas、bumpy、matplotlib 等库,应对一般的数据分析,完全足够了。
书中应该重点掌握的一些点:
IPython Notebook 的使用:最适合小白的代码编写环境,非常容易上手; 科学计算库 Numpy:数组和矢量计算、学会利用数组进行数据处理; 数据处理及分析工具 pandas:数据查询,缺失值、重复值、异常值的处理,数据的合并与规整化,基本的描述性分析及可视化; 可视化工具 matplotlib:用这个库,基本的数据可视化问题皆可以解决了。
看上去是不是很简单,这本书就是教会你如何开始使用Python 进行数据分析,当然首推的就是pandas ,不仅可以做数据的预处理,还能够做基本的数据分析和可视化。这个库一定是你开始入门的时候需要重点学习的,其次用Numpy 进行数组的计算、利用matplotlib 进行可视化的描述性分析,也是同步需要掌握的东西。
但是,这个部分光看书是远远不够的,你可以尽量去找一些可以练手的数据集,来实际操作和调用这些库的功能,确保熟练数据分析中最常用的函数和模块。如果纠结去哪找练手的数据,推荐UCI经典数据集。
关于pandas、Numpy、matplotlib 网上应该可以搜索到很多有用的资料、教程,可以看一看别人的使用技巧、应用场景,并通过练习转化成自己的经验。
因为Python 库的更新迭代非常快,这本书里额一些内容其实已经“过时”了,这里也非常建议你去查看一些官方的文档,基本上你需要的都能查到。
另外,在进行一些数据处理、数据分析的时候,你可能需要去了解一些更细节的Python 的用法,这里就不推荐书了,因为你没必要去系统地学,按照这个菜鸟教程看看或者查询相关的用法就OK了。
part 3 | 高阶版
更高阶的数据相对来说专业性较强了,如涉及到企业内部数据治理,数据结合的业务分析,数据可视化等。当然,还有数据挖掘算法之类的更深入的东西,这块没有研究就不瞎推荐了
精益数据分析:此书优势在于将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。——Simon
书中主要讲到各种产品中用到的指标和模型,这是一本写给产品经理的书,其中并没有具体的数据分析技术,涉及到的更多是数据驱动型产品的一些思路。
比如怎么将数据驱动的产品落地,怎么为产品设计数据指标,哪些指标对于产品迭代优化更有效,如何依靠数据分析来驱动用户增长等等。——DataCastle
数据之美:本书通过世界上最好的数据工作者的示例,向读者展示处理数据的方法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上,去仔细审视涉及到数据的一些最有趣的项目。
决战大数据:阿里巴巴前数据副总裁车品觉老师所著,讲解了阿里巴巴在企业内部治理数据过程中的新的,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。
The Wall Street Journal Guide to Information Graphics:华尔街日报负责商业分析的人做的可视化指南,精华且实用,之前做的读书笔记可供参考【华尔街日报是这样做数据可视化的(1)】
数据科学实战:这本书应该是数据分析和数据挖掘(机器学习)之间的桥梁。从探索性的数据分析开始,通过数据分析的思维,引出了机器学习的基本算法:回归分析、k近邻、k均值。接着通过不同的应用场景分别介绍了最常见的机器学习算法,以及在真实场景的应用。
对于做了一段时间数据分析工作的人,这无疑是进阶更高维度的好书,很难有一本书,能够让你从简单的数据分析平滑地渡到机器学习和数据挖掘,这本书我认为是这方面做的最好的一本。
所以如果你在做一些探索性的分析遇到瓶颈之后,自然而然会进入数据挖掘和机器学习算法的坑,因为只有更高级的算法和模型,才能够支撑大规模的数据的预测。
下面列出一些书中有意思也比较有用的点:
了解探索性数据分析,为更高级的需求打好基础; 了解机器学习的基本算法、k近邻、k均值等; 用朴素贝叶斯方法做垃圾邮件的过滤; 线性回归和逻辑回归的分析方法; 如何从数据中获取结论,从数据挖掘竞赛开始; 构建自己的推荐系统; 数据泄漏与模型评价,如何筛选模型。
part 4 | 推荐关注
在知乎上有不少数据分析及Growth的大牛,在这里推荐几位我熟悉的,经常会写一些相关的文章:
覃超,前Facebook 早期工程师,关于增长黑客写了许多优秀的文章;
邹昕,Facebook 用户增长数据分析,在数据分析方面很有见解;
范冰,【增长黑客】一书作者,人非常有趣,同事也非常推荐【增长黑客】这本书;
曾加,蚂蚁金服 BI-数据分析,数学方面的牛人;
何明科,专注于数据和互联网产品,许多回答很值得细看
对于推荐的书籍来讲,有一位前辈能对这本书有所评价并告诉后辈的,无异于考试时书上画了重点,所以,关于数据分析的书,有这么一篇就够了。
但是关于产品的书,从网上找到的书单涉及到的书太多,因为产品经理需要对各个方面都有所了解,要对各个领域都列出个书单的话,也没时间看,毕竟人的精力是有限的,还是要有所选择。
这里想讲一个选书的方法,将每一位大牛列出的书单视作他们的一个产品,将产品领域各位大牛的书单做个竞品分析,列出每个书单的相同点,也就是找出每份书单都会出现的书,对于新人来说,从这些书中开始读,准没错。
产品岗位是近几年才逐渐有了系统化的培训,在之前鱼龙混杂的时代有人出了一本书各个产品人一定都有所涉猎,而那个时候产品可选择的书籍并不多,这些人中又渐渐了出了大神,值得被多位大神站台的书籍,就是对内容最好的保障。
一个真心喜欢工作的2年产品新人,目前学习的方法是通过书籍掌握基础脉络再通过碎片化的文章往不同的方向延伸,期望只通过能力而不通过公司的背景和光环被人认可。
End 阅读排行榜/精华推荐1 入门学习
2 进阶修炼
3 数据源爬取/收集
4 干货教程
“讲述大数据在金融、电信、工业、商业、电子商务、网络游戏、移动互联网等多个领域的应用,以中立、客观、专业、可信赖的态度,多层次、多维度地影响着最广泛的大数据人群
36大数据
长按识别二维码,关注36大数据
搜索「36大数据」或输入36dsj.com查看更多内容。
投稿/商务/合作:[email protected]
点击下方“阅读原文”查看更多
↓↓↓