前言
为了帮助对机器学习感兴趣的同学,结合相关学习经历,整理出这份关于如何系统学习机器学习的指南。

1. 步骤
在正式踏入机器学习之旅之前,我们需要了解机器学习的步骤以及前置知识。
1.1 前置知识
英语听读能力
首先,掌握英语的听和读的能力。机器学习领域的课程和论文几乎都是英文的,如果我们要看懂或者听懂,最好需要掌握一定的英语能力,实在有困难,还可以借助于谷歌翻译和 DeepL 等翻译软件。
数学基础
计算机科学离不开数学,机器学习自然也需要一定的大学数学基础:微积分、线性代数和统计学。
- 高等数学:导数、微分和积分、泰勒展开式。
- 线性代数:矩阵、向量,推荐著名的科普视频 up 主 3Blue1Brown 的专题 Essence of linear algebra。
- 统计学与概率论:条件概率、期望、方差、回归问题和拟合问题、贝叶斯法则。
机器学习中,大约有 80% 的时间将用于收集和清洁数据。统计学是处理数据集合,分析和表示的领域。
1.2 编程技能
选择一门编程语言:Python
为了能动手实践机器学习,不仅仅停留在课本和书面上的话,一定要掌握一门编程语言。现在越来越多大学会开设 Python 程序设计这门课,足以见到这门语言在研究领域的热门。而有些大学工科类专业会开设 Matlab 这门课,统计和数学专业会学习 R 语言或者 Scala 等。
着重说一下,语言不是关键,任何语言只要是你喜欢的,都可以用来入门和学习。但是为了减少重复造轮子,Python 简洁的语法和其在数据科学领域有着众多的工具和资源,实际上,有许多 Python 库,这些第三方库对于人工智能和机器学习特别有用,例如 Keras,Tensorflow,Scikit-Learn 等,所以还是比较推荐 Python。
书籍和课程推荐
网上关于 Python 入门的书籍很多,这里只提及对机器学习有帮助的 Python 进阶书:《流畅的 Python》和《利用 Python 进行数据分析》。
1.3 什么是机器学习
现在我们已经完成了先决条件,可以继续学习机器学习的核心部分!当然也是从基础开始,然后再学习更复杂的东西。
机器学习概念
IBM 的亚瑟·塞缪尔(Arthur Samuel)被誉为'机器学习之父',他在 1959 年创造了'机器学习'一词,并把机器学习定义为:机器学习是在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。
机器学习是人工智能的一部分,它将数据与统计工具相结合,以预测可用于制作可行见解的输出。
机器学习术语
- 模型:模型是通过应用一些机器学习算法从数据中学习的特定表示。模型也称为假设。
- 特征:特征是数据的单个可测量属性。一组数字功能可以通过功能向量方便地描述。特征向量作为模型输入。例如,为了预测水果,可能会有诸如颜色,气味,味道等的特征。
- 目标(标签):目标变量或标签是我们模型要预测的值。对于特征部分讨论的水果示例,每组输入的标签将是水果的名称,如苹果、橙子、香蕉等。
- 训练:这个想法是给出一组输入(特征)和它的预期输出(标签),所以在训练之后,我们将有一个模型(假设),然后将新数据映射到训练过的类别之一。
- 预测:一旦我们的模型训练好,那么提供一组输入,它将能给出一个预测的输出(标签)。
机器学习的类别
- 监督学习:这涉及使用分类和回归模型从带有标记数据的训练数据集中学习。这个学习过程一直持续到达到所需的性能水平。




