一、机器学习基本概念
1. 什么是机器学习
**机器学习(Machine Learning)**是人工智能的子集,是实现人工智能的一种主要途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。
**深度学习(Deep Learning)**是机器学习的子集,灵感来自人脑,由人工神经网络(ANN)组成。在深度学习中,学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。
2. 传统数学 VS 机器学习
我们可以从传统数学和机器学习对比来了解两者的异同:
-
相同点
- **数据驱动:**两者都利用数据来构建和验证模型。
- **预测和推断:**都可以用于预测未知的输出或解释数据中的模式。
- **优化问题:**在某些情况下都可能涉及到优化问题,例如寻找最小化误差的参数。
-
不同点
- 目的:
- **数学建模:**旨在用数学的形式描述现实世界中的现象或问题,往往为了理解其背后的机制或原理。
- **机器学习:**主要关注的是预测和泛化。模型可能不太关心背后的机制,而是关心在未知数据上的性能。
- 模型构建:
- **数学建模:**基于对现象的物理、生物或经济学的理解。
- **机器学习:**基于数据。使用的模型可能没有明确的现实意义。
- 验证:
- **数学建模:**基于是否与现实世界的观察相符合,以及是否可以提供洞察力。
- **机器学习:**基于模型在独立测试集上的性能。
- 模型的解释性:
- **数学建模:**往往更具解释性,因为是基于已知原理构建的。
- **机器学习:**尤其是复杂的模型如深度神经网络,可能难以解释。
- 应用:
- **数学建模:**常应用于工程、物理学、经济学等领域。
- **机器学习:**广泛应用于计算机视觉、自然语言处理、推荐系统等领域。
- 目的:
总的来说,数学建模和机器学习都是理解、解释和预测现象的工具,但它们的关注点、方法和应用有所不同。
二、机器学习三要素
机器学习三要素包括数据、模型、算法。这三要素之间的关系紧密相连:
1. 数据
数据驱动:数据驱动指的是我们基于客观的量化数据,通过主动数据的采集分析以支持决策。与之相对的是经验驱动,比如我们常说的「拍脑袋」。高质量的数据是机器学习成功的基础。
2. 模型与算法
- **模型:**在 AI 数据驱动的范畴内,模型指的是基于输入数据 X 做决策 Y 的假设函数,可以有不同的形态,计算型和规则型等。
- **算法:**指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化问题。
三、机器学习核心技术
- **分类:**应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。
- **聚类:**从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。
- **异常检测:**对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。
- **回归:**根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。
四、基本概念详解
- **示例/样本:**数据集中的一条数据。
- **属性/特征:**如「色泽」「根蒂」等描述数据的维度。
- **属性空间/样本空间/输入空间 X:**由全部属性张成的空间。


