机器学习常见名词与核心概念汇总
机器学习
机器学习是人工智能的重要分支,它让计算机系统能够从数据中学习并提升性能,而无需显式编程。算法利用统计技术识别数据模式,使计算机能做出预测或决策。
主要特点:
- 数据驱动:模型性能高度依赖输入数据的质量。
- 模式识别:自动识别规律并预测新结果。
- 自适应:随数据积累持续改进。
- 算法多样:涵盖监督、无监督及强化学习等。
应用领域包括语音识别、图像识别、推荐系统、自然语言处理及预测分析等。
深度学习
深度学习是机器学习的子集,基于人工神经网络(特别是深层网络)的概念。它模仿人脑工作方式,通过多层网络学习复杂模式。
主要特点:
- 多层结构:隐藏层帮助学习抽象表示。
- 自动特征提取:减少手动特征工程需求。
- 大数据需求:通常需要海量数据训练。
- 计算密集型:依赖 GPU 等强大算力。
应用领域涵盖语音助手、面部识别、自动驾驶、机器翻译及游戏模拟(如 AlphaGo)。
神经网络
神经网络由神经元连接而成,核心公式通常涉及输入 $x$、权重 $W$、偏置 $ heta$ 和激活函数 $f()$。
- y:预测输出或目标变量。
- f():激活函数(如 ReLU、sigmoid),引入非线性以学习复杂模式。
- W:权重矩阵,包含需优化的参数。
- x:输入数据矩阵。
- θ:偏置项,允许模型在无输入时产生非零输出。
与深度学习的区别:深度学习模型更复杂,需更多数据和算力;传统机器学习依赖特征工程,而深度学习可自动学习特征;后者在处理大规模复杂数据时表现更佳。
NPU
神经处理单元(Neural Processing Unit)专为优化 AI 任务设计的硬件。相比 CPU 和 GPU,NPU 在执行深度学习算法时效率更高,擅长处理图片、视频等多媒体数据及神经网络的大规模并行计算。
CUDA
CUDA(Compute Unified Device Architecture)是 NVIDIA 开发的并行计算平台。它允许开发者利用 GPU 进行通用计算,提供丰富 API 加速计算密集型应用,不仅是图形渲染的工具。
Torch 与 PyTorch
Torch 是早期使用 Lua 开发的科学计算框架,以动态图、自动求导和张量操作闻名。PyTorch 则是 Facebook 开源的 Python 版本,继承了 Torch 理念但提供了更友好的 API。其动态计算图特性允许运行时灵活定义模型,支持 CPU、GPU 等多种设备,社区生态完善。
微调技术 (FT & SFT)
FT (Fine-Tuning) 指在预训练模型基础上调整权重以适应特定任务。通常保留底层通用特征权重,仅调整最后几层。
SFT (Supervised Fine-Tuning) 即监督微调,流程如下:
- 预训练:在大规模源数据集上训练'源模型'。
- 模型复制:创建'目标模型',复制源模型除输出层外的所有参数。
- 输出层替换:移除源模型输出层,添加针对目标任务的新输出层并随机初始化。
- 微调训练:在目标数据集上训练,仅从头训练输出层,其余参数基于源模型微调。


