机器学习常见名词与核心概念汇总

机器学习

机器学习是人工智能的重要分支，它让计算机系统能够从数据中学习并提升性能，而无需显式编程。算法利用统计技术识别数据模式，使计算机能做出预测或决策。

主要特点：

数据驱动：模型性能高度依赖输入数据的质量。
模式识别：自动识别规律并预测新结果。
自适应：随数据积累持续改进。
算法多样：涵盖监督、无监督及强化学习等。

应用领域包括语音识别、图像识别、推荐系统、自然语言处理及预测分析等。

深度学习

深度学习是机器学习的子集，基于人工神经网络（特别是深层网络）的概念。它模仿人脑工作方式，通过多层网络学习复杂模式。

主要特点：

多层结构：隐藏层帮助学习抽象表示。
自动特征提取：减少手动特征工程需求。
大数据需求：通常需要海量数据训练。
计算密集型：依赖 GPU 等强大算力。

应用领域涵盖语音助手、面部识别、自动驾驶、机器翻译及游戏模拟（如 AlphaGo）。

神经网络

神经网络由神经元连接而成，核心公式通常涉及输入 $x$、权重 $W$、偏置 $ heta$ 和激活函数 $f()$。

y：预测输出或目标变量。
f()：激活函数（如 ReLU、sigmoid），引入非线性以学习复杂模式。
W：权重矩阵，包含需优化的参数。
x：输入数据矩阵。
θ：偏置项，允许模型在无输入时产生非零输出。

与深度学习的区别：深度学习模型更复杂，需更多数据和算力；传统机器学习依赖特征工程，而深度学习可自动学习特征；后者在处理大规模复杂数据时表现更佳。

NPU

神经处理单元（Neural Processing Unit）专为优化 AI 任务设计的硬件。相比 CPU 和 GPU，NPU 在执行深度学习算法时效率更高，擅长处理图片、视频等多媒体数据及神经网络的大规模并行计算。

CUDA

CUDA（Compute Unified Device Architecture）是 NVIDIA 开发的并行计算平台。它允许开发者利用 GPU 进行通用计算，提供丰富 API 加速计算密集型应用，不仅是图形渲染的工具。

Torch 与 PyTorch

Torch 是早期使用 Lua 开发的科学计算框架，以动态图、自动求导和张量操作闻名。PyTorch 则是 Facebook 开源的 Python 版本，继承了 Torch 理念但提供了更友好的 API。其动态计算图特性允许运行时灵活定义模型，支持 CPU、GPU 等多种设备，社区生态完善。

微调技术 (FT & SFT)

FT (Fine-Tuning) 指在预训练模型基础上调整权重以适应特定任务。通常保留底层通用特征权重，仅调整最后几层。

SFT (Supervised Fine-Tuning) 即监督微调，流程如下：

预训练：在大规模源数据集上训练'源模型'。
模型复制：创建'目标模型'，复制源模型除输出层外的所有参数。
输出层替换：移除源模型输出层，添加针对目标任务的新输出层并随机初始化。
微调训练：在目标数据集上训练，仅从头训练输出层，其余参数基于源模型微调。

机器学习常见名词与核心概念汇总