机器学习
机器学习是人工智能的重要分支,它让计算机系统能够从数据中自动学习并提升性能,无需显式编程。算法通过统计技术识别数据模式,从而做出预测或决策。
核心特点:
- 数据驱动:模型性能高度依赖输入数据的质量与规模。
- 模式识别:自动发现数据规律,用于预测新样本结果。
- 自适应进化:随着数据积累,模型可不断优化自身表现。
- 算法多样:涵盖监督、无监督、强化学习等多种范式。
典型应用:语音识别、图像分类、推荐系统、自然语言处理及预测分析等场景。
深度学习
作为机器学习的子集,深度学习基于人工神经网络(尤其是深层网络)构建。它模拟人脑机制,通过多层结构学习复杂抽象特征。
关键特性:
- 多层架构:隐藏层允许提取高维抽象表示。
- 自动特征工程:减少手动设计特征的依赖,直接从原始数据学习。
- 大数据需求:通常需要海量数据支撑有效训练。
- 计算密集:依赖 GPU 等高性能硬件加速。
应用场景:智能语音助手、人脸识别、自动驾驶、机器翻译及博弈游戏(如 AlphaGo)。
神经网络基础
理解神经网络需掌握几个核心符号:
- y:预测输出或目标变量。
- f():激活函数(如 ReLU、Sigmoid),引入非线性以增强模型表达能力。
- W:权重矩阵,包含待优化的网络参数。
- x:输入数据矩阵,行代表样本,列代表特征。
- θ:偏置项,确保模型在无输入时也能产生非零输出。
与传统机器学习对比:深度学习在大规模数据和复杂任务上优势明显,且能自动学习特征;传统方法在小数据集或简单问题上可能更轻量高效。
硬件与框架
NPU(神经处理单元)
专为 AI 和神经网络任务设计的硬件。相比 CPU 和 GPU,NPU 在处理大规模并行计算时效率更高,特别适合图片、视频及神经网络推理。
CUDA(统一计算架构)
NVIDIA 推出的并行计算平台,允许开发者利用 GPU 进行通用计算。通过丰富的 API,CUDA 显著加速了计算密集型应用。
Torch 与 PyTorch
- Torch:早期科学计算框架,支持 Lua,以动态图和自动求导著称。
- PyTorch:Facebook 开源的 Python 版本,继承了 Torch 理念但生态更完善。其动态图机制允许运行时灵活调整计算图,适合复杂模型开发。支持 CPU、GPU 及 TPU 等多种设备。
训练与微调策略
FT(Fine-Tuning)与 SFT
微调是在预训练模型基础上,针对特定任务调整权重的过程。
- FT:通常保留底层通用特征权重,仅调整顶层以适应新任务(如分类、NER)。


