人工智能、机器学习和深度学习，其实不是一回事

优质文章学习记录

06 Apr 2026 — 8 min read

一、人工智能、机器学习与深度学习的真正区别

在当今科技领域，我们经常听到人工智能、机器学习和深度学习这三个词。它们虽然相关，但含义不同。

1.1 人工智能

人工智能是计算机科学的一个分支，旨在研究如何合成与分析能够像人一样行动的计算主体。简单来说，AI 的目标是利用计算机来模拟甚至替代人类大脑的功能。

一个理想的 AI 系统通常具备以下特征：像人一样思考、像人一样行动、理性地思考与行动。

1.2 机器学习

机器学习是实现人工智能的一种途径。它的核心定义是：赋予计算机在没有被显式编程的情况下进行学习的能力。

与传统的基于规则的编程不同，机器学习不依赖程序员手写每一条逻辑指令，而是通过算法让机器从大量数据中寻找规律，从而对新的数据产生预测或判断。

1.3 深度学习

深度学习是机器学习的一种特殊方法，也称为深度神经网络。它受人类大脑结构的启发，通过设计多层的神经元网络结构，来模拟万事万物的特征表示。

1.4 三者之间的层级关系

厘清这三者的关系对于初学者至关重要。人工智能 AI是最宏大的概念，包含了所有让机器变聪明的技术。机器学习 ML是 AI 的一个子集，是实现 AI 的目前最主流的方法。深度学习 DL又是 ML 的一个子集，是 ML 中利用深层神经网络进行学习的技术流派。

二、机器究竟是如何学习的

为了更好地理解机器学习，我们需要对比传统的解决问题方式与机器学习方式的区别。

2.1 规则驱动的传统编程方式

在传统编程模式下，程序员基本上就是规则的制定者。所有逻辑都要提前想清楚，然后用if-else这样的判断语句一条条写进去。

比如做图像判断时，程序往往只能依赖显式条件去推断结果

识别到轮子而且是圆形 → 可能是车
识别到车窗 → 可能是车
再叠加更多结构特征

问题很快就会暴露出来。

当问题边界清晰时，比如税务计算，这种方式非常高效。但面对复杂场景，例如图像识别或自然语言处理，规则会迅速膨胀。

现实世界没有固定模板。同一个目标在不同光照、角度、遮挡情况下都会发生巨大变化。想靠穷举条件覆盖所有情况，几乎不现实。

规则可以不断增加，但复杂度增长的速度，远远快于系统可维护的程度。

2.2 模型驱动的机器学习方式

机器学习采用的是归纳法。我们不直接编写规则，而是提供大量的历史数据，让机器通过算法去训练一个模型。

案例：房价预测
假设我们有一组房屋面积与销售价格的数据：

123$m^2$ ->250万 150$m^2$ ->320万 ...

我们可以假设房价与面积之间存在线性关系，即模型为 y = a x + b y = ax + b y=ax+b。

$y$ 是房价，$x$ 是面积。 $a$（斜率）和 $b$（截距）是我们需要求解的参数。

机器学习的过程，就是通过历史数据找到最合适的 a a a 和 b b b，使得这条直线尽可能拟合所有数据点。一旦确定了参数，当输入一个新的面积 x x x 时，模型就能预测出房价 y y y。

三、人工智能的发展与现实应用

3.1 机器学习已经渗透的领域

如今，机器学习已经渗透到我们生活的方方面面

用户分析：社交网络画像、商品评论情感分析。搜索引擎：搜索结果排序、以图搜图。推荐系统：抖音/B站的视频推荐、淘宝的商品推荐。计算机视觉：人脸识别闸机、自动驾驶车辆检测、医疗影像诊断。AIGC：机器翻译、ChatGPT文本生成、Midjourney绘图。

3.2 三次浪潮：人工智能的发展阶段

人工智能并非新生事物，其发展经历了三次主要浪潮：

第一阶段（1950-1970年代）：符号主义。以1956年达特茅斯会议提出人工智能术语为起点。代表事件是IBM的跳棋程序战胜人类。
第二阶段（1980-2000年代）：统计主义。统计模型开始解决实际问题。代表事件是1997年IBM深蓝战胜国际象棋冠军卡斯帕罗夫。
第三阶段（2010年至今）：深度学习。随着算力提升，神经网络复兴。2016年AlphaGo战胜李世石是标志性事件。2022年ChatGPT的出现标志着大模型时代的到来。

3.3 AI 爆发背后的三大基础

为什么 AI 在近年来才爆发？因为三大基石的共同作用。

1.数据：互联网时代产生了海量数据，为模型提供了燃料。
2.算法：深度学习算法的突破。
3.算力：硬件的飞跃。

CPU：适合逻辑控制和I/O操作。
GPU：擅长大规模矩阵运算，是训练神经网络的主力。
TPU：Google专门为张量计算设计的处理器。

四、机器学习常见术语

1.样本
一行数据就是一个样本。
它代表现实世界中的一个实体或一条记录。多个样本组成了数据集。

2.特征
数据表中的列（通常是除去最后一列）
特征是从数据中抽取出来的、对预测结果有用的属性信息。

3.标签/目标值
模型要预测的那一列数据。
这是模型学习的最终答案。

4.数据集划分
为了验证模型的有效性，我们不能用所有数据来训练。通常将数据集按比例（如 8:2 或 7:3）划分为两部分：

训练集：用于让模型学习规律，建立模型。
测试集：用于评估模型表现。

最后，当我们把人工智能、机器学习、深度学习放回各自的位置，很多问题其实就变得清晰了。AI 是目标，机器学习是路径，深度学习是其中的一种实现方式。理解层级，比记住名词更重要。

日期：2025年2月24日
专栏：机器学习

Vscode新手必看：GitHub Copilot从安装到实战的5个高效用法

Vscode新手必看：GitHub Copilot从安装到实战的5个高效用法最近和几位刚入行的朋友聊天，发现他们虽然装了Vscode，也听说过GitHub Copilot的大名，但真正用起来的却不多。要么是觉得配置麻烦，要么是打开后只会傻傻地等它自动补全，完全没发挥出这个“AI结对程序员”的威力。这让我想起自己刚开始用Copilot那会儿，也是摸索了好一阵子才找到感觉。今天，我就把自己从安装到深度使用过程中，那些真正提升效率的实战心得整理出来，希望能帮你绕过那些坑，快速把Copilot变成你的开发利器。 GitHub Copilot远不止是一个高级的代码补全工具。当你真正理解它的工作模式，并学会与之高效“对话”时，它能在代码生成、逻辑解释、问题调试乃至学习新框架等多个维度，显著改变你的编程体验。这篇文章不会重复那些官网都有的基础操作，而是聚焦于五个经过实战检验的高效用法，让你从“会用”进阶到“精通”。 1. 环境准备与深度配置：不止是安装插件很多教程把安装Copilot描述为“点一下按钮”那么简单，但要想获得流畅稳定的体验，一些前置准备和深度配置至关重要。这就像给赛车加油

无脑通过github上copilot学生认证的方法(无需校园网，无需学生证)

最近在家尝试通过github上的copilot的学生认证，总是不能过。好在经过了12次尝试后，终于总结了一套无需校园网，无需学生证的目前有效的无脑通过方法，希望能对不方便的同学们有所帮助。（注：本文旨在帮助有需求却因为种种情况难以被识别成功的同学，对非学生人士的认证情况概不负责）一、注册github账号这里就不细说了，想要通过copilot的大部分都有github账号，如果没有的话可以去网上搜一下。二、2FA认证通过认证网址不是本文的重点，在此引用其他博主的内容：从0开始的github学生认证并使用copilot教程（超详细！）_github copilot-ZEEKLOG博客或者一个博客： [Git] 一次搞定：Github 2FA(Two-Factor Authentication/两因素认证) - 千千寰宇 - 博客园特殊情况值得注意的是，我在申请2FA时，发生了一个特殊情况——github上的二维码全是白色，没有显示出来，那就不要扫码，下面有一行字：unable to scan……，直接点里面的setup key链接就好了。三

Whisper-Tiny.en：超轻量英文语音识别，快速精准新体验

Whisper-Tiny.en：超轻量英文语音识别，快速精准新体验【免费下载链接】whisper-tiny.en 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-tiny.en Whisper-Tiny.en作为OpenAI推出的超轻量级英文语音识别模型，以3900万参数规模实现了高效精准的语音转文字能力，为开发者和终端用户带来了兼顾速度与准确性的全新体验。语音识别技术进入轻量化时代随着智能音箱、语音助手、实时字幕等应用的普及，语音识别技术已成为人机交互的核心入口。近年来，大型语音模型在 accuracy 上不断突破，但庞大的参数量和计算需求限制了其在边缘设备和实时场景中的应用。市场调研显示，2023年全球边缘AI市场规模同比增长42%，其中轻量化模型的需求增速超过60%，反映出行业对高效、低资源消耗AI解决方案的迫切需求。在此背景下，模型小型化已成为语音识别技术发展的重要趋势。以Whisper系列为代表的模型通过精心设计的架构和优化策略，在保持高性能的同时大幅降低计算开销，使得原本需要云端支持的语音识别

每日AIGC最新进展(94)：MIT提出实时流式视频生成StreamDiffusionV2、LeCun&李飞飞&谢赛宁联合提出空间超感知Cambrian-S

Diffusion Models专栏文章汇总：入门与实战目录 StreamDiffusionV2 Cambrian-S StreamDiffusionV2 现有视频扩散模型虽在离线生成中表现出色，但难以适应实时直播流媒体的严格要求。具体而言，有以下四大挑战： * 一是无法满足实时SLO（如最小化首帧时间和每帧截止期限）； * 二是长时序生成中出现漂移，导致视觉一致性下降； * 三是在高速动态场景下产生运动撕裂和模糊； * 四是多GPU扩展性差，无法在异构环境中实现线性FPS提升。这些问题源于现有系统对离线批处理优化的偏向，而忽略了在线流媒体的无限输入和低抖动需求。本工作通过系统级优化，填补了这一空白。 StreamDiffusionV2，这是一个无需训练的流式系统，它同时实现了实时的效率和长时序的视觉稳定性。从高层次来看，本工作的设计基于两个关键的优化层面：（1）实时调度与质量控制，它协同整合了服务等级目标（SLO）感知的批处理、自适应的sink与RoPE刷新、以及运动感知的噪声调度，以满足每帧的截止期限，同时维持长时序的时序连贯性和视觉保真度；（2）