大模型在机器视觉行业的落地路径

在大模型火之前，机器视觉是近 5 年来讲 AI、用 AI 最多、最频繁的行业。业内一些公司也靠 AI 赚到了真金白银。

2023 年，GPT 横空出世，海量资金疯狂入场大模型赛道。但和 AI 纠缠了 5 年多的机器视觉行业，对大模型似乎没那么热情。行业很分散，应用很垂直，难通用。中小玩家众多，大模型对中小企业而言就是奢侈品：一年的利润不够买一台 H100（小几百万）。

短期看，大模型对行业的影响有限；但长期看（5-10 年），更聪明、更灵活、更通用的 AI，将给视觉行业带来巨大的变革。

大模型在机器视觉行业的落地路径

大模型的本质

传统的神经网络 AI，仅参考人类大脑，构造了一个机器大脑，但学习过程没法参考人类的学习模式，仅针对少样本或特定样本进行学习。（主要原因，是以前无法高效的输入足够多的有效信息、数据，且运算能力也不够强大）。

近 10 年，随着互联网信息的海量爆发，以及硬件算力的持续增长，使高效获得足够多的有效信息，并进行大量运算成为可能。AI 科学家参考人脑的结构和学习过程，设计并训练神经网络，并获得了不错的结果。基于这种神经网络结构和海量数据学习的 AI，就是大模型。

一个婴儿从出生到 3 岁，眼睛从真实世界获取的影像约 3 亿张—人类大脑的学习过程，就是不断从外界摄入信息—视觉，听觉，触觉，味觉，运动感知等，不断学习，不断提高，从而成为一个'通用'的人。

经过海量学习的人脑，其实就是一个成功的通用大模型。

大模型在机器视觉行业的落地路径

大模型既参考人脑结构，还参考了人脑学习过程。

大模型就像从大学毕业的学生，经过训练，具备了很多通用的技能，掌握了再学习的技巧，再进入陌生领域，只需要学习陌生领域的知识，即可成为一个合格的'打工人'。

GPT，就是世界顶级名校培养出来的学生，最聪明，最好用，最高效。
国内大模型，就是国内各顶级名校培养出来的学生，在国内最聪明、最好用、最高效。

为什么人类会担心大模型诞生出'自我意识'

大模型参考人类大脑结构和学习过程而来。

神经网络有输入层，隐藏层和输出层。其中，隐藏层有很多层，这个层就是深度学习里的'深度'。这个隐藏层也是最让人类担忧的地方—人类知道怎么训练他：不断调整参数和试错，从而获得期望的结果。但人类还无法完全理解隐藏层内部的运作机制。这些模型具有数千亿到上万亿的参数，其复杂性超出了人类直觉的范围。我们只知道 how，不知道 why。

大模型的参数，类比于人类大脑突触信号。GPT-4，据估计有 1.7 万亿个参数，而人类大脑有 100 万亿个突触，当 GPT-n 也有和大脑突触相同数量级的参数时，人工智能是否会产生自我意识？拭目以待。

作为应用者：你需要知道大模型这些特点

大模型可以看作是一种信息压缩工具

大模型是用数学上的高维来处理低维的信息（例如，1 维的文本数据，2 维的图像数据）。低维世界无法解决的海量信息间的关系、逻辑、差异、共性，在更高维度上，可被轻松的提炼、发现、总结和归纳出来。

宏观世界 0 维的点，在微观世界，是 3 维的球。宏观世界 1 维的线，在微观世界，是 3 维的绳。宏观世界 2 维的面，在微观世界，是 3 维的砖。

高维能发现更多的信息：提取共同的特征，发现信息间的关系和连接逻辑等。高维对低维世界的理解，可以说是一种透过现象看本质的能力。通过高维的压缩，低维海量的信息，就被'存储'到大模型里。据估计，一些大模型的信息压缩比，约为 8:1。

大模型在机器视觉行业的落地路径