大模型在机器视觉行业的落地路径
在大模型火之前,机器视觉是近 5 年来讲 AI、用 AI 最多且最频繁的行业。业内一些公司也靠 AI 赚到了真金白银。2023 年,GPT 横空出世,海量资金疯狂入场大模型赛道。但和 AI 纠缠了 5 年多的机器视觉行业,对大模型似乎没那么热情。
探讨了大模型在机器视觉行业的落地路径。文章分析了大模型与传统 AI 的区别,指出大模型具有高泛化能力和少样本学习能力,但也面临成本高、需二次训练的挑战。内容涵盖了大模型本质、垂直领域应用策略、模型小型化技术、算力服务模式以及具身智能在机器人领域的应用。同时补充了数据隐私、边缘计算部署及模型迭代机制等技术细节,总结了行业面临的机遇与未来发展趋势。

在大模型火之前,机器视觉是近 5 年来讲 AI、用 AI 最多且最频繁的行业。业内一些公司也靠 AI 赚到了真金白银。2023 年,GPT 横空出世,海量资金疯狂入场大模型赛道。但和 AI 纠缠了 5 年多的机器视觉行业,对大模型似乎没那么热情。
行业很分散,应用很垂直,难通用。中小玩家众多,大模型对中小企业而言,就是奢侈品:一年的利润不够买一台 H100(小几百万)。短期看,大模型对行业的影响有限;但长期看(5-10 年),更聪明、更灵活、更通用的 AI,将给视觉行业带来巨大的变革。
传统的神经网络 AI,仅参考人类大脑,构造了一个机器大脑,但学习过程没法参考人类的学习模式,仅针对少样本或特定样本进行学习。主要原因,是以前无法高效的输入足够多的有效信息、数据,且运算能力也不够强大。
近 10 年,随着互联网信息的海量爆发,以及硬件算力的持续增长,使高效获得足够多的有效信息,并进行大量运算成为可能。AI 科学家参考人脑的结构和学习过程,设计并训练神经网络,并获得了不错的结果。基于这种神经网络结构和海量数据学习的 AI,就是大模型。
一个婴儿从出生到 3 岁,眼睛从真实世界获取的影像约 3 亿张。人类大脑的学习过程,就是不断从外界摄入信息——视觉、听觉、触觉、味觉、运动感知等,不断学习,不断提高,从而成为一个'通用'的人。经过海量学习的人脑,其实就是一个成功的通用大模型。
大模型既参考人脑结构,还参考了人脑学习过程。大模型就像从大学毕业的学生,经过训练,具备了很多通用的技能,掌握了再学习的技巧,再进入陌生领域,只需要学习陌生领域的知识,即可成为一个合格的'打工人'。
大模型参考人类大脑结构和学习过程而来。神经网络有输入层、隐藏层和输出层。其中,隐藏层有很多层,这个层就是深度学习里的'深度'。这个隐藏层也是最让人类担忧的地方——人类知道怎么训练它:不断调整参数和试错,从而获得期望的结果。但人类还无法完全理解隐藏层内部的运作机制。
这些模型具有数千亿到上万亿的参数,其复杂性超出了人类直觉的范围。我们只知道 how,不知道 why。大模型的参数类比于人类大脑突触信号。GPT-4 据估计有 1.7 万亿个参数,而人类大脑有 100 万亿个突触。当 GPT-n 也有和大脑突触相同数量级的参数时,人工智能是否会产生自我意识?拭目以待。
大模型是用数学上的高维来处理低维的信息(例如,1 维的文本数据,2 维的图像数据)。低维世界无法解决的海量信息间的关系、逻辑、差异、共性,在更高维度上,可被轻松的提炼、发现、总结和归纳出来。
宏观世界 0 维的点,在微观世界是 3 维的球;宏观世界 1 维的线,在微观世界是 3 维的绳;宏观世界 2 维的面,在微观世界是 3 维的砖。高维能发现更多的信息:提取共同的特征,发现信息间的关系和连接逻辑等。高维对低维世界的理解,可以说是一种透过现象看本质的能力。通过高维的压缩,低维海量的信息,就被'存储'到大模型里。据估计,一些大模型的信息压缩比约为 8:1。
大模型要应用到视觉行业的细分领域、垂直应用,是需要针对该领域进行有针对性的学习和训练(喂应用数据和调参)——就像一个外行的人进入视觉行业,也需要先学习:了解行业的特点、客户的需求、产品的功能等。再好的大模型,没有学过对应的知识,在陌生领域也是小白。男怕干错行,女怕嫁错郎,大模型怕没有二次学习的直接使用。
与传统的也需要样本训练的 AI 相比,大模型有什么优势和不同?简单说来,就是大模型比传统 AI 更高、更快、更强、更灵活。
同样的应用:
越通用的大模型,其训练和使用所需要的资源也越多。对于一个垂直应用而言,把一个训练好的大模型不做裁剪拿来就用,会导致超高的成本、效用也很低。幸好,一个训练好的大模型是可以裁剪的。这就是目前行业里所说的大模型小型化,或小的大模型。
以驾驶和做菜技能为例来说明。驾驶和做菜,二者都需要具备对手的控制能力,但驾驶不需要知道什么是鸡蛋,什么是西红柿;做菜不需要识别红绿灯。
越细分、越垂直的应用,其大模型越能小型化,低成本化。目前,业界已经有嵌入式的小的大模型方案面世,就是针对机器视觉这类碎片、垂直类应用。
对中小企业而言,成本是大模型能否用起来的核心考量因素。中小企业不需要自己训练通用的大模型,但需要基于行业数据,在某类大模型上,训练行业专精大(小)模型。基于垂直应用复杂度的不同,可以有多种模式选择:
就目前的大模型进展而言,大模型是不能升级的,只能替换。大模型是基于海量数据训练,对神经网络的'神秘'改造而来。AI 科学家都还弄不清大模型的机制,何谈升级呢?对于垂直应用而言,基于 1.0 版本大模型训练出来的专用模型 1.1,可以在 1.1 基础上继续训练、调参,获得更优的 1.2, 1.3 等版本。但如果要将可能更好的 2.0 版本大模型用于垂直应用上,以达到更好的效果,则需要在 2.0 版本大模型上,重新训练一遍,获得专用模型 2.1、2.2。
不同代际大模型不能升级,不能 OTA,只能替换和重新训练,是大模型落地所必须面对的一个挑战。
在机器视觉落地过程中,数据隐私是一个不可忽视的问题。企业往往拥有敏感的生产数据或用户图像数据。在使用公有云大模型服务时,需确保数据脱敏处理。私有化部署虽然安全,但对算力要求极高。未来趋势将是混合云架构,敏感数据本地处理,非敏感数据云端推理。
机器视觉很多场景对延迟极其敏感,如自动驾驶、工业质检。云端推理的网络延迟无法满足实时性要求。因此,模型轻量化至关重要。常见的技术包括剪枝(Pruning)、量化(Quantization,如 INT8/FP16)、知识蒸馏(Knowledge Distillation)。通过将大模型的知识迁移到小模型中,实现在嵌入式设备或边缘网关上的运行。
像人一样能与环境交互感知,自主规划、决策、行动、执行能力的机器人,可称之为'具身智能机器人'。它的实现包含了人工智能领域内诸多的技术,例如计算机视觉、自然语言处理、机器人学等。用通俗点的话来说,具身智能,就是通用机器人。
机器人和机器视觉是 2 个交叉的行业,视觉系统为机器人提供基础的感知,机器人大脑基于感知,控制机器人完成各类动作。大模型出现以前的机器人方向,重点放在了运动控制,波士顿动力的机器狗是其极致代表。但因为对外部世界的感知和处理不够智能和灵活,机器狗的商用落地进展缓慢。机器人行业主要还是聚焦在各个细分领域,让机器人执行比较单一的任务和动作,可快速商用落地。
大模型出来后,业界看到了机器人具备'通用智能'的可能。机器人拥有一个聪明的大脑,能够听懂人类语言,然后分解任务,规划子任务,移动中识别物体,与环境交互,最终完成相应任务。国外有机构用三个大模型(视觉导航模型、大型语言模型、视觉语言模型)教会了机器人在不看地图的情况下按照语言指令到达目的地。
Tesla 和 Agility 的人形机器人都是具身智能的探索方向——在限定场景下的具身智能,已经有较大希望商用落地。
大模型为机器视觉行业带来了新的范式。从传统的监督学习到预训练 + 微调,再到零样本推理,技术门槛正在降低,但算力成本和工程化落地的复杂度在上升。未来的竞争将集中在谁能更高效地利用数据,谁能更好地平衡性能与成本,以及谁能将大模型的能力无缝集成到现有的工业流程中。
对于从业者而言,理解大模型的本质不仅仅是调用 API,更需要掌握数据清洗、提示词工程、模型微调以及部署优化的全流程能力。随着硬件算力的进一步普及和算法的持续优化,大模型在机器视觉领域的渗透率将显著提升,推动行业向智能化、自动化迈进。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online