在开源大模型LLaMA 2会扮演类似Android的角色么?一文中曾经提到:大模型落地的方式是系统型超级应用。但系统型超级应用有点像被杜撰出来的一个词,所以这次从AI Agent的角度来更加具体的描述下它。AI Agent非常关键,没有它我们就无法扩展大模型的应用边界,无法扩展边界我们就无法完成大模型的成功商业化,无法成功商业化AI可能就会再亏损十年。人工智能如果仅止于现在看到的内容生成等几项应用,就还是单薄的。能不能把价值传递到更多的场景,核心就看AI Agent,所以我们说AI Agent是大模型与场景间价值传递的桥梁。
大模型是瓮中之脑
(资料图片仅供参考)
假如把人的脑子放到一个充满营养液的罐子里,让它活下来,那这时候它可以有一个超级真实的虚幻世界,但却不再能干涉现实。这是《黑客帝国》,《源代码》这类电影很关键的一个预设。
现在的大模型就有点这意思。
它有一定智力并且拥有大量知识,但除了内容生成这类通用能力,在别的领域还不清楚它到底能干什么?经济体系的主要部分是需要干涉现实的,所以大模型的这种智力优势就需要一个管道,让它流淌出去和各个领域相结合,然后才才能真正创造更大的经济价值。
而真要和某个具体领域结合,孤立的大模型是不够的,它既不知道这领域过去发生了什么,也不知道正在发生什么,甚至不知道自己要服务的对象是谁...
大模型内置的几个常用的功能,相当于把领域相关的部分放到了模型的内部,比如内容生成,编写代码等。问题是现实世界的主要领域并不是这种孤立场景,而是和现实要进行实时结合,所以根本放不到大模型里面去。
我们可以把日常要处理的场景做个分类:
一类是孤立的,断续的场景。不管什么时候只要给个要求,它就给你一个特定输出,和时空内其它要素依赖不大,甚至地球毁不毁灭都和这个任务完成没啥关系,比如:编程、下围棋、内容生成等。这部分其实很适合大模型内置。有点像井打完了,什么时候用水,打一桶就得了。
一类则是连续的,和周围环境的变化镶嵌在一起的的场景。这时候你如果不知道环境、历史累积和前置条件,不管你智商怎么样,你啥都干不了。就好比工厂流水线在生产,突然扔一个博士过去,其实啥用也不顶。这有点像用水渠给水田灌水,水源通路都得整好,最终才有水。这部分没法放大模型内部。
我们绝大多数场景,都是后一个,不管是外卖、打车、企业经营等,所以才有个说法叫世界万事万物是普遍关联的。这也是过去的所谓专家系统,用用就挂了的核心原因。
瓮中之脑解决前一个场景下的问题相对容易,最傻的方法就是定期升级一下,但单独的瓮中之脑解决不了后一个场景里的问题。现实里面,解决不了后一个问题就解决不了核心场景,解决不了核心场景就很可能再亏10年。
后一种场景的解决与否的关键在于AI Agent,所以我们说AI Agent是大模型与场景间价值传递的桥梁
AI Agent即系统型超级应用
AI Agent概念太新,资料太少,下面这张图是OpenAI Lilian Wen个人博客上发的一张图,被四处张贴。
就像人工智能这样的概念也得被反复打磨才能相对精准一点。这图能说明AI Agent的一些关键点,但也有相当的误导性。Agent的边界画窄了,内外要素被混杂在一起了。也不适合用Tools来囊括所有外部的工具依赖。对情境的感知以及据此的行动用工具囊括就混淆了它们的差别。
下面这种总括的图更容易看出来Agent的角色(和上面Lilian Wen那个Agent定义已经不一样的),但却又错过了关键要素,比如感知和行动到底是个啥。
这类描述再加上AutoGPT这些开源项目提供的各种接口定义,对于不是做这个的人很容易就把AI Agent理解成又一项纯粹的技术,但其实并不是。从技术的角度看真要这类Agent是需要对领域、对环境建模,因此一部分是新技术,但更关键的是从应用上看,它要在一个场景下彻底搞定一个业务,它的含义和滴滴、美团外卖APP是一样的。(反映的正好是桥的属性,两头看风景是不一样的)
那我们到底应该怎么理解AI Agent和它的特征呢?
第一,可以重用通行定义,基于感知进行智能判断并采取行动。(陆奇的大模型世界观说的也是这个)
Faiza Waseem,What is agent in ai ! Types of agents in artificial intelligence
为达成这目的需要和IoT、现有各种系统做深度结合,不可能是Lilian Wen上面那图里的简单工具的概念。而感知范围大小事实上也定义了AI Agent的范围。
比如招聘场景要感知的就是公司最终需求岗位的描述和招聘平台上的候选人,行动则是要能与候选人沟通,能办理入职等。
比如中央空调的场景感知的就是气候、用量、当前温度等,行动则是空调温度控制等。
第二,要有价值序列的初始化。
这不是感知问题,比如什么是对的,什么是错的,在关键冲突的时候那个更重要等,比如还是中央空调的场景,用电量是不是可以无限飙升,还是说到某个限度就必须停下来,再比如招聘的时候对一场危机的看法等。
这不是感知,而是原则,是绝对必须的输入,但似乎很少被提及。
第三,三个核心输入输出上都要接受变化。
这是产品化带来的衍生要求。
感知和行动的风格肯定要根据不同的公司要有微调,比如同样是招聘的Agent,不可能期望用感知、行动和价值序列都固定的产品解决所有公司的问题。这种需求最终必会导致应用商店和标准化的API接口。只有这样才能把大模型的通用能力投射出来。否则就有点像子弹是圆形,但枪管是方形的,互相耽误。
第四,算法会是一组算法的组合。不可能就是大模型,其它模式识别类的算法估计一个也少不了。并且这些算法要集中提供。这就会导致大模型、其它算法、领域模型、记忆、规划能力形成一套新的内核。这种内核要有通用性,否则一个是不匹配大模型的通用能力,一个是你也没法真的产品化并给人用。
大模型能力已经通用化了,再配上通用的结构,这种通用能力就能够彻底发挥,相当于给瓮中之脑加了一个终结者的身体。
把这些要素都体现出来AI Agent典型结构会这样:
这图是我原创,不一定对,转载著名出处。
这是什么呢?
这就是系统型超级应用,所以说AI Agent即系统型超级应用。
它解决具体问题所以是个应用,但具有通用性,而达成通用性的手段其实和过去的操作系统非常类似,并且以大模型为根基。
那这种Agent会有几种?
从西部世界类的元宇宙Agent到具身智能全是Agent。
Agent会有很多种,但可以细分。
最基础的和来的最快的应该是纯数字,无场景或者场景极为单薄的AI Agent。
统一用个词就是元宇宙型的Agent,谷歌和斯坦福要干的现实版西部世界就是这类。如果放在游戏里就是元宇宙里的智能NPC。这类Agent最大的建设性在于给元宇宙注入生气,最大的破坏性则在于对上古社区的影响可能不咋正向,包括抖音。
第二种Agent则要与现实场景结合,可能是纯粹数字的,也可能不是。比如招聘、营销、空调管理、运维状态监控等。
第三种则是具身机器人。和上一种的区别是,这种完全控制自己的一套外设,上一个则更多的是一种粘合。
这三类都会解决连续运转场景问题,只不过后两个在现实世界使劲,第一个在虚拟世界使劲。
上面这个排序也就是我理解的发生顺序,AI Agent如果有浪潮,那很可能是这么一个递进次序。
大模型和AI Agent的关系
简单形容这就是发动机和汽车的关系。
大模型很关键,没有大模型就不可能打造AI Agent。可就像虽然没有发动机就没有汽车,但发动机成本也就占汽车的不到五分之一。
同时,外面很可能需要有一个专门针对领域的模型,否则Planning工作没法做。即使基于记忆和感知,如果这地儿没有一个模型和通用大模型进行交互而是固定很多规则,那这次大模型的通用能力就被阻塞了。
所以、垂域大模型,很可能是双模型结构(多模型)。
双模型(多模型)结构再加上系统架构有可能是未来AI Agent的典型技术特征。
AI Agent的价值创造机制和潜在商业模式
AI Agent的衡量标准不是单维度的技术指标,而是综合场景的覆盖度和完成度。得能完成下面这类活,AI Agent才真算做好了,不要去参加考试比赛什么的了:
1. 给你个企业和启动资金么,你能把钱赚回来么?(终极)
2. 给你个机房,你能够最优化成本来运营他么?
3. 给你招聘需求,招聘平台账号,你能把人招来入职么?
4. 给你个视频号,你能够把它运作成个大号么?
下面跑远一点,AI Agent普及后,会有什么样的冲击?
Agent化后,会怎么样?
很多事会非常不一样。
第一这是一个依赖倒置的世界。现实更关键,但把手在数字空间。
第二反身性等数字类特征会越来越明显。
第三现有经济体系估计会无法维持。那时候有足够的能力构建一种边际效能更高的体系,但具体什么样,我们还不知道。从这个角度确实需要智能经济学。大师们比较严谨,估计不愿意写,那天我肯定瞎写一个。
第三文化会和现在不一样。一个人只解决人和人关系的社会和一个同时需要考虑人和AI Agent关系的社会,文化怎么可能一样!
在这样的一个世界里分配会比生产关键,分配决定了生产的内容和生产是否可以持续。
小结
AI Agent的话题有趣之处在于:没有它就又卡住了,人工智能会再磨叽很长时间。但如果它真的被跨过了,但很多问题就只能回到原点,然后单开一条时间线才能找到答案。如果非把AI从业者分层,那一层是干大模型的,相当于干发动机的;一层则是干汽车的,就是干AI Agent的。在过去大部分汽车厂商规模是比发动机厂商还大的,这次不知道会如何。