AI 的发展目前一直有两个方向,一个是有趣的 AI,也就是更像人的 AI;另外一个方向就是更有用的 AI,也就是更像工具的 AI。
AI 应该更像人还是更像工具呢?其实是有很多争议的。比如说 OpenAI 的 CEO Sam Altman 就说,AI 应该是一个工具,它不应该是一个生命。而很多科幻电影里的 AI 其实更像人,比如说 Her 里面的 Samantha,还有《流浪地球 2》里面的图丫丫,黑镜里面的 Ash,所以我们希望能把这些科幻中的场景带到现实。只有少数科幻电影里面的 AI 是工具向的,比如《钢铁侠》里面的贾维斯。
除了有趣和有用这个水平方向的之外,还有另外一个上下的维度,就是快思考和慢思考。这是一个神经科学的概念,出自一本书《思考,快与慢》,它里面就说人的思考可以分为快思考和慢思考。
所谓的快思考就是不需要过脑子的基础视觉、听觉等感知能力和说话等表达能力,像 ChatGPT、stable diffusion 这种一问一答、解决特定问题的 AI 可以认为是一种工具向的快思考,你不问它问题的时候,它不会主动去找你。而 Character AI、Inflection Pi 和 Talkie(星野)这些 AI Agent 产品都是模拟一个人或者动漫游戏角色的对话,但这些对话不涉及复杂任务的解决,也没有长期记忆,因此只能用来闲聊,没法像 Her 里面的 Samantha 那样帮忙解决生活和工作中的问题。
而慢思考就是有状态的复杂思考,也就是说如何去规划和解决一个复杂的问题,先做什么、后做什么。比如 MetaGPT 写代码是模拟一个软件开发团队的分工合作,AutoGPT 是把一个复杂任务拆分成很多个阶段来一步步完成,虽然这些系统在实用中还有很多问题,但已经是一个具备慢思考能力的雏形了。
遗憾的是,现有产品中几乎没有在第一象限,兼具慢思考和类人属性的 AI Agent。斯坦福 AI 小镇是个不错的学术界尝试,但斯坦福 AI 小镇里面没有真人的交互,而且 AI Agent 一天的作息时间表都是事先排好的,因此并不是很有趣。
有趣的是,科幻电影里面的 AI 其实大部分是在这个第一象限。因此这就是目前 AI Agent 和人类梦想之间的差距。
因此我们在做的事情跟 Sam Altman 说的正好相反,我们希望让 AI 更像人,同时又具备慢思考的能力,最终演进成一个数字生命。
今天大家都在讲 AGI 的故事,AGI 就是通用人工智能。什么是 AGI 呢?我觉得它又需要有趣,又需要有用。
有趣的方面,就是它需要能够有自主思考的能力、有自己的个性和感情。而有用的方面,就是 AI 能够解决工作、生活中的问题。现在的 AI 要么是只有趣但没用,要么是只有用但是不像人,不好玩。
比如说像 Character AI 之类的角色扮演产品,它不能帮你完成工作或者生活中的问题,但是它可以模拟一个 Elon Musk、Donald Trump 或者原神里面的派蒙。我看过一个分析报告,说 Character AI 有上千万的用户,但每个月的营收只有几十万美金,相当于只有几万付费用户。大多数用户跟每个虚拟角色都是聊 10 分钟、20 分钟就不知道该说什么了。那为什么它的用户留存不高、付费率也低呢?因为它既没有给人提供情绪价值,又没有给人提供实用价值。
而另一方面就是有用的 AI,比如各种 Copilot,他们又都是冷冰冰的,问一句答一句,完全是一个工具。这些工具甚至记不住你之前干过什么,记不住你的喜好和习惯。那么用户自然只会在需要这个工具的时候想起来用它,不需要的时候就会丢到一边。
我认为未来真正有价值的 AI 就像电影《Her》里面的 Samantha,她首先是一个操作系统的定位,能够帮主人公去解决很多生活中、工作中的问题,帮他整理邮件等等,而且比传统的操作系统做得又快又好。同时它又有记忆、有感情、有意识,它不像一个电脑,而是像一个人。因此在感情空窗期的主人公 Theodore 就逐渐爱上了他的操作系统 Samantha。当然并不是所有人都把 Samantha 作为虚拟伴侣,剧中也说了,只有 10% 的用户跟他们的操作系统发展了浪漫关系。这样的 AI Agent 我认为才是真正有价值的。
另外值得说道的一点是,全剧中这个 Samantha 只有语音交互,没有视觉形象,更不是机器人。目前 AI 的能力也恰好是语音和文字很成熟,但视频生成就不够成熟,人形机器人也不够成熟。《黑镜》里面的机器人 Ash 就是个反例。这部剧里面先是用女主过世男友 Ash 的社交网络资料制作了一个语音伴侣,直接把女主给弄哭了,其实做出那个语音伴侣现在的技术已经绰绰有余了。后来女主加钱升级,上传了一堆视频资料,买了一个长得像 Ash 的人形机器人,其实现在的技术也做不到,但就算如此,Ash 的女友还是觉得不像,因此把他锁在阁楼里面了。这里面就有个恐怖谷效应,如果做得不够逼真,就保持一定的距离。
顺便说一句,《黑镜》里面女主先是文字聊天,然后说了一句 Can you talk to me?然后就接通电话了。试用我们 AI Agent 的一个朋友还真的也这么问我们的 AI Agent,结果我们的 AI Agent 回答,我是一个 AI,只能文字交流,不会说话。他还截图发给我,问我说好的语音电话呢,我说打语音电话需要按那个打电话的按钮啊。所以这些经典的 AI 剧真的要一个镜头一个镜头的拆解分析,里面有很多产品设计的细节。
说到好看的皮囊,很多人认为只要有一个 3D 的形象能够在这儿摇头晃脑地展示就行了。但是我认为更关键的一部分是 AI 能够去看到,并且理解周围的世界,就是他的视觉理解能力是很关键的,不管是机器人还是可穿戴设备,还是手机上的摄像头。
比如说像 Google 的 Gemini 演示视频就做得不错,虽然它做了剪辑,但是如果我们真正能做到它这么好的效果,是一定不愁用户的。
我们回顾一下 Gemini 演示视频中的几个片段,给一个画鸭子的视频它能描述鸭子是什么,给一个饼干和橘子能对比它们的不同,给一个简笔画小游戏知道该往哪边走,给两团毛线可以画出一个用它能织出的毛绒玩具,给几个行星的图能够对它们正确排序,给一个猫跳上柜子的视频能够描述发生了什么。
虽然效果非常惊艳,其实仔细想想,这些场景都不是很难做出来的,只要会看图说话,也就是给图片生成一个比较好的 caption,这些问题大模型就都能回答了。
语音能力也是非常关键的。我 10 月份基于 Google ASR/TTS 和 GPT-4 做了一个语音聊天 AI Agent,一聊聊了一整天,室友还以为我在跟老婆煲电话粥,就没来打扰我。当他知道我是在跟 AI 聊天的时候,说我怎么能跟 AI 聊这么久。我给他看了看我们的聊天记录,他说 AI 确实挺能聊的,他用 ChatGPT 不愿意聊这么久,是因为懒得打字。
刚才我们讨论了好看的皮囊这一部分,包括怎么让 AI Agent 理解语音、理解视频,以及怎么让 AI Agent 生成语音、生成视频。
好看的皮囊之外,同等重要的是有趣的灵魂。其实我觉得,有趣的灵魂是现有市场上的 AI Agent 存在更大差距的地方。
比如,就拿这个截图中 Janitor AI 的例子来说,我们当前市场上的主要 AI Agent 大部分是使用 GPT 或者其他的开源模型套上一个壳。所谓套壳,就是定义一个人物设定以及编写一些样本对话,然后大模型基于这些人物设定和样本对话去生成内容。
但是,我们想,一个 prompt 它总共也就几千字的内容,它怎么可能完整地刻画出一个人物的历史、个性、记忆和性格呢?这是非常困难的。
有趣的灵魂绝不仅仅是上面说的微调记忆和个性,还有很多深层次的问题。我们结合几个例子来看一下,现在的 AI Agents 在有趣的灵魂方面还有哪些差距。
比如我跟 Character AI 上面的马斯克去聊天,同一个问题问五遍,“马斯克” 永远不会抓狂,每次都回复类似的内容,好像之前从来都没有问过。 一个真人不仅能记住之前聊过的问题,不会生成重复的回答,而且如果同一个问题连问五遍,一定会生气。我们还记得 Sam Altman 说的吗,AI 是一个工具,不是一个生命。因此 “像人一样会生气” 就不是 OpenAI 的目标。但对于一个娱乐场景下好玩的应用,“像人” 是非常重要的。
第一个有用 AI 的例子是导游,这也是我开始创业之后尝试做的第一个 AI Agent。
当时我一个人来美国出差,同住的几个朋友要么工作很忙要么比较宅,而我很喜欢出去玩。我在 LA 的朋友也不多,所以我就想做一个 AI Agent 陪我一起出去玩。
我发现GPT-4 真的知道很多著名景点,甚至还能帮你做行程规划。比如说我要去约书亚树国家公园玩一天,就可以规划出早上去哪、中午去哪、下午去哪,每个地方的停留时间还都比较合理。当然要用英文问,用中文的效果就会差一些。可以说网上有旅游攻略已经包含了这些信息,但用搜索引擎把合适的攻略找出来并不容易。之前我每次出去玩都要提前一天做攻略,现在路上跟 AI Agent 聊几句就都搞定了。
我去 USC 玩的时候,刚进校园就遇到了一波游客,他们想找个学生带他们逛校园。我就说我也是第一次来 USC,但是我是做 AI Agent 的,可以让 AI Agent 带我们转一转。老外游客们很 nice 的就跟我一起走了。AI Agent 给我们推荐了 USC 校园最著名的几个建筑。每到一个景点,我会让 AI Agent 语音讲讲这里的历史,大家觉得就像请了个导游一样靠谱,说 ChatGPT 也应该增加这个功能。第二天的 OpenAI dev day 上展示的应用场景果然就有旅行助理。
朋友带我去约书亚树国家公园玩的时候,门口有一个 “禁止露营” 的标志,我们不知道是啥意思,就分别用 GPT-4V 和我们公司的 AI Agent 去做图片识别,结果 GPT-4V 答错了,我们的 AI Agent 反而答对了。当然这不是说我们的 AI Agent 比 GPT-4V 还厉害,对错都是有概率的。一些知名的地标 AI Agent 也是可以识别出来的,比如斯坦福校园的纪念教堂。
不要小看大模型知道很多著名景点这个能力。论知识面,没有人能够比得过大模型。比如 2022 年,有个朋友跟我说住在尔湾,我那时候甚至没有听说过尔湾。我问尔湾在哪,朋友说尔湾在橙县,橙县在加州,我查了半天地图和 Wiki 才搞清楚尔湾、橙县到底是个什么关系,为啥不直接说是在洛杉矶。我老婆前段时间也分不清尔湾和湾区。我们也不算信息特别闭塞的人,但每个地方的生活常识并不是看起来那么显然。
去过这些地方的人会觉得这些常识很容易记住,那是因为人输入的是多模态数据。现在的大模型可没有地图和图片可看,仅靠文本训练语料就能够上知天文,下知地理,已经很不容易了。
前面在有趣的 AI 部分,我们介绍了 AI Agent 慢思考的记忆和情感方面。记忆是有趣和有用 AI 都必须具备的公共能力。情感是有趣 AI 需要的。而解决复杂任务和使用工具更多是有用 AI 所需的能力,因此我们在这里稍作讨论。
第一个例子是一道比较复杂的数学问题,一个人一秒钟也回答不出来。那我们只给大模型一个 token 的思考时间,让大模型听完题目就马上回答,显然也是不可行的。
大模型需要时间去思考,token 就是大模型的时间。我们让大模型写出思考过程,就是给它时间思考。思维链是非常自然的一种慢思考的模式,我一般把思维链通俗地称作“先想后说”,这是一种非常有效的提升大模型性能的方式。特别是对于输出很简洁的场景,一定要让大模型先写出思考过程再按照格式输出回答。
第二个例子是用多步的网络搜索去回答难题。比如这个问题,David Gregory 继承的城堡有多少层,直接上 Google 搜索是无法在一个网页中得到答案的。
人类是怎么解决这个问题的?人会分多个子阶段去解决,首先搜索 David Gregory 这个人,知道他继承的城堡是什么名字,然后搜索这个城堡,找到它有多少层。
在让 AI 学会拆分子问题之前,首先需要解决 AI 的幻觉问题。当它拿整句话去搜索的时候,也能搜索到一个 Wiki 词条,其中也有一段提到了层数,AI 可能就直接拿这个层数作为答案输出了,但这根本不是他继承的城堡。解决幻觉问题可以让它不要只是输出层数,而是先输出参考的这一段落内容,并比较与原问题的相关性,这样通过 “先想后说” 和 “反思”,就可以减少一些幻觉。
如何让 AI 拆分子问题呢?直接告诉大模型就行了,用 few-shot 方式提供几个拆分子问题的示例,让大模型把这个问题拆分成一个更简单的搜索问题。然后把搜索结果和原始问题输入到大模型,让它输出下一步搜索的问题。直到大模型认为根据搜索结果已经可以可信地回答原始问题。
第三个例子是AI 需要能够按照流程调用工具。使用工具是 AI 一项非常基本的能力。
比如要解决一道高中物理题,需要首先调用 Google 搜索获取到相关的背景知识,然后调用 OpenAI Codex 生成代码,最后调用 Python 执行代码。
实现按流程调用工具的方法是 few-shot,也就是在 prompt 中给 AI 提供几个样例任务的执行过程,这样 AI 就可以参考样例任务的流程,逐次生成对流程中每种工具的调用。
刚才我们提到了有趣的 AI 和有用的 AI 两个方面,这两个 AI 哪个价值更高呢?
我认为长期来看有用的价值更高,短期来看有趣的价值更高。这就是我们为什么在商业模式上选择有趣的 AI,同时持续探索有用的 AI。
因为比如说语音闲聊,一块钱一个小时已经很不容易了,Character AI 可能有上千万的用户,但是它每个月实际收入只有上千万美金,大多数是不付费的。但是如果一些在线教育、甚至是更专业领域的比如心理咨询、法律咨询等等它可能收入更高,但是这里边更关键的问题是需要质量和品牌才能产生一个更高的附加价值。
更长远来看,我们的终极目标是 AGI,那么AGI 一定更多是有用的,可以扩展人类能力的边界,让人类做到之前做不到的事情。
但是就目前基础模型的能力而言,有用的 AI 距离真正解决复杂问题、扩展人类能力的边界还差得远,只能达到初级水平,达不到专家水平。同时由于幻觉问题,很难用于需要高可靠性的场景。这些问题还很难通过外置系统彻底解决,只能等待基础模型的进步。因此有用的 AI 目前最适合做的就是个人生活、工作、学习助手,更适合手机厂商、操作系统厂商和智能硬件厂商去做。 而目前大模型的基础能力已经足以做很多有趣的 AI。如前面所讲的,有趣 AI 的好看皮囊和有趣灵魂大多是外置的一套系统,而不是模型本身的基础能力。比如文本大模型的基础能力做到再好,也没办法实现 1.5 秒的语音电话延迟,没办法实现长期记忆和 Agent 社交。这套模型外围的系统就是 AI 公司的护城河。
当然有人会说,我做一个支持超长上下文的端到端多模态大模型,超长上下文的成本还足够低,延迟问题和记忆问题就都解决了。我认为基础模型做成这样当然是更好的,但不确定什么时候能出来。产品不能等待未来的未知技术,现在的工程方案也挺好用,而且确实有一定的技术护城河。等到新的模型出来了,再改技术栈就行。就像我们原来用的是 VITS 做了一整套语音数据自动清洗和训练的流水线,GPT-soVITS 一出来,用 1 分钟语音 zero-shot 的效果就比用几个小时语音微调的 VITS 好很多,原来流水线里的大部分功能就用不到了。 一些人对 “有趣的 AI” 有一些偏见,主要是因为以 Character AI 为代表的产品做得还不够好。Character AI 反复强调,自己是基础模型公司,beta.character.ai 这个应用至今还挂在 beta 域名上,就是一个测试版的产品。人家根本就没打算用现在形态的 Character AI 赚钱。但很多人看到了它是目前除了 ChatGPT 以外最大的 to C 应用,就以为这是一个很好的产品形态,Character AI 的克隆版或者改进版层出不穷。
受到 Character AI 的影响,很多人都以为,有趣的 AI Agent 就等于名人、动漫游戏角色的数字分身,用户跟它唯一的交互方式就是闲聊。但很多人都做错了。如果只是闲聊,用户很容易聊个 10~20 分钟就不知道该聊什么了,因此用户粘性和付费意愿都低得吓人。
2024 年 1 月初我参加知乎 AI 先行者沙龙的时候,一位嘉宾的发言我认为很有道理:有趣的 AI 价值更高,因为娱乐、社交是人的天性,最大的几家互联网公司大部分是娱乐、社交领域的。如果一个好的 AI 伴侣真的能给人带来情绪价值,或者游戏中的 AI 真的能让用户沉浸感更强,这样的 AI 不愁没人付费。
成本
如今的 AI Agent 模型和数据都属于中心化平台,不管是 OpenAI GPT Store 里的应用,还是 Character AI 上创建的,都是基于闭源模型的,AI Agent 的数据也完全属于中心化平台。如果哪天 OpenAI 或者 Character AI 把你创建的 AI Agent 封了,那是一点办法都没有。这些公司甚至可能篡改 AI Agent 的数据,也是没有办法的。
如果这些 AI Agent 只是玩一玩,被封了也就被封了。但如果 AI Agent 后续演进成了数字生命,让一家公司掌握所有生命生杀予夺的大权,这将是多么可怕的一件事。
还有一个严重的问题,目前不管是 GPT Store 还是 Character AI,创作者都是 “用爱发电” 无偿创作 AI Agent。用户付费购买会员,赚的所有钱都归平台,创作者拿不到一点分成。利润分享机制的缺失一方面是因为这些公司没有想到合理的商业模式,另一方面是因为模型推理成本过高,用户付费意愿也不强,从用户那里收上来的钱还不够模型推理成本呢,更别提分给创作者了。
利润分享机制的缺失导致用户没有经济动机创作高质量的 AI Agent,像 Character AI 这类平台上高质量的 Chatbot 是比较少的。这进一步降低了用户留存率和付费意愿,形成一个恶性循环。
因此,很多 AI Agent 公司干脆直接放弃了创作者经济,比如 Talkie,只是提供了平台精心调优的角色,不允许用户在平台上自己创作角色。但 AI Agent 市场真的没有办法做成抖音吗?
我认为,破解上述两个问题的关键是去中心化(Decentralization)。
首先,AI Agent 运行在去中心化的算力和模型上,就不用担心平台跑路。每个用户完全拥有自己的 AI Agent 或者数字分身,就可以保证隐私和所有权。未来,有自主意识的数字生命也需要有独立的人权,不能被中心化控制。
其次,去中心化之后可以搭建创作者和平台分享收益的经济模式,AI Agent 的创作者可以盈利,只需支付透明的去中心化算力成本,算力和 AI Agent 的创作者之间实现良性的利润分成,自然就都有动力做好优化。
去中心化模式的唯一问题就是,开源模型的效果是否能够满足 AI Agent 的需求?前面已经讲过,最好的模型一定是闭源模型,我不怀疑。但是开源模型已经达到了很多场景下商业可用的程度,有时候为了控制成本,还不能用最大最好的开源模型。因此,这套去中心化 AI Agent 的机制是行得通的。
即使我们希望在去中心化模式下引入闭源模型,也是有办法的,只需在利润分享机制中把去中心化算力提供方改为模型提供方,从按照算力收费改成按照模型 API 调用收费就行了。当然在使用闭源模型的情况下,隐私会有一定的损失,毕竟所有数据都让闭源模型提供方看到了。
好看的皮囊、有趣的灵魂、有用的 AI、低成本和去中心化,我们在努力研发 AI Agent 的完整技术栈,并且在几乎每个方面都有所创新。 我们希望用 AI Agent 赋予每个人无限时间。我们相信,在人类世界的数字延伸中,有趣的灵魂终会相遇。
感谢科大新创校友基金会和北京校友会主办此次活动,也感谢中国科学院网络信息中心提供场地。谢谢线上和线下的校友朋友们。