以下为分享内容精华整理:
随着大型语言模型的兴起,出现了一个新概念——Scaling Law(规模定律)。根据Scaling Law,大语言模型的性能与其参数量、训练数据的大小和计算量呈幂律关系。简单来说,用通用的方法给模型巨大的数据,让模型能够拥有输出我们想要的结果的能力。
这就使得AI计算与“云计算”有很大的不同,云计算主要服务于互联网时代的需求,关注资源的池化和虚拟化:
● 怎么把计算,存储,网络,从物理资源变成虚拟的概念,“批发转零售”;
● 如何在这种虚拟环境下把利用率做上去,或者说超卖;
● 怎么更加容易地部署软件,做复杂软件的免运维(比如说,容灾、高可用)等等,不一而足。
用比较通俗的语言来解释,互联网的主要需求是处理各种网页、图片、视频等,分发给用户,让“数据流转(Moving Data Around)起来。云服务关注数据处理的弹性,和便捷性。
但是AI计算更关注以下几点:
● 并不要求特别强的虚拟化。一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求。
● 需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接,而不是常见的云服务器几 G 到几十 G 的带宽。
● 对于高可用并没有很强的要求,因为本身很多离线计算的任务,不涉及到容灾等问题。
● 没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高(否则 GPU 运维团队就该去看了),同时训练本身经常以分钟级别来做 checkpointing,在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。
今天的AI计算 ,性能和规模是第一位的,传统云服务所涉及到的能力,是第二位的。
这其实很像传统高性能计算领域的需求,在七八十年代我们就已经拥有超级计算机,他们体积庞大,能够提供大量的计算能力,可以完成气象模拟等服务。
我们曾做过一个简单的估算:过去,训练一个典型的图像识别模型大约需要1 ExaFlop的计算能力。为了形象地描述这一计算量,可以想象全北京的所有人每秒钟进行一次加减乘除运算,即便如此,也需要几千年的时间才能完成一个模型的训练。
那么,如果单台GPU不足以满足需求,我们应该如何应对呢?答案是可以将多台GPU连接起来,构建一个类似于英伟达的Super POD。这种架构与最早的高性能计算机非常相似。
这时候,如果一台GPU不够怎么办?可以把一堆GPU连起来,做成一个类似于英伟达的Super POD,它和最早的高性能计算机长得很像。
这就意味着,我们又从“数据流转”的需求,回归到了“巨量运算”的需求,只是现在的“巨量运算”有两个进步,一是用于计算的GPU性能更高,另外就是软件更易用。伴随着AI的发展,这将是一个逐渐加速的过程。今年NVIDIA推出的新的DGX机柜,一个就是几乎1Exaflops per second,也就是说理论上一秒的算力就可以结束训练。
去年我和几位同事一起创办了Lepton AI。Lepton在物理中是“轻子”的意思。我们都有云计算行业的经验,认为目前AI的发展给“云”带来一个完全转型的机会。所以今天我想重点分享一下,在AI的时代,我们应该如何重新思考云的Infrastructure。
企业用大模型,先算一笔“经济账”
随着模型规模的不断扩大,我们面临着一个核心问题:大模型所需的计算资源成本高昂,从实际应用的角度出发,我们需要思考如何高效地利用这些模型。
以一个应用场景为例,我们可以比较形象地看出一个通用的大型语言模型与针对特定领域经过微调的模型之间的差异。
我们曾经尝试过“训练一个金融领域的对话机器人”。
使用通用模型,我们直接提问:“苹果公司最近的财报怎么样?你怎么看苹果公司在AI领域的投入。”通用大模型的回答是:“抱歉,我无法回答这个问题。”
针对特定领域微调,我们使用了一个7B的开源模型,让它针对性地“学习”北美所有上市公司的财报,然后问它同样的问题。它的回答是:“没问题,感谢您的提问。(Sure,thanks for the question)”口吻十分像一家上市公司的CFO。
这个例子其实可以比较明显地看出,通用大模型性能固然很出色,但是在实际应用中,使用中小型开源模型,并用特定数据微调,最终达到的效果可能更好。
至于成本问题,我们也算了一笔经济账:一台GPU服务器就可以提供支撑的7B、13B模型通过微调,性价比可能比直接使用闭源大模型高10倍以上。
但是在大模型进行商业化落地的过程中,我观察到市场还是会有两个纠结:
第一个纠结是营收的流向和以往不太一样,不太对。
正常商业模式的流向应该是:从用户那里收费,然后“留成本”给硬件服务商,比如英伟达。但是今天是横向的,从VC(风投)拿到融资,直接“留钱”给硬件厂商。但是VC的钱本质是投资,创业者最后可能要10倍还给VC,所以这个资金流向是第一个纠结。
第二个纠结是今天的大模型对比传统软件,可以创造营收的时间太短。
其实开发一次软件之后,可以收回成本的时间比较长。比如像Windows,虽然过几年迭代一代,但是它底层的很多代码是不用重写的。所以一个软件被写完,可能在接下来的5-10年当中,它给我时间窗口持续迭代。而且投入的成本大部分是程序员的成本。
但是大模型的特点是,每次训练过一个模型之后,下一次还是要从零开始重新训练。比较形象一点来说“今天投入10个亿,再迭代的时候,又得再追加投入十个亿”。
但是模型的迭代速度又很快,中间能够赚钱的时间窗口究竟有多长?今天看起来好像大概是一年左右,甚至更短。
于是大家就开始质疑,大模型的成本远高于传统的软件,但是做完一个模型之后,能赚钱的时间远低于传统的软件。
所以就回到了这个终极问题,大模型的商业模式到底怎样才能真正有效?
我还观察到一个市场现象,去年整个市场都非常痛苦,硬件需求的突然暴涨,整个供应链都没反应过来,等待时间很长,甚至可能6个月以上。
最近我们观察到的一个现象是供应链没有那么紧张了。第一是全球供应链也开始缓过来;第二我个人判断有一部分以前因为焦虑而提前囤货的供应商,觉得现在要开始收回成本了。之前供不应求的紧张状态会逐渐变好,但是也不会一下子变成所有人都愁卖的状态。
以上就是我基于这波生成式AI爆发,对整个AI产业造成的影响的个人观察。也正是在这个浪潮中,Lepton正在持续帮助企业和团队在生成式AI落地的过程中找到成本、效果、效率的最佳均衡点。最后,其实可以以Richard S. Sutton——增强学习领域开山立派的一位导师,在2019年说的一句话作为总结,“在整个70年的AI科研中,最重要的经验就是,通过一个通用的方法(今天是深度学习),来利用大量的计算模型(今天是以英伟达为代表的异构GPU为基础的高性能计算),这样的方式是整个70年AI发展中最有效、最简单的方式。”
The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.
——Richard Sutton: "The Bitter Lesson"
文字经贾扬清本人确认,感谢高山书院(公众号:gasadaxue)对本文的贡献