来源:Pitchbook 五、基础设施 英伟达发布新AI硬件,市值突破万亿美元。英伟达GH200 Grace Hopper超级芯片已全面投产,总带宽7倍于传统加速系统,互连功耗降低到原来的1/5;大内存AI超级计算机DGXGH200,采用新互连方式,让256个GH200 GraceHopper超级芯片能像单个巨型GPU一样协同运行。英伟达还推出了旨在提高AI云的性能和效率的网络平台NVIDIA Spectrum-X、面向游戏的定制AI模型代工服务ACE for Games等。 联发科车规级芯片中将加入英伟达GPU。联发科将开发集成英伟达GPU芯粒(chiplet)的汽车SoC,搭载NVIDIA AI和图形计算IP。这款主要用于智能座舱的芯片与基于英伟达技术的自动驾驶系统兼容。高通目前在智能座舱领域居于垄断地位。 吉姆·凯勒联合LG打造AI及RISC-V芯片。这位芯片大神担任CEO的加拿大AI芯片公司Tenstorrent ,宣布与LG电子合作,为智能电视、汽车产品和数据中心开发AI芯片。双方的合作还包括Tenstorrent研发的开源架构的RISC-V芯片技术。凯勒为AMD与Intel服务多年,为苹果研发了A系列芯片,曾任特斯拉自动驾驶硬件项目副总裁。 六、开源生态 OpenAI正在考虑开源GPT-3。在一次闭门会议上,OpenAI创始人奥特曼重申了他对开源重要性的信念。之所以还没有开源GPT-3,是因为他们觉得没多少人和公司有能力妥善管理如此大型的大语言模型。 中文医疗大模型华佗GPT开源。该模型由香港中文大学与深圳市大数据研究院训练,能使语言模型具备像医生一样的诊断能力和提供有用信息的能力。它还开源了医疗问答数据集,只用于科研目的。哈工大此前也开源了名为Huatuo的中医医疗GPT,现已更名为本草(BenTsao)。 七、论文 Meta模型架构Megabyte比Transformer快四成。Transformer在处理长字节序列时算力损耗严重。Meta新架构“兆字节”(Megabyte),在相同的计算预算下,能训练更大、性能更好的模型,扩展到非常长的序列,并提高生成速度。(MEGABYTE: Predicting Million-byte Sequences with MultiscaleTransformers) 谷歌让大模型变成工具制造者。谷歌Deepmind通过引入框架"LLMs As Tool Makers"(LATM),使大模型能够创建和使用自己的工具来解决各种任务。通过分工,将工具制作任务分配给功能强大但资源密集的模型,执行一次,反复使用;将工具使用任务分配给轻量且经济高效的模型,降低处理任务的平均计算成本。(Large Language Models as Tool Makers) 过程监督新突破,在数学推理中减少幻觉。降低幻觉的出现频率,是构建符合人类期望的AGI的关键步骤。OpenAI训练了一个模型,通过对每一个正确的推理步骤(过程监督)给予奖励,而不仅仅是奖励最后的正确答案(结果监督)。与结果监督相比,过程监督不仅提高了模型的性能,而且也带来了重要的对齐优势。(Let's Verify Step by Step) 生物医学通用生成预训练模型BiomedGPT。由于现有标记生物医学数据集的数量和模态有限,以前研究主要集中在特定任务或特定模态,为数万种疾病单独开发不同模型不切实际且不经济。BiomedGPT可以在跨越视觉、语言和多模态领域的各种任务中实现有竞争力的表现,第二版已经在开发当中。(BiomedGPT: A Unified and Generalist Biomedical GenerativePre-trained Transformer for Vision, Language, and Multimodal Tasks ) GPT-4 是更好的数据分析师吗?阿里达摩院研究发现,GPT-4在完成特定任务时,可以实现与人类相当的水平。而且,完成任务所需的GPT-4 的成本,相当于高级数据分析师的0.45%,初级数据分析师的0.71%。(Is GPT-4 a Good Data Analyst? ) 八、大模型竞赛 深圳公布AI发展行动方案。《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》发布,提出发挥政府投资引导基金作用,形成规模1000亿元的人工智能基金群,强化智能算力集群、数据和人才要素的供给。方案还列出了第一批“城市+AI”应用场景清单,指定了责任单位。 中国已推出79个大语言模型,今年推出数量已超美国。新发布的《中国人工智能大模型地图研究报告》统计,过去5年,中国10亿以上参数规模的大模型已经发布了79个,涉及14个省市,北京和广东最多。美国已经发布了100个大模型。中国和美国遥遥领先,占全球总量的80%以上。 全球大模型数量