设为首页|收藏本站|
开启左侧

[科技] 大算力与高能效AI芯片发起冲锋!2023全球AI芯片峰会第二日干货总结

[复制链接]
说真话的路 发表于 4 天前 | 显示全部楼层
 
芯工具9月19日报道,9月14日-15日,2023全球AI芯片峰会(GACS 2023)在深圳市南山区美满举行。继首日开幕式及AI芯片创新专场炽热收场(《云边端AI芯片热战大模子!2023全球AI芯片峰会首日干货》),峰会越日演讲继续输出麋集干货满载,在上午场的最初一个环节,2023中国AI芯片先锋企业TOP30和2023中国AI芯片新锐企业TOP10评选成果正式公布。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第1张图片


▲2023中国AI芯片先锋企业TOP30
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第2张图片


▲2023中国AI芯片新锐企业TOP10
2023全球AI芯片峰会由智一科技旗下芯工具结合智猩猩倡议主办,在南山区科技创新局的指导下以“AI大时代 逐鹿芯天下”为主题,设备七大板块,主会场包括开幕式和AI芯片架构创新、AI大算力芯片和高能效AI芯片三大专场;分会场包括初次增设的集成电路政策交换会、AI芯片分析师论坛、智算中心算力与收集高峰论坛。
在第二天的AI大算力芯片论坛、高能效AI芯片论坛上,上海交通大学计较机科学与工程系教授梁晓峣颁发收场演讲,随后来自英特尔Habana、壁仞科技、千芯科技、Graphcore、中科加禾、芯和半导体、云天励飞、知存科技、诺磊科技、迈特芯、肇观电子、智芯科、原粒半导体、九天睿芯15家顶尖AI芯片企业及新锐企业的开创人、技术决议者及高管别离颁发主题演讲,分享前沿研判与最新理论。
经过峰会越日的嘉宾分享和概念碰撞,我们看到大大都AI芯片企业都在积极备战天生式AI与大模子浪潮带来的时代机遇,嘉宾分享的议题焦点可以归纳为几个关键词:天生式AI、NVIDIA、GPGPU、落地应战、架构创新、存算一体
不管是大算力AI芯片还是高能效AI芯片,都面临存储墙、功耗墙等共通的传统架构痼疾,也正别离从焦点利用处景的迫切之需动身,经过广联生态伙伴、优化软硬协同,更洪流平挖掘芯片性能的潜能,摸索不依靠先辈制程来实现性能提升、能效提升的新途径、新解法。
一、破解大模子落地应战,大算力芯片亮出三项关键技术

大模子落地进程已经提速,但其与算力供给之间的差异今朝没有被弥合,国产大算力芯片正在经过度歧的技术途径倡议冲锋,进步芯片能效比的同时加速大模子落地。
1、GPGPU加速大模子练习,用开源处理人、钱、时候困难
上海交通大学计较机科学与工程系教授梁晓峣谈道,大师在AI大时代淘金,卖铲子的NVIDIA“赢利赚的最多”。他以为,包括CUDA Core和Tensor core(张量计较焦点)的V100这代GPGPU,帮助NVIDIA奠基AI时代算力基座的行业职位。当谷歌、特斯拉等芯片公司拿出比NVIDIA更有用的矩阵计较方式后,NVIDIA为了稳固自己在野生智能时代的霸主职位,在数制、稀疏性、互联、内存带宽等方面停止了多项革新。此外,NVIDIA构建的涵盖编程说话、运转情况等完善的软件生态是让芯片好用的“护城河”。
芯片生态从软件厂商围绕焦点芯片(架构)开辟“范畴公用软件”成长到芯片厂商围绕焦点软件(框架)开辟“范畴公用芯片”,直到现在芯片厂商和大模子公司围绕焦点利用开辟“范畴公用系统”。梁晓峣提到,当合作对手领先时,可以用开源的方式处理资金、人材和时候的题目。开源也被证实是当对手出格强大时,较为有用的突围方式。
客岁,梁晓峣团队推出自研开源GPGPU平台“青花瓷”,支持大范围并行通用计较。梁晓峣诠释道,说的间接点就是除了游戏,希望NVIDIA的芯片能做的“青花瓷”都能做,同时还出格重视对NVIDIA GPGPU产物的兼容。他补充说,“青花瓷”平台完全免费开放,这一平台最首要目标是为行业供给GPGPU架构参考设想,开放给企业、高校停止根本研讨、理论平台、冲破创新。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第3张图片


▲上海交通大学计较机科学与工程系教授梁晓峣
在产业界,壁仞科技也认同高性能GPGPU是练习GPT大模子的关键。一方面,大模子在计较机系统结构中面临计较、通讯、存储、并行扩大、稳定牢靠五大应战;另一方面,还要处理用户视角下,存得下、易扩大、易利用三大“温饱”需求,以及高性能、低本钱、低延时三大“小康”需求。
针对这些应战和需求,壁仞科技打造了面向大模子的软硬一体全栈优化的处理计划,包括高性能集群、机械进修平台suCloud、加速库、练习框架和推理引擎、超大模子框架、算法/利用六层架构。壁仞科技系统架构副总裁丁云帆谈道,高性能通用GPU是练习GPT大模子的关键算力根本,互联带宽/拓扑是支持GPT大模子散布式高效扩大的关键,基于自研BR104 GPU的支流量产产物壁励104,壁仞科技可构建千卡GPU集群,并连系大模子散布式战略优化助力大模子创新落地。别的壁仞科技还与产业界的框架、模子伙伴、科研机构、高校等慎密合作打造大模子产学研用生态。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第4张图片


▲壁仞科技系统架构副总裁丁云帆
2、传统架构难冲破带宽、本钱瓶颈,大模子时代亟需超越GPU新架构
“大模子本质是对常识的紧缩和对输入的反应,即存算一体、以存代算。”千芯科技董事长陈巍谈道,“LLM/MLM的开源资本、摆设练习架构、算力本钱成为大模子利用落地和企业盈亏的关键分水岭。”
陈巍先容了几种典型的商用大模子存算一体架构落地情况,并指出”特斯拉的Dojo芯片利用了近存计较架构优化数据通道,或是为大模子量身定制“,”微软三星等科技巨头正在投资存算一体芯片企业“。
Habana中国区负责人于明扬一下台便放话:演讲不掺广告,都是实在体验。“我们以为,每个Billion(十亿)的参数范围,在有限时候范围内要把练习做好,根基需要的算力大要在16卡。”
他谈到大模子给硬件层带来压力,对单卡的算力、内存、办事器互联计划、集群长时候稳定运转等提出更高要求。在大模子成长进程中,上层框架及软件生态饰演的脚色越来越重要。传统模子很洪流平需要CUDA的资本停止练习,但大模子时代更多夸大高层框架软件生态——若何处理集群治理与稳定性、练习进程中的并行化要求等。
于明扬总结了面向大模子高效练习和推理的一些挑选,包括计较速度、高速存储、高扩大性、易用性、高能效、高性价比。在大模子时代,企业假如能很好地针对框架做优化,有机遇绕开CUDA生态墙,打破NVIDIA在市场上一家独大的场面
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第5张图片


▲Habana中国区负责人于明扬
GPU、CPU之外,英国芯片公司Graphcore(拟未科技)提出了IPU架构,支持FP8浮点运算,基于此来应对对话式AI的时延、利用本钱与能耗的应战。早在2018年,AI教父Geoff Hinton就看到了IPU架构的潜力,他在接管采访时以Graphcore的IPU芯片为例,大力提倡为构立功用更像大脑的机械进修系统转向分歧范例的计较机。
Graphcore中国区产物总负责人朱江提到,IPU采用了大范围并行的多指令大都据架构,并极大地扩大了片上SRAM的巨细,使得片内存储吞吐量到达65TB/s。这样大范围的片上存储和散布式设想,可以极大地进步访存带宽和内存拜候效力,有力地帮助客户打破内存墙的瓶颈。IPU的怪异设想还使实在现了高效的访存能耗。一样是搬运一个byte的数据,CPU大要需要消耗320pJ,GPU大要需要64pJ,而IPU大要需要1pJ。此外,Graphcore推出的Bow IPU还采用了WoW的先辈封装,并在支持数据范例上停止了投入,成为业内最早支持FP8精度的硬件之一。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第6张图片


▲Graphcore中国区产物总负责人朱江
3、产业链创新:编译器+EDA平台,进步AI芯片适配性
大模子利用与算力之间的差异,加速了企业在两者间构建“桥梁”,缩小其中差异的步伐。
中科加禾开创人崔慧敏以为,大模子让国产AI芯全面临的生态窘境加倍凸显,编译器成为一大破解之道。简单来说,编译器是用于将机械说话翻译为人类说话的工具,在AI芯片产业链中,相当于AI芯片与AI用户之间的“桥梁”。
在GPU时代,编译器大师首要利用的是NVIDIA的CUDA编译器。随着AI时代到来,编译器的内在和外延进一步扩大,触及了图、张量、指令、图算融合等分歧层面的编译。
大模子时代,编译器可以促进芯片性能提升、跨平台优化及平安性增强。崔慧敏谈道,在性能方面,编译技术可以挖掘更激进的融合战略,进一步全局对计较、同步停止重排优化,为模子推理侧带来最高2~3倍的性能提升;在跨平台方面,中科加禾以为基于机械模子可以有用支持编译优化的跨平台表示;在平安方面,编译技术能以很低的开销来实现软件TEE,增强平安性。
今朝,中科加禾正聚焦搭建对分歧芯片都适用的工具集,经过组件化办事助力AI芯片完成生态迁移等方针,并计划在2023年12月推出跨平台大模子推理引擎。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第7张图片


▲中科加禾开创人崔慧敏
单芯片SoC向新型“SoC”(System of Chiplets)架构演进进程中,芯和半导体产物利用总监苏周祥谈道,Chiplet对单颗SoC的拆分、组合和架构计划题目,给传统的设想流程带来了很大的应战
他以为,Chiplet从系统最初的设想到终极的嵌合签核,都需要新的工具、新的思绪和新的方式学。芯和半导体给出的答案是一个围绕Chiplet产业的全新EDA平台,苏周祥说道,全新平台需要支持系统级毗连、仓库治理、条理化设想,还需要在物理实现方面协同设想情况、支持各范畴的工具、多芯片3D结构计划和布线。
是以,芯和半导体推出专为3DIC Chiplet量身定做的仿真全流程EDA平台,这是一个针对Chiplet的完整的包括设想、SI/PI/多物理场分析的处理计划。该平台具有AI驱动的网格剖分技术,以及云计较加载的散布式并行计较才能,还支持裸芯片、中介层和基板的结合仿真引擎技术。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第8张图片


▲芯和半导体产物利用总监苏周祥
二、遍地能跑大模子!解读高能效AI芯片三大趋向

大模子强大的内容天生、了解才能,使得其在云边真个多范例利用处景出现,分歧场景为高能效AI芯片提出了新要求。边沿AI芯片对低功耗、高性能的需求增加;大模子对容量和带宽既要又要,存算一体芯片的存储介质若何挑选。
这一布景下,高能效AI芯片的成长显现出三大趋向,别离是为大模子构建低功耗AI收集,经过存内计较冲破功耗墙和存储墙题目,以及边沿真个智能视觉处置芯片需求增加。
1、算力计划构建低功耗AI收集,巨细模子或在云边端协同进化
智芯科结合开创人&CEO顾渝骢谈道,大模子成长会面临两方面瓶颈,大数据和大模子所发生的显存墙题目(模子能否能跑起来)以及计较墙(能否在公道时候内完成推理)题目。他以为,存内计较是处理这两大困难的有用解法,相比于GPU能更有用地操纵数据,下降功耗;更高效地读取写入数据;集成存储和计较,供给更大内存容量。智芯科计划基于精度无损SRAM的存内计较CIM推出针对大模子的900系列芯片,有望替换NVIDIA在专有云、推理侧的利用。
大模子带来的算力爆发远超摩尔定律,同时大功耗算力设备带来的碳排放量庞大,是以,迈特芯希望做一款低功耗芯片,把功耗降下来。迈特芯基于立方脉动并行架构的存算芯片来满足大模子摆设。迈特芯开创人兼CEO黄瀚韬谈道,经过用更低的bit来暗示GPT-3的首要数据,可以将大模子参数范围变小,迈特芯可在ChatGLM2-6B大模子上用INT4和INT2算力,到达跟ChatGLM2-6BFP16相当的推理水平。在架构方面,迈特芯针对大模子算法搭建立方单元架构,经过立方脉动阵列实现高强度并行计较,其处理计划能兼顾高通量和低功耗。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第9张图片


▲迈特芯开创人兼CEO黄瀚韬
在原粒半导体结合开创人原钢看来,随着大模子蒸馏技术成长,超大模子可以天生一系列合适边真个小模子,获得接近于大模子的结果。原粒半导体基于AI Chiplet把SoC算力跟NPU(神经收集处置器)的AI算力解绑,再灵活组合出边沿端芯片,以适配边沿端大模子的推理要求。今朝,原粒半导体已研发出多模态算力焦点CalCore技术,支持企业将大模子摆设在端侧;以及自顺应算力融合CalFusion技术,自动分派芯粒以绑缚分歧的算力。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第10张图片


▲原粒半导体结合开创人原钢
全球边沿计较市场范围不竭扩大,但因场景、芯片平台、算力需求碎片化等痛点使得其算法投入产出常常不成反比,这有望依托于大模子强大的图像、说话了解、场景泛化才能获得冲破。同时,云天励飞副总裁、芯片营业线总司理李爱军提到,边沿计较芯片设想需要斟酌SoC集成、算力可灵活扩大芯片架构、同一的工具链架构、隐私庇护等方面身分。云天励飞基于其自研算法开辟平台和算法芯片化平台,练习了“云天书”大模子,推出内置云天励飞第四代神经收集处置器的新一代边沿计较芯片DeepEdge10,能满足大模子摆设需要。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第11张图片


▲云天励飞副总裁、芯片营业线总司理李爱军
2、多存储介质计划迸发,存算一体冲破功耗、存储瓶颈
当前大模子对容量和带宽既要又要,存算一体芯片正处于多种存储介质百花齐放的格式。
千芯科技将分歧范例存储器融合到同一存算架构(UMCA),可为客户的利用处景供给SRAM、Flash、RRAM多种存算芯片计划;经过量处置器融合,使存算一体连结大算力高能效,同步获得CPU、GPGPU的通用生态才能。其存算一体架构不依靠先辈工艺,可基于成熟工艺到达先辈算力;并供给芯片级算法紧缩技术,方便大模子客户无感利用量化剪枝稀疏等紧缩技术来到达降本增效的方针。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第12张图片


▲千芯科技董事长陈巍
智芯科聚焦的是SRAM,智芯科结合开创人&CEO顾渝骢提到,他们将推出针对大模子的900系列,该系列可以供给1000-2000TOPS的算力,为边沿侧大模子推理供给算力,功耗为150W,采用12nm制程,价格远低于NVIDIA。
此外还有推出基于SRAM纯数字及模数夹杂架构的多重融合存内计较技术的九天睿芯。九天睿芯副总裁袁野谈道,AIGC在内容天生之外,还带来AR/VR、具身智能、内部感知信号链等的周全升级,其采用的夹杂架构形式,能实现有用精度计较,CIMD(纯数字存内计较)+CIMX(模数夹杂纯内计较)两种存算架构在芯片方面融合,能支持练习+推理一体利用,并使性能最大化。此外,存内计较可以经过互联、叠加实现更大算力,九天睿芯已堆集多个智能信号链(智能感知/互联)的根本IP,并启动告诉互连接口技术研发,为实现大算力做预备。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第13张图片


▲九天睿芯副总裁袁野
在知存科技营业拓展副总裁詹慕航看来,AI神经收集大概CNN矩阵运算、卷积运算的焦点就是矩阵乘法/乘加运算,越典型的大模子越需要矩阵运算,便越合适存内计较的方式,将“存”和“算”连系,一次性并行完成。是以,知存科技挑选利用Flash存储器完成AI神经收集的贮存和运算,以处理存储墙题目。
知存科技推出的WTM-2端侧AI芯片,具有极低功耗、极低提早,其已量产的国际首颗存内计较芯片WTM2101功耗仅5uA-3mA,兼具高算力,适用端侧智能物联网场景。下一步,知存科技还将针对视频增强场景推出WTM-8系列芯片,该系列芯片具有4核存算MPU,单核提升算力80倍,提升效力10倍。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第14张图片


▲知存科技营业拓展副总裁詹慕航
3、3D视觉利用渗透加速,创新计划1个大脑批示8只眼睛
肇观电子CEO冯歆鹏以为,随着视觉技术从2D向3D成长,智能3D视觉利用将渗透到全行业,且线路图可以往五十年今后延长。但硬件成像限制和AI感知范围是3D视觉行业绕不开的痛点,冯歆鹏谈道,为领会决上述题目,肇观电子堆集了3D、VSLAM、AI和OCR光学字符识别等多项机械视觉焦点技术。其中,肇观电子3D深度相性能适用冷库机械人在-18℃的情况里启动“眼睛”完成使命等极限场景,他还提到,部分外洋巨头的机械视觉技术甚至没法在高温情况里开机。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第15张图片


▲肇观电子CEO冯歆鹏
诺磊科技推出的集成CIS+AI+MCU光谱识别功用的感算一体AI光谱分析芯片阵列技术“Eye with Brain”,能做到“1个眼睛照顾8个大脑”,还能实现对多频段光谱的检测与分析。有别于AI业界的传统算法,诺磊科技的产物配合高度集成机械影象辨识传感器,能自力运转实现影象侦测、追踪及识别。诺磊科技开创人、CEO Raymond Wu提到,诺磊科技在首款110nm工艺量产芯片NB1001上,连系WLO(晶圆级光学)技术,将光学元件集成到半导体晶圆上,设想为类似于麦克风阵列的光谱检测阵列。
Raymond Wu还提到,已经一枝独秀的影象处理计划CCD由于系统体积大、本钱高、功耗大、落地难逐步被CIS(CMOS图像传感器)取代。这与当下AI利用有类似性,他以为高算力并不是能百分之百处理一切AI利用的手段,AI利用的算力需求取决于具体利用的场景,单一化利用没有需要做复杂的AI芯片
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第16张图片


▲诺磊科技开创人、CEO Raymond Wu
结语:云边端AI芯片热战大模子,2023全球AI芯片峰会升级

2023全球AI芯片峰会第二天,云边端AI芯片热战大模子的战况更盛。
一方面,面向大模子的海量算力需求,国产大算力芯片厂商已经倡议技术冲锋。GPGPU厂商从芯片设想、处理计划和生态多方面加速大模子场景落地,国内外的AI芯片厂商试图用创新架构打破NVIDIA一家独大场面,此外高低流产业链也在经过编译器、EDA等技术的创新为AI芯片性能供给“放大器”。
另一方面,大模子的落地场景正从云端延长至边沿侧、端侧,使得国内一批高能效AI芯片厂商看到了市场成长机遇。经过存内计较、立方单元架构、Chiplet等分歧创新架构,AI芯片厂商不谋而合地摸索下降AI芯片能耗和算力本钱的最长途径,从而为大模子的范围化落地供给条件。随着大模子在端侧、边沿侧的摆设门坎下降,巨细模子有望实现更好的协同,从而促进AI落地产业的深度和广度大大增强。
经过第二天的峰会,我们可以看到以下五大产业成长趋向值得关注:
1、作为数一数二的芯片巨头,NVIDIA经过在数值、稀疏性、互联、内存带宽等方面的革新,稳固了其在AI时代的霸主职位。对此,国内GPGPU厂商可以经过开源的方式处理钱、人、时候的题目。
2、传统架构难以冲破大模子练习中的带宽和本钱瓶颈,市场需要跨越NVIDIA GPU的新架构。存内计较/逻辑能让芯片能效大幅进步,冲破功耗墙和存储墙题目,从而以成熟工艺突围大算力芯片。
3、面向大模子场景,AI芯片厂商需要满足存得下、易扩大、易利用三大温饱需求,以及易利用、低本钱、低延时三大升级需求。这需要AI芯片厂商加速技术架构创新,也需要用软硬一体化处理计划去冲破。
4、大模子让国产AI芯全面临的生态窘境加倍凸显,需要产业链高低流加速适配。比如经过编译器创新,产业可以促进芯片性能提升、跨平台优化及平安性增强;也有企业打造围绕Chiplet产业的全新EDA平台,为芯片设想创新供给支持。
5、大模子正从云端场景向边沿侧、终端延展。在边沿侧和终端场景,客户对AI芯片的能耗和本钱加倍敏感。为此,AI芯片范畴的玩家经过存内计较、立体单元架构、模子稀疏化、Chiplet等途径下降芯片能耗和本钱,支持大模子“下沉”。
连系前后两天的2023全球AI芯片峰会产学研投范畴46+位大佬的交锋,我们发现,“得算力者得全国”已经成为大模子时代的特征,跳出NVIDIA GPU途径的新架构、新产物越来越多。随着摩尔定律逼近极限,现实算力资本与理想算力资本之间存在庞大鸿沟,在NVIDIA之外,市场上已经出现出更多可以填补市场空缺的AI芯片企业,鞭策市场显现“百花齐放”态势。
从2018年举行第一届起头成长到明天,全球AI芯片峰会至今已持续举行五届,峰会今朝已经触到达了AI芯片产业链的设想、EDA、编译器等多个焦点重要环节,覆盖云边端等全场景的芯片巨头和新锐创企,以及来自学术圈和投资界的专业人士。在曩昔两天的峰会中,我们听到了顶级AI芯片产学研用及投融资范畴专家们的思惟交锋,多元的出色概念在这里碰撞。乘风新技术浪潮,全球AI芯片峰会已经成为国内少少数专注在AI芯片范畴且具有较大影响力的行业峰会。
大算力与高能效AI芯片倡议冲锋!2023全球AI芯片峰会第二日干货总结 第17张图片



上一篇:全球半导体产业投资为何降温?
下一篇:半导体行业深度报告:存储市场柳暗花明,国产替换未艾方兴
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表找客服手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2023-9-23 00:09