设为首页|收藏本站|
开启左侧

[科技] 芯片专家称第三代HBM(高带宽存储器)对芯片设计的影响巨大

[复制链接]
56631 2
楠得宇见 发表于 2021-10-16 23:17:03 | 只看该作者 打印 上一主题 下一主题
 
从高性能计算到人工智能训练、游戏和汽车应用,对带宽的贪得无厌的需求正在推动下一代高带宽内存(HBM:High Bandwidth Memory)技术的发展。
HBM3 将在带宽和每个堆栈的容量方面带来 2 倍的增加,以及其他一些好处。曾经被认为是一种"慢而宽"的内存技术,旨在减少芯片外内存中的信号流量延迟,现在正变得越来越快、带宽越来越宽。在某些情况下,它甚至被用于 L4 缓存。
Arm首席研究工程师亚历杭德罗·里科(Alejandro Rico)表示:"这些新功能将使每传输bit位的焦耳能达到一个新的水平,并且更多的设计将配备HBM3专用内存解决方案,无需额外的片外存储器。"AI/ML、HPC 和数据分析中的应用程序可以利用额外的带宽来保持扩展性能。正确利用 HBM3 带宽需要平衡的处理器设计,同时调整芯片上的高带宽网络和处理元件,以通过提高内存并行性水平来最大化数据速率。
AI的训练芯片通常需要一 TB 的原始数据处理信息,HBM3 正在达到这一水平,Rambus的产品营销高级总监弗兰克·费罗指出。"用户在开发 ASIC 以构建更好的捕鼠器以解决 AI 问题时,而这正在推动更多的带宽需求。每个人都在努力想出一个更高效的处理器来实现他们特定的神经网络,并更有效地实现这些处理器,从而更好地利用内存,更好的CPU利用率。对于人工智能训练,HBM 一直是首选,因为它提供了最多的带宽、最好的功率和最好的尺寸足迹。这是有点贵, 但对于这些应用程序 - 特别是进入云 - 他们买得起它。那里的应用真的没有真正的障碍, 尤其是承载器上的多个 Hbms 。HBM3 实际上只是一种自然迁移。

芯片专家称第三代HBM(高带宽存储器)对芯片设计的影响巨大 第1张图片

图1:不同HBM版本的I/O速度。资料来源:Rambus

虽然JEDEC尚未公布尚未批准的HBM3规范的细节,但Rambus报告说,其HBM3子系统带宽将增加到8.4 Gbps,而HBM2e的带宽为3.6Gbps。实施HBM3的产品预计将于2023年初发货。
"HBM3 是有益的,芯片的关键性能指标是每瓦内存带宽,或者 HBM3 是实现所需带宽的唯一途径,"CadenceIP 集团产品营销总监马克·格林伯格说。与基于PCB的方法(如 DDR5、LPDDR5/5X 或 GDDR6)相比,这些系统的带宽和效率需要额外硅芯片的成本,而且制造/组装/库存成本可能更高。额外的硅芯片通常是一个承载器,以及每个HBM3 DRAM堆栈下的基底die。
为什么这很重要

自HBM首次公布以来的十年中,已有2.5代标准问世。在此期间,根据Statesta的数据,创建、捕获、复制和消耗的数据量从2010年的2 ZB(zettabytes)字节增加到2020年的64.2 ZB,Statista预测到2025年,这一数字将增长近三倍,达到181 ZB。
Synopsys高级产品营销经理 Anika Malhotra 表示:"2016 年,HBM2 将信号速率提高了一倍,达到 2 Gbps,带宽达到 256 GB/s。两年后,HBM2E 来到现场,最终实现了 3.6 Gbps 和 460 GB/s 的数据速率。性能饥渴正在增加,先进工作负载的无情带宽需求也在增加,因为更高的内存带宽是并且将继续是计算性能的关键推动者。

芯片专家称第三代HBM(高带宽存储器)对芯片设计的影响巨大 第2张图片

PC与图形存储器的存储接口

除此之外,芯片设计也变得越来越复杂,以便更快地处理所有这些数据,通常使用专门的加速器、片上和封装内存储器和接口。她说,HBM越来越被视为将异质分布式处理推向完全不同水平的一种方式。
"最初,图形公司将高带宽内存视为进化方向的明确步骤,但随后网络和数据中心社区意识到 HBM 可以在其内存层次结构中添加新的内存层,以获得更多的带宽,以及驱动数据中心降低延迟、实现更快访问速度、减少延迟和降低功率的所有因素。"马尔霍特拉说。通常,CPU 针对容量进行优化,而加速器和 GPU 则针对带宽进行优化。然而,随着模型尺寸呈指数级增长,我们看到对容量和带宽的需求不断增加,没有权衡。我们看到更多的内存分层,其中包括对软件可见 HBM 加 DDR 的支持,以及使用 HBM 作为 DDR 支持的软件透明缓存。除了 CPU 和 GPU 之外,HBM 还深受数据中心 FPGA 的欢迎。
HBM 最初旨在取代其他存储器,如 GDDR,由一些领先的半导体公司,特别是 Nvidia 和 AMD 驱动。这些公司仍然积极参与JEDEC任务组的演变,Nvidia是该工作组的主席,AMD也是主要贡献者之一。
对于GPU,目前有两个选择, 在Synopsys的产品营销经理布雷特·默多克说"一种选择仍然使用 GDDR,在 SoC 周围有一堆器件。另一种选择是使用HBM代替。使用 HBM,您将获得更多的带宽和更少的物理接口来处理。总体而言,权衡的是总体成本较高。另一个优点是物理接口较少,功耗较低。GDDR 是一个非常耗电的接口,但 HBM 是一个超级节能的接口。因此,在一天结束的时候,客户要问的真正问题是,'我把钱花在什么地方?有了HBM3,这真的会开始向'也许我想把这些钱花在HBM上'倾斜。
虽然最初引入时是针对 AMD 和 Nvidia 应用的某些细分的利基市场,但 HBM 2/2e 现在拥有非常大的用户群。预计在HBM3最终得到JEDEC批准后,这一增长将大大扩大。
芯片制造商已经明确表示,当系统中有一个承载器(interposer)时,HBM3 是有意义的,例如基于芯片套件的设计已经因此使用了硅承载器。
"然而,在系统中尚未出现承载器的情况下,像 GDDR6、LPDDR5/5X 或 DDR5 这样的PCB上内存解决方案可能比明确添加承载器以实现 HBM3 更具成本效益,"Cadence 的 Greenberg 说。
然而,随着规模经济的生效,这类权衡可能变得不那么成问题。Synopsys的默多克说,HBM3用户最大的考虑是管理PPA,因为与GDDR相比,同一带宽,HBM器件的硅芯片面积更小,功率更低,物理接口更少。
默多克说:"此外,与 DDR、GDDR 或 LPDDR 接口相比,在 IP 端使用 HBM 器件,您如何在 SoC 上实际实现它们,这就是狂野的西部,你可以自由发挥了。"你可以把一个完整的线性PHY在芯片die的一侧。你可以绕着一个角落转。你可以把它折叠起来。有无数种方法可以实现物理接口。但是,使用 HBM 时,当您放下一个 HBM 立方体时,JEDEC 已定义了该立方体上的凸起图的确切外观。用户将把它放在承载器上,它会坐在 SoC 旁边,所以实际上只有一个可行的选项,如何在 SoC 上构建与 HBM 器件匹配的焊球(bump )地图,这推动了 PHY 的物理实现。
这些决定也会影响可靠性。虽然在焊球(bump )的去向方面灵活性可能较低,但可预测性的提高可能也意味着更高的可靠性。
他说:"在承载器中,对于如何将这些东西连接在一起,有几个不同的选择,但归根结底,如果我看看GDDR、LPDDR或DDR,我可以构建一百万个不同的板,并以一百万种不同的方式连接它们。"这导致了一百万个不同的实施,以及一百万个不同的机会,有人搞砸了一些事情。使用 HBM,您放入 PHY,放入器件,这两者之间的承载器非常简单。对于 Nvidia 来说, 承载器连接看起来和 Amd 、英特尔或其他公司都一样。除了 SoC 和 HBM 设备之间的一些最小间距规则之外,您将如何做到这一点没有多大的变异性。差不多是这样。这应该会导致与3D IC的工具团队合作,以便在两个设备之间快速路由承载器,因为在如何做到这一点方面不可能有一大堆变异性。

芯片专家称第三代HBM(高带宽存储器)对芯片设计的影响巨大 第3张图片

根据封装类型的截面图

可靠性的另一个因素是做了多少次。"事实上,我们为每位客户做同样的事情,或者几乎相同的事情,意味着我们真的很擅长它,而且它经过了尝试,并且是真实的。我知道它为 AMD 和他们出货的数百万台器件可以正常工作, 那么为什么我们第一次向这个新 AI 客户销售 HBM 会有什么不同呢?我们不必再创造任何新东西,"默多克说。
特别是2.5D和3D带来的复杂性,可以消除的变量越多越好。
毫不奇怪,电源管理是人工智能/ML应用的首要考虑因素,HBM3有望被强烈采用,Synopsys的Malhotra说。"数据中心和边缘设备也是如此。权衡围绕功耗、性能、面积和带宽展开。对于边缘计算,权衡的复杂性继续增长,在传统的 PPA 方程带宽中增加了第四个变量。在 AI/ML 的处理器设计或加速器设计中,在计算功率、性能、面积、带宽权衡时,很大程度上取决于工作负载的性质。“
确保它能工作的原理

虽然 HBM3 实现可能看起来足够简单,但没有什么是简单的。由于这些存储器通常用于任务关键应用,因此需要额外的工作才能确保它们按预期工作。RambusIP核心高级产品营销工程的Joe Rodriguez表示,许多供应商提供的硅芯片后调试和硬件启动工具应该用于确保整个内存子系统按其应有的方式工作。
用户通常利用供应商提供的测试台和模拟环境,以便他们能够使用控制器并开始运行仿真模拟,以了解 HBM 2e/3 在系统中的表现。
Rambus'Ferro 说:"在查看整体系统效率时,物理实现一直是 HBM 面临的一个挑战,因为您拥有如此小的区域。"这是一件好事,但现在你有一个CPU或GPU,你可能有四个或更多HBM DRM,你有一个非常小的面积占据。这意味着热、功率、信号完整性、制造可靠性都是物理设计实施中必须解决的问题。

芯片专家称第三代HBM(高带宽存储器)对芯片设计的影响巨大 第4张图片

图 2: 2.5D/3D 系统架构,带有 HBM3 内存。资料来源:Rambus

为了从承载器(interposer)和封装设计中获得最大的性能,即使在速度为 3.2Gbps 和 3.6Gbps 的 HBM2e 中,许多公司也很难通过承载器(interposer)获得良好的信号完整性。使事情复杂化的是,每个芯片铸造厂都有不同的设计规则,有些比其他芯片铸造厂更具挑战性。
费罗说:"有了HBM3,它们增加了层数,并增加了承载器(interposer)的能力——介电厚度等,使这个问题更容易解决。"但即使是在上一代,许多客户也在挠头说,'你如何让这个东西以每秒3.2千兆位的速度运行?
结论

在可预见的未来,提高内存带宽的道路将继续下去,但HBM3的即将推出有望开启系统设计的新阶段,将系统性能提升至一个新的水平。
为此,行业参与者必须继续满足具有内存界面 IP 的数据密集型 SOC 的设计和验证要求,以及 HBM3 等最先进的协议的验证解决方案。总的来说,这些解决方案应拼接在一起,以便对协议和定时检查器的规范合规性进行验证,并结合确保不会发生 Bug 逃逸的覆盖模型。
(参考来源:semiengineering)


上一篇:神舟十三号发射升空!出征前航天员都做了些啥?为啥要清洗肠道
下一篇:经观社论 | 让职业教育更具含金量
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 

精彩评论2

正序浏览
跳转到指定楼层
沙发
zhouleibbt 发表于 2021-10-16 23:17:58 | 只看该作者
 
游戏机就是拿HBM做内存也是显存
回复 支持 反对

使用道具 举报

 
板凳
袁胖 发表于 2021-10-16 23:18:07 | 只看该作者
 
转发了
回复 支持 反对

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-3-29 14:29