小程序
传感搜
传感圈

MCM上的自主创新让MCM GPU成为一种发展趋势

2022-05-09
关注

多处理芯片控制模块(MCM)在半导体材料行业的技术应用并不少见,但随着Chiplet、2.5D/3D包装形式的技术日益普及,MCM已经渗透到越来越多的ic设计中,无论是GPU、光纤模块还是人工智能处理芯片,都在逐渐引入这种包装形式的技术。

MCM GPU已成为发展趋势

以上年AMD公布的第一个MCM GPU InstinctMI250X为例,这款GPU集成了2个GPUChiplet和128GB的超大型HBM2e运行内存,在算率和网络带宽上保证了完美,完成了383TFLOPS(FP16)和3.2TB/s的恐怖考试成绩,无疑是各种AI超级计算机中心的网络加速器。同样,英特尔也在其PonteVechioGPU上采用了MCM。

虽然MCM已经逐渐由AMD和英特尔的GPU制造商推广,但现阶段英伟达的姿态似乎相对较小。虽然有相应的科学研究,但尚未取出商业MCM产品。但以上都是面向HPC/AI销售市场的GPU。交易级GPU也会进入MCMGPU吗?据今天的传言,AMD很可能会选择MCM作为下一代RDNA3架构的高端GPU。

然而,交易级应用程序与HPC/人工智能应用程序有很大的不同。在接下来的应用程序中,几个GPU运行负荷是非常常见的。然而,许多GPU在交易场景中已经非常罕见,它们将对兼容模式产生很大的影响,因此迈出这一步可能会产生一定的风险。

MCM在IP公司眼中

MCM不仅为GPU公司创造了大量的设计方案操作灵活性,而且还让许多IP公司找到了一种新的商业运营模式。例如,IP公司Credo为客户的ASIC设计方案提供了混合信号DSPIP,以Chiplet的方式集成到SOC上,创建了一个功耗更低、性能更高的MCM。随着数据信息中心的网络结构逐渐超过400G,对芯片连接的需求也在逐渐增加。因此,Credo去年年底发布了新升级的3.2TbpsblueJay重计时器chiplet,根据64安全通道56Gbpspam4LRDSP,提供了强大的操作系统级连接。

虽然BlueJay只是通过tsmc28nm加工工艺创建的,但它保证了特性和功率的规定,与先进的工艺计划方案Nutcracker相比,降低了成本。此外,由于BlueJay和服务器MCM中SoC的核心通信是基于超低能耗的BoWD2D插口,其插口提高了TsmcCoWoS包装形式的技术性。这种将Serdes功能从上面(on-die)转变为片外(off-chip)的方法,显著提高了ASIC的可用面积,设计师可以利用这部分额外的总面积来完成更多的估算特性。

AI在MCM上的自主创新

同样,人工智能也在MCM上找到了新的解决方案。根据培训大数据信息,大型设备学习模型在许多行业取得了令人震惊的效果,如机器视觉、语音识别技术和自然语言理解。为了更好地降低人工神经网络网络加速器的成本,该行业引入了许多独立创新的设计方案,其中之一是MCM。

英伟达的Simba和Gogle的TPU都采用了MCM的设计方案。Google的CoralTPU是边缘端人工神经网络逻辑推理网络加速器,总使用面积小,可达到4TOPS(INT8)的最高值特性,能效等级可达2TOPS/W。英伟达的Simba也是一种用于逻辑推理的AD9239BCPZ-250处理芯片,但其运营规模高于Google的Coral。所有MCM均由36个Chiplet组成,每个都能完成4TOPS的最高值特性,将所有处理芯片的算率提高到最大的128TOPS,能效等级也达到6.1TOPS/W。

一方面,在设计方面,小处理芯片的难度低于整个处理芯片;另一方面,由于总面积小,小芯片的制造合格率较高。这些都证实了这种方案不仅可以降低设计方案和产品成本,还可以达到类似于单个大处理芯片的性能指标和能耗水平。

但就像上面提到的MCM GPU兼容性一样,MCM在人工神经网络中并不是没有问题。由于MCM中单个Chiplet的运行内存远小于单个大处理芯片,因此大中型设备学习模型的实践和逻辑推理必须在Chiplet上划分矢量材料计算的数据流程图。多处理芯片之所以进行划分,是因为计算被分配给Chiplet,从而最大限度地提高某个性能参数的利润,比如货运量。然而,与soc芯片不同,MCM中小型处理芯片数量和神经元网络结点总数的增加将使检索室内空间呈指数级增长,从而降低效率,更不用说由于MCM的硬件配置特点,可用的划分方案并不多。因此,这种划分的质量立即干扰了MCMic设计的改进。

为了更好、更彻底地解决这一问题,谷歌研究人员开发设计了一种深度增强学习的划分方案,同时利用管束求得器专业处理MCM包装形式的设备学习模型划分问题。他们的方法可以根据预练习普及到未知的键入图。根据制造级BERT实体模型的硬件配置评价,他们获得了超过任意检索和模拟退火等目前计划方案5%的货运量。更重要的是,这种方案具有很好的迁移学习特性。预练实体模型的应用可以有效提高样品的效率,将检索时间从3小时减少到9分钟。




您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘