上周,一年一度的IEEEHotChips落下了帷幕。在这个为期两天的半导体技术披露活动中,各大项目背后的工程师们展示了来自几乎整个行业的最新技术。 (来源:HotChips33) 科技行业是否过度关注AI?确实如此,但在某种程度上,AI几乎无处不在。每个人都知道AI在未来几年对于商业应用来说将是一件大事,因此,各大企业加大在AI芯片上的研发也并不奇怪。 本届HotChips33会议上,除了IBM、三星、高通等芯片制造巨头向世界展示了他们最新一代的芯片以外,还有台积电分享最先进的3D封装技术、SynopsysCEO谈AI设计的芯片、Cerebras研发出世界上最大的芯片等诸多亮点。 本文将带你一一回顾这些AI芯片的热点内容,并为你讲述在这颗世界上最大的芯片的背后,台积电、Synopsys和Cerebras之间的故事。对标英伟达,英特尔带来下一代CPU和GPU Intel展示了下一代SaphireRapids至强处理器、用于客户端平台的AlderLake,以及即将推出的计划用于超级计算机的PonteVecchioGPU。PonteVecchio具有不错的AI性能,将与英伟达竞争,但鉴于英伟达在人工智能生态系统中的领先地位,英伟达在AI的地位仍然不受威胁;SapphireRapids定位为继续保持数据中心推理处理器领域的领先地位。 英特尔的现状以及PonteVecchio的发展方向。蓝线是英特尔,绿线是英伟达。(来源:nextplatform。com)AMD推出第三代霄龙处理器,技嘉用高通AI芯片打造霄龙服务器 正如预期的那样,AMD宣布了该公司的第三代霄龙(EPYC)服务器处理器,声称其性能是英特尔具有竞争力的至强芯片的两倍,并将AI推理处理中使用的8位整数运算的性能提高了一倍,进一步扩展了AMD在服务器CPU方面相对于Intel的领先地位。 技嘉新推出的服务器。(来源:Qualcomm) 与此同时,技嘉和高通宣布了一款新的AI服务器,其中包含2个EPYC和16个CloudAI100,整个服务器可以超过100POPS(每秒一千万亿次操作),比现有的任何服务器的算力都要高出10倍。高通也在大会上分享了更多关于CloudAI100的细节,可以看出其对进军数据中心的热情。IBM推出芯片内加速型人工智能处理器Telum IBM在大会上展示了IBMTelum的预览版,IBMTelum是IBMz和LinuxONE系统的下一代处理器,计划于2022年上半年推出。公布的亮点包括预期的性能提升、新的缓存设计以及专为实时嵌入式人工智能(AI)设计的集成加速器。 Telumz16处理器有225亿个晶体管,其大约三分之一区域的逻辑块是由IBMResearch开发的第三代AICore推理加速器,每个加速器都可以从两个独立的计算阵列为每个芯片提供6TFLOP的算力,一个面向矩阵运算,另一个面向激活函数。每当内核切换到AI模式时,它就会获得整个加速器的计算能力来执行AI任务。 Telumz16芯片的设计更加流线型。(来源:nextplatform。com) 嵌入的AI加速器具有智能预取、回写控制器、大型暂存器和由微核控制的数据缓冲区,以确保有效利用计算能力。智能数据移动器控制数据流,以大约100GBs的带宽传输数据;在内部,这些数据可以从暂存器分发到超过600GBs带宽的计算引擎,从而提供低延迟和高带宽的AI能力。 IBM模拟了一个信用卡欺诈应用程序的性能。(来源:nextplatform。com) 实际应用方面,IBM已与多家客户合作以验证将实时深度学习引入响应时间敏感的事务性工作这一设计目标。在与一家全球银行共同开发的用于信用卡欺诈检测的RNN模型中,单个Telum芯片上运行该模型每秒可实现超过10万个推理任务,延迟仅为1。1毫秒;扩展到22个芯片,每秒实现了350万次推理,延迟仍然很低,仅为1。2毫秒。三星下一代HBM3和DDR5内存将内置AI处理功能 三星在大会上宣传其在内存处理(PIM)技术方面的最新进展,并称将AI功能注入到下一代HBM3和DRR5内存产品中。PIM能够通过将可编程计算单元(PCU)的AI引擎集成到内存核中来处理某些逻辑函数,加速内存的AI功能。 三星通过在高带宽内存(HBM)配置中集成内存处理(PIM),加速了AI的功能。(来源:hothardwire。com) 其实早在今年2月份,三星就推出了业界首款集成了内存处理的高带宽内存(HBMPIM)产品AquaboltXL,并在XilinxVirtexUltrascale(Alveo)AI加速器中进行了测试。该公司声称系统性能提升了近2倍,同时能耗降低了70。SynopsysCEO:AI设计的芯片将在10年内性能提升1000倍 如今很多人都听说过摩尔定律,即每两年芯片性能翻一番。今年大会上,SynopsysCEOAartdeGeus就AI改进芯片设计进行了主题演讲。他认为,AI设计的芯片正在产生巨大的成果,可能会在未来十年内使芯片的性能提高1000倍,帮助芯片行业突破摩尔定律。 Synopsys看到了在十年内将性能提高1,000倍的途径。(来源:Synopsys) DeGeus于1986年创立了电子设计自动化(EDA)软件公司Synopsys,并在去年首次推出了设计空间优化软件DSO。ai。该软件最初能够优化芯片平面图中的布局布线,但该公司正对其进行扩展,用综合方法进行自主芯片设计,利用强化学习同时优化功率、性能和面积,而不仅仅是简单的物理布局优化。 DSO的不同之处在于,它不适用于单个设计步骤,而是适用于整个设计流程。它将解决针对特定应用程序或系统的所有维度的快速芯片定制,包括硬件(物理)、软件(功能)、可制造性和架构(形式)。 EDA在芯片设计的新时代中有所不同。(来源:Synopsys) 在实际应用方面,包括三星在内的芯片制造企业对外宣布使用DSO。ai已经为他们带来了一定的效益。尽管谷歌团队在过去的两年中也多次报告将AI扩展到芯片设计自动化中的努力,并且这一赛道上还存在Cadence等多家公司的竞争,但不可否认的是,DSO。ai使Synopsys已经处于一定的领先地位。Cerebras推出世界最大芯片集群CS2可实现大脑级AI模型 随着GPT3等大规模预训练模型愈演愈烈,CerebrasSystems也坚定不移地走在研发世界上最大的芯片这条道路上。Cerebras在会上表示,新推出的CS2AI计算机单个就可以处理120万亿个参数的AI模型,理论上能够击败拥有100万亿个突触连接的人脑。 Cerebras发布的新的交换机产品SwarmX和内存计算机MemoryX。(来源:zdnet。com) Cerebras还介绍了CS2中用到的一系列行业首创技术,包括世界上最大的芯片WSE2、包含2。4PB的DRAM闪存和NAND内存的片外内存盒MemoryX、可以将多达192台CS2机器连接到MemoryX成为一个集群的SwarmX技术。 CerebrasWSE2芯片和最大的GPU对比。(来源:wired。com) WSE2芯片是世界上最大的AI芯片,有2。6万亿个晶体管、85万个处理单元,而一个GPU通常只有540亿个晶体管、几百个处理单元。该芯片采用7nm工艺,却有平板电脑那么大,并保持了世界最快单芯片处理器记录。 在实际应用方面,需要超级计算能力的实验室已经采用了Cerebras的芯片。早期客户包括阿贡国家实验室、葛兰素史克和阿斯利康等制药公司。ScienceAI也有过关于生物制药公司Peptilogics使用Cerebras芯片的报道。 另外,Cerebras也透露已经与OpenAI的工程师进行了交谈,计划通过瞄准大规模自然语言处理的新兴市场进行扩张。 (来源:TheNewYorker) 最后,我们来讲一下这颗世界上最大芯片的背后,多家公司合作的故事。 在大会技术分享的主题中,台积电研发VP余振华讲述了公司在先进封装方面的路线图,并在chiplet和3D封装上进行了详细的阐述。而Cerebras在其用单晶圆制造的WSE上,使用的正是台积电的InFOSoW封装技术。 体量的增大使WSE2拥有更密集的电路和更复杂的结构,这让芯片设计面临前所未有的复杂度。就在这个时候,Synopsys提供了一些软件,帮助Cerebras克服了一些芯片设计的难题,加速了芯片的研发。 实际上,Cerebras所面临并解决的大芯片设计和制造的挑战还有很多,我们不难看出,这颗WSE2芯片实际上是多家公司长年累月研究出的核心技术的结晶。