在一家大型电商公司中,有一个名为"星辰"的产品推荐团队。他们的任务是为每一个用户寻找属于他们的那颗“星”——最适合他们的产品。
在寻找产品的过程中,最大的挑战就是如何在亿万商品中,找到最符合每个用户需求和喜好的那一款。他们尝试过各种方法,但总是无法达到理想的效果。于是,他们决定尝试使用大模型。
随着大模型的阶段性部署,"星辰"搭建起一座连接用户和商品的桥梁,帮助用户在繁杂的商品海洋中找到他们的宝藏。同时星辰团队也收获了他们的成果.....近年来,大模型的发展取得了巨大的突破,许多"星辰"这样的企业都因大模型收获了成功。然而,ai入局带来的算力需求“跳变”,为ai的算力供给提出了新的要求——ai时代,应用正倒逼着ai算力加速扩展。
目前,支持ai计算的硬件多种多样,cpu、gpu、fpga、asic都在在ai领域中都扮演着至关重要的角色,在ai领域,它们的作用就像是一场接力赛中不同赛道的选手。gpu主要负责“冲刺”,而cpu则是起跑选手,负责启动和协调整个比赛。
然而,随着ai进一步优化计算,对cpu的性能提出了更高的要求。
amd epyc处理器恰恰就可以满足这一要求。甚至,amd epyc新一代处理器正逐步突破数据中心的极限,提供更强大的性能、效率和可扩展性进一步为ai赋能。
现在,cpu在ai计算中的作用越来越大。在业内,一群ai研究人员得出了结论——“是时候让cpu再次攻克ai了”。
amd携epyc 争霸“ai江山”
amd很早就推出了拥有超高性能的epyc系列处理器,如今它又在ai计算领域展现出新的活力。
epyc堪称amd历史上最成功的产品系列之一,经历了初代naples(那不勒斯),二代rome(罗马),三代milan(米兰)的潮流风暴后,四代genoa(热那亚)等系列的相继推出,则将epyc一副“壮丽之城”的图景展现在人们面前。
2022年,amd发布了zen 4架构的amd epyc处理器“genoa”,采用了先进的5nm工艺,最多可达到96核心192线程,配备了12通道ddr5内存和160条pcie 5.0总线。更大的内存总线,可以令更多数据在内存中进行快速加载,从而有效减少因数据传输而造成的时延;更多的pcie总线意味着在单台服务器上可以接入更多ai计算板卡,意味着在更小数据中心空间内可以提供出更高密度的ai算力。
在今年6月份举办的“数据中心与ai技术首映”上,amd针对云原生负载进行性了优化,带来了以吞吐量为导向,拥有最高终端密度和效率的amd epyc 9704处理器“bergamo”。
如果说genoa是专注于通用的工作负载,bergamo则专注于云服务器和数据中心,适用于云原生工作负载。搭载了820亿颗晶体管的bergamo,能够最高支持 128 个 zen 4c 核心,兼容x86 isa 指令,可相对满足深度云计算的应用需求。针对云原生应用,从数据上看,与至强铂金8490h相比,bergamo的性能优势更是最高达到惊人的2.6倍。事实上,更多的核心数量,对ai应用的处理能力更强。更高的加速主频,则为ai计算提供了更高的管理和控制能力。
bergamo epyc 9704系列处理器包括epyc 9754、epyc 9754s、epyc 9734三个型号。其中,epyc 9754和epyc 9754s两款拥有高达128核心,前者256路线程,后者则为128路线程,热功耗均为360w,默频2.25ghz,最高可加速至3.1ghz。epyc 9734则拥有112个核心,224路线程,热功耗为320w,默频和加速频率也降至2.2ghz和3.0ghz,三款产品的l3缓存均为256mb。
同样在本次活动上,amd还带来了针对更高性能计算的“genoa-x”,它将每个ccd上额外堆叠了64mb 3d缓存,那么12个ccd就是768mb,总的三级缓存达到了惊人的1152mb,这也是处理器缓存史上第一次突破1gb,如果算上6mb一级缓存(每核心独享64kb)、96mb二级缓存(每核心独享1mb),genoa-x的缓存总量达到了1254mb,性能堪称恐怖!
genoa-x配备了3d v-cache技术,能够使其在更加繁重的工作负载中释放出更高性能,让更多数据以更高的效能在cpu中传递,从而有效提升ai以及需要更多缓存处理计算的能力。3d v-cache技术采用业界首创的hybrid bond加穿透硅通孔技术(tsv)工艺,可以让l3缓存垂直堆叠,在不改变处理器面积的前提下,可使l3缓存(sram)总数增加三倍。
同时,更高的cache能在更短的时钟周期内,对ai应用进行有效处理。资料显示,采用3d v-cache的genoa-x 系列可以在ansys cfx中每天完成更多的设计任务,从而大幅加速产品开发。
拥有这样性能的第四代amd epyc处理器,几乎都是当前技术条件下所能达到的极致。
第四代amd epyc处理器 处处透着“领先”
第四代amd epyc处理器性能卓越的主要原因之一体现在zen 4及zen 4c架构方面。
amd zen架构诞生于2017年,迄今已经先后有了14nm zen、12nm zen 、7nm zen 2、7nm zen 3,以及5nm zen 4 genoa处理器产品。genoa拥有先进的5nm工艺、zen 4架构,凭借成熟的chiplet布局,做到最多96核心192线程,还有12通道ddr5内存、160条pcie 5.0总线。
技术的持续突破和迭代,使得amd处理器在近年来得到了“井喷式”的增长,无论是产品性能,还是产品的功耗,amd处理器都做到了空前的高度。
随着amd沿袭对创新和品质的追求,在“zen”架构的强势加持下,amd走出了一条近乎完美的处理器之路。
zen 4c架构的bergamo让我们看到了amd“zen”架构“再下一城”。bergamo首次采用zen 4c核心,它与zen 4都基于同样的isa指令集和ipc性能,几乎所有的微架构指标都一模一样。
zen 4c核心的专用l2缓存,大小与zen 4核心相同,这意味着l2 sram单元占用着相同的面积,而amd通过让l2控制逻辑电路更紧凑来减少l2缓存的区域面积,而在不包含l2和相关电路的区域,核心面积极大程度缩小。相比zen4, zen 4c设计面积缩小了35%,每瓦性能显著提高。zen 4c核心针对性能和功耗的最佳平衡点进行了优化,这为我们提供了更好的密度和能效。
第四代amd epyc处理器的强大性能不言而喻,但amd并未满足于此,正进一步拓展epyc处理器生态,与其他厂商的硬件配合,展现出无与伦比的强大效果。
nvidia的dgx高性能计算平台,就一直在使用顶级的epyc处理器,可以加速各种类型的ai工作负载,如数据分析、训练和推理等。
第四代amd epyc处理器强大的性能已领先业界一步,无疑已经成为ai计算领域综合能力最强的选择之一。这个充满变数的ai时代,在提升算力的未来道路上,第四代amd epyc处理器必将颠覆市场格局!