x86服务器与英特尔AMD之战的编年史

新闻数据2023-01-08 14:32:0051data

日前,英特尔正式发布了第三代至强sp平台icelake-sp(icx )处理器。 此外,自2017年推出第一款至强sp以来,英特尔已向全球客户交付了5000多万个至强sp处理器。 从2013年开始,云服务提供商总共部署了超过10亿个至强核心,800多家云服务提供商部署了至强处理器。

x86服务器与英特尔AMD之战的编年史

Xeon诞生于1998年6月29日,是英特尔第一个真正的服务器产品品牌,历经20多年的岁月,已经成为x86指令集兼容处理器,并走在服务器市场的前列。

不过,作为英特尔的老对手,AMD在2003年至2017年期间还有服务器市场产品皓龙,而在2003年至2007年期间,AMD象征着服务器市场上最辉煌的黄金时代。

像GPU战场一样,英特尔和AMD最重要的议题是回到高性能计算和人工智能APP应用,摆脱软件生态系统远远不如nVidia CUDA的困境。 在CPU领域,英特尔和AMD真正的决战焦点绝不是PC市场,而是利润更高的服务器和数据中心市场,英特尔曾经拥有90%以上的占有率。

但令人遗憾的是,在今年第一季度,英特尔的财报上演了“服务器毛利率低于电脑”的奇观。 我想这是自1998年至强品牌诞生以来的第一次。 相比之下,AMD在服务器市场取得了出色的战果,提交了年收益率比去年同期增长93%的漂亮的财报。 背后代表的意思,不言而喻。

接下来,我们希望您从服务器市场开始,重新审视英特尔和AMD近30年的服务器市场开拓史,认真思考“x86双人英雄的未来’”。 经过25年多的努力,英特尔和AMD携手构建了与x86指令集兼容的处理器,在当今的数据中心中占据了服务器的主导地位。 以前很难进入钻石堂,只能屈服于电脑的“吴下阿蒙”,突破了很多“RISC之神”( MIPS、SPARC、PA-RISC、Power、Alpha )构筑的魔力线, 在涉足时间之前,笔者先从“技术”、“商业”、“政治”的角度探讨一下,为什么“瑞思黄昏”成为众多“计算机群体正统派”和“计算机群体教条派”

第一大议题:从“技术”的角度看,x86是如何一步步赢得服务器市场主导地位的? x86处理器是服务器市场上最重要的一天? 1995年11月1日,英特尔推出了P6微架构奔腾pro。 这是英特尔历史上最重要的芯片,一个也没有。 1990年开始萌芽的现代高性能处理器微架构有所谓的“4S指标”。 超标量( Superscalar )、超流水线)、多处理器可扩展性)、系统管理能力( System Management )。 奔腾pro是当时x86处理器唯一兼具4S功能的处理器。 同步的Cyrix和AMD都不理想。 此外,奔腾pro的整数运算性能与同步的高端RISC处理器有很大的不同。 浮点运算全面超越RISC阵营是在SSE2指令集诞生之后。 奔腾pro到底哪里厉害? 通过高效的系统总线、改进的集成可编程中断控制器( APIC )、独立的二级高速缓存和与处理器内核的非顺序访问,奔腾pro成就了x880 在被宿敌AMD用名为K8的大铁锤敲醒之前,让英特尔好日子将近7年的x86处理器是什么时候在服务器市场上建立起稳固的地位的? 1998年6月29日英特尔推出的至强品牌成为x86服务器的象征,成为英特尔最重要的现金母牛( Cash Cow )。 根据英特尔的既定战略,服务器旗帜应该由安腾联合起来,但为什么失败了? 由于英特尔的一系列战略失误和对高端服务器市场缺乏准确的预测,“64位本命”IA-64指令集和安腾处理器不得不消失在历史的洪流中,英特尔消灭80x86的野心也随之终结。 现在,这个伟大的“历史使命”似乎落在了ARM阵营的肩上?

AMD如何进入服务器市场? 2002年4月24日,AMD面向服务器市场推出了皓龙品牌。 正好。 微软当天也宣布将发售x86-64版本的Windows操作系统。

骨灰级电脑玩家一定还记得2001年6月5日的Athlon MP,来自Alpha的EV6系统总线,在提高上搭建多处理器平台的门槛很大,几乎无疾而终。

AMD的Opteron的优点是什么? AMD K8微架构从内到外的各个部分,几乎与高端RISC处理器的设计相一致。 如果把K7看作“x86世界的阿尔法21264”,那么K8就是“穷人版的阿尔法21364”。 AMD K8微体系结构超线程( Hyper-Transport )系统总线、处理器集成内存控制器、高级MOSEI缓存数据完整性协议、强大的可靠性、可用性、可维护性( RAS )和许多节能功能x86服务器具有前所未有的多处理器和多核可扩展性,不需要昂贵的特殊服务器芯片组,任何服务器供应商都可以轻松构建。AMD K8将x86带入64位世界,只存在于中低级RISC/Unix服务器上K8成功大幅提升了AMD的市场影响力,AMD在高性能x86处理器技术领域与英特尔处于同等地位。 Xeon和Opteron两大品牌展开竞争,兄弟俩爬山各奔东西,拓展了x86在服务器市场的版图。 为什么“RISC之神”很快又消失了,只剩下IBM Power了呢? 因为它被称为“IBM”。

第二大议题:“x86 Everywhere”是从商业和政治的角度如何产生的? 天下任何产品的发展和市场的发展,都是“技术”、“商业”和“政治”交错影响的结果。 支持x86指令集的处理器可以“淘汰”RISC的诸神,商业和政治因素比冰冷的技术更重要。 20世纪90年代末期,x86处理器逐渐支配了服务器市场的关键因素:

Windows NT。 Linux (笔者试图以私心加FreeBSD。 出货量持续急剧增加的电脑市场。 电脑市场和服务器有什么关系? 1998年,个人电脑市场全球出货量突破“1亿”,是英特尔和AMD长期保持半导体行业尖端流程和最大研发团队的基础。 除了为“RISC之神”提供巨大的成本优势外,还可以利用更多的晶体管来充分弥补x86指令集的许多先天缺陷(虽然RISC指令集应该可以轻松构建更高能效的处理器,但最终还是sasa 这与20世纪90年代末x86处理器扩展到笔记本电脑密切相关,尤其是在英特尔为迅驰定制奔腾m处理器,建立了“追求高功耗比”的长期发展方向后,服务器产品2006年,Merom微体系结构统一了服务器、台式PC和笔记本电脑,为至强产品线带来了“强制当选”,与IBM Power和Oracle/Sun的SPARC相比,优势明显如果这几年大家也对这张票感兴趣,而且还没有过一段时间的“ARM服务器”,那么他们一定会在意这种暴力规格的ARM处理器为什么看起来不那么节能。 其实,当处理器微架构的复杂性达到“隐形临界点”时,“相对复杂无比”的x86指令集带来的额外“征税”也就不再引人注目。 IBM不是一直试图推广Power Everywhere,为什么很难成功? 因为IBM自己也在制作服务器,所以有“既当裁判又当选手”的疑问。 这就是非常明显的政治因素。 谁能动摇x86处理器在现代数据中心的主导地位? 除非只有这家领先的云服务运营商全部采用自研的自家专用“非x86”(不一定是ARM,例如谷歌的TPU )处理器,否则很难动摇x86的地位。 另外,晶片代理工厂的高级生产能力正处于不可能的紧张状态,自由放弃拥有大量独特生产能力的英特尔处理器的风险不可能很大。 看了AMD的缺货状况就知道了,但是产品再好,商品也出不来只是徒劳。 对于一般商用服务器市场,ARM在企业服务器上应用的生态系统已经成熟到连一般的MIS都想采用的程度之前,所谈的也比以前多了。 无论是英特尔还是AMD,“服务器、台式机和笔记本电脑”都通用x86微体系结构,这是现代主流。 而Xeon-SP和EPYC,正是“100%服务器优化”的设计吗? 这就是x86指令集的原罪。 超长的产品开发和验证周期使得拥有巨大研发能量的英特尔和AMD只能将资源集中在非常少的项目上,而且难以快速响应新的APP沟通需求。 这是IP授权厂商(如ARM )、EDA工具软件和专业晶圆代理商主导消费者产品芯片的主要因素。 这才是ARM阵营在服务器领域的最佳切入点,偏偏只有“实际用户”才知道需要的产品规格是什么,他们才有本钱自己研发芯片。 最后,ARM能否在服务器市场上出现快速的“范式转变”? 老实说,怎么想都非常难。 革命性的APP应用,如软件定义网络、网络虚拟化和25G以太网,从1G迁移到10G需要10年的时间,在不到3年的时间内冲出了智能网卡,跨越了整个数据中心的APP应用架构也许你可以更在意Nvidia即将发生的革命,以及云巨头吹成什么样。 何况英特尔和AMD不会躺着等死。 一切还得看。 当然,如果AMD自己带头制作ARM版EPYC的话,那又会变成完全不同的世界线。 坐上时间机器,回到社会对x86的刻板印象,想象一下很难和“服务器”画上等号的旧时代吧。

1995~1998年:在英特尔开始的酿造期,电脑普及化,带来了更悲惨的价格竞争。 20世纪90年代后期英特尔和AMD为了维持利润而投入服务器市场,实际上是不得不这样做的。 在1994年的第一季度,主频100MHz的奔腾以“995美元”的价格出售,今天已经足够制造出顶级的台式机了。 短短半年就能打7折。 在个人电脑出货量达到1亿台的历史最高纪录的1998年,“600美元个人电脑”成为热潮,低级处理器的价格大战爆发,英特尔的赛扬和AMD的K6-2大热,x86处理器的工厂“Cyrix、Cyrix” 英特尔并不是第一次进入服务器市场“顺便”打破入门级CPU平均水平的至强,第二代奔腾处理器是支持双处理器配置的高级可编程中断控制器( APIC ) 奔腾pro )奔腾pro )带来了创新的处理器微架构和新的系统平台,均以成功和失败告终。 那么,200 MHz奔腾pro“大胆地”定价1,989美元,是一项了不起的伟业。 反过来说,从20世纪80年代末期开始,服务器市场上的“RISC众神”早已拥有了丰厚的利润。 例如,以Sun的UltraSPARC为例,1998年第2季度,个人电脑市场的降价大战爆发时,360MHz的UltraSPARC II模块的价格为3,961美元

我们也知道,今天即使是同一个晶粒,如果包装上印着不同的品牌,价格也会有天壤之别。 AMD还提供了用于Opteron的晶粒质量好、验证项目多、用微码修复bug的不同点等说明演示,以说明单处理器Opteron 100系列与台式PC的Athlon 64有何不同因此,近年来,甚至发展为家用电器的RISC指令集,就像目前最普及的ARM一样,阵营也在积极开拓服务器市场。 x86处理器在全球不再具有存在感的VIA也已潜在多年,并发布了目标5G边缘服务器( MEC )的CHA系统单芯片。 充满神秘俄罗斯血统的俄罗斯Elbrus,只是为了不让CPU受到“邪恶的美帝国主义者”的束缚,在多处理器服务领域被耕耘了很久。 熟悉技术的人知道,服务器CPU需要卓越的性能、卓越的多处理器可扩展性和可扩展性、完全可靠的可靠性、滴水不漏的可用性、强大的系统芯片组和海量的系统内存。 但是,商业因素比技术门槛要严格得多。 英特尔和AMD如何说服企业客户? 长期开发100美元台式PC芯片等便宜货的制造商,有能力卖出3,500美元左右的服务器芯片,所以像另设“豪华车专用品牌”的汽车制造商一样,英特尔制造至强来划分市场在与Alpha EV6总线兼容的Athlon MP试图夺取沙滩服务器市场失败后,英特尔的老对手AMD于2002年4月24日也借Opteron之名,踏上了一条不可收拾的征程。

1998~2001年:至强诞生创业期的英特尔,首要考虑的是推出“一看就知道是服务器专用的”产品。 巨大的Slot-2“弹坑”就是为此而诞生的。

不过,英特尔并不是为了让至强看起来更专业,才制造出如此巨大的塑料外壳,为了支持更大容量的同核频率高速二级高速缓存,原本242针的Slot-1无法满足电力需求封装在系统管理总线( SMBus )中,恢复对奔腾pro的本机多处理器支持,并且为了确保四处理器,系统总线可以达到100MHz。 除了英特尔专利的GTL之外,还引入了其他AGTL信号,在奔腾iii代中将其提高到133MHz。 “扩大内存容量”和“高速缓存地址范围”也是另一种方法。 为了突破32位的4GB限制,在奔腾pro推出的PAE-36模式的基础上,奔腾ii代至强还添加了“性能较低,但比较不需要更改软件系统”的PSE-36。 奔腾ii代至强的二级高速缓存覆盖了64GB的整个可寻址内存范围,而不是像以前的奔腾ii那样限制512MB或4GB。提高数据可靠度的ECC纠错是更必须的制式武装。 像低价的电脑Celeron、奔腾iii时代后期的至强一样,随着工艺技术的进步,将外部缓存塞进了CPU主体。 2001年3月21日推出的至强2001内置高达2MB的二级高速缓存,开创了英特尔大容量高速缓存的先例。 难怪今后英特尔会被戏弄。 这家公司最大的业务不是制造CPU,而是制造缓存。

2001-2001年:至强扩展和AMD Opteron带来的风暴通过命名英特尔2001年及更高版本的至强产品线,并完全删除奔腾字样,彻底摆脱PC映像,实现32位NetBurst我的Xeon DP (双处理器)和Xeon MP (四处理器)已建立。要支持多处理器,请坦率地花钱购买更昂贵的Xeon。

由于服务器产品追求更高的可靠性和稳定性,验证时间延长,至强MP通常上市时间晚,主频也低,而且有大容量的缓存。 相比之下,至强DP就像将台式机处理器更换为另一个软件包。 由NetBurst推出的xAPIC,通过将APIC的3位专用总线直接嵌入系统总线协议中,避免了APIC工作时对内存访问性能的影响,使处理器内核的上限急剧增加到255。 虽然有人批评第一代180纳米制程奔腾4有较高的主频空闲,但正如部分性能不及前代奔腾iii和AMD Athlon MP一样,早期的至强DP也是整体性能拥有2MB L2高速缓存的终端奔腾iii XXX 到了130nm工艺世代,主频大幅提高后,这个问题逐渐消失。 另外,关于英特尔的HyperThreading的首次登场,一般的资深电脑玩家都会以2002年11月以后的130nm工艺奔腾4为印象,但实际上是当年2月的130nm工艺至强DP登场了。 对于多人同时进行多任务的服务器来说,能够改善整体输出率的并发多线程( SMT )技术,简直是天与地的融合。

更重要的是,英特尔以实际行动证明了180纳米工艺的NetBurst内核嵌入了HyperThreading传言,2003年3月的至强MP支持了这一“一个用作两个”的神秘功能。 英特尔还没有弄清楚为什么第一代奔腾4就这样留下了手。 主要因素可能是PC操作系统的多处理器支持性。 面对来势汹汹的AMD K8,英特尔于2003年9月在Athlon 64和Athlon 64 FX之前一周发布了将至强专用内核“下架”到台式PC的奔腾4至尊版,但依然来势汹汹Xeon MP采用2004年2月的90纳米工艺,由于使用了一次连接4个CPU的SMP系统总线和共享的内存控制器,因此成为了性能瓶颈。 它还强调了AMD K8集成内存控制器和虚拟机管理程序总线的巨大优势。 2003年4月22日,AMD Opteron问世,让英特尔做了多年的噩梦,英特尔处理器产品Roadmap也陷入了前所未有的混乱。

2003年:皓龙英特尔和惠普联手打造的安腾处理器,迎来了AMD全盛时期,导致了战略失败和出师不利,给了AMD进入服务器市场的机会。 与英特尔相比,AMD Opteron不仅拥有压倒性的技术优势,而且产品编号也非常清晰易懂,被认为“已经准备好了”。

如果一个多处理器( 4个或8个) (从单处理器2 )进入DDR2内存,则代码为x200,同样,2代表“第二代”。

当时,x86服务器也是需要直接寻址4GB以上主内存的心理关键时刻。 AMD于1999年推出的x86-64指令集具有x86回溯兼容性和加倍的高速缓存,使其成为一个有吸引力的64位方案。 2002年4月24日,AMD发布了Opteron品牌,当天微软也宣布“偶然”发布x86-64版Windows。 由此,英特尔制定的“64位天子”安腾处理器的未来将笼罩在不祥的阴霾中。

AMD其他K8产品线品牌的发布日期也标志着64位x86指令集逐渐普及到其他APP应用领域的一个里程碑。

Athlon 64 (桌上型电脑) 2002年11月19日。 Sempron (低价产品) 2004年6月7日。 BBS连接硬件版被称为“散步龙”,与英特尔的“洗地龙”( Celeron )相互辉映,唯一的共同点是“散步”和“洗地”都象征着“跑不快”。 Turion 64 (笔记本电脑)我还依稀记得,2005年1月10日,惠普还是首屈一指的笔记本电脑制造商。 AMD之所以在短短两年内席卷服务器市场,并强行从英特尔手中夺取30%以上的市场份额,除了64位之外,还有很多重要因素。 服务器级调试容错: L1和L2缓存,用于纠正每ECC元错误;Chipkill技术,用于避免内存多位错误;奇偶位调试的L1指令缓存;巨大的翻译备份缓冲区HyperTransport总线: Opteron对于每个处理器都是有限的,如英特尔传统北桥体系结构,甚至可以提供报告系统错误的MCA )机械缓存( MCA )功能由于需要昂贵复杂的芯片组(如桥接芯片),因此实现皓龙多处理器环境比至强简单得多。 因此,大型皓龙多处理器平台比至强MP享有更短的研发。时间不仅成本相对较低,而且性能和可靠性也不打折扣,曾经将AMD作为四处理器以上的x86服务器,上市率高达40%。 英特尔带着QPI追赶上了AMD,直到2008年的Nehalem。

高效的缓存一致性协议( Cache Coherence Protocol ) :这严重影响了多处理器环境的性能,但AMD的MOESI协议非常好。

与处理器核心频率相同的整合式记忆体控制器:将多处理器环境转换为cc-numa (快取记忆体架构)分散式记忆体架构。 集成内存控制器使整个皓龙的内存性能远远优于英特尔系统前端总线( FSB )连接北桥),处理器越多,可扩展的内存容量也越大。 2005年,企业需要128GB主内存的服务器,而采用安腾的HP SuperDome售价为4千万台币,而8个皓龙系统(如Sun X4600和Iwill H8501 )的内存容量分别为16GB

支持本机双核:如果北桥内存控制器位于处理器晶粒中,则无需担心双核多核的内部带宽和延迟问题。 AMD从2001年开始,在原生双核(宣布将K8直达下图的CPU 0和CPU 1,并于2004年8月31日)-2004年秋季IDF )上公开了双核样品,并于2005年4月准时登场。 这是AMD x86处理器发展史上最大的战略胜利。

从K7演进而来的成熟微体系结构: K8基于K7进行了改进,功耗比同期的英特尔NetBurst系统低得多。 AMD于2002年2月26日( 2002年春IDF )首次展示了单核K8,并于隔年4月正式发售,以低运行频率“屠杀”了英特尔NetBurst系统的产品线。

强大的动态分支预测和内存转换备份缓冲区,足以支持“分支密集型、内存密集型”的服务器端APP应用程序操作模式。

有趣的是,由于K8的L1/L2高速缓存是“排他的”,所以AMD还利用了“当L1指令高速缓存的数据返回到L2时,L2的ECC将被浪费”“L1指令高速缓存只有Parity”的特征,进行了分支

2003年底推出的Opteron 848售价高达3,199美元,对于只能在电脑市场与英特尔进行价格竞争的AMD来说,这是一个难以想象的梦想。 2004年6月14日,AMD发布新闻公报,向世界宣传“我们已经设计了原生双核产品”,拓展了产品Roadmap。

2004年7月17日: Cray宣布将建设10880台由Opteron构建的Red Storm超级计算机。

2004年8月23日: AMD和Newisys在IEEE HotChips 16上发布了Horus芯片组。 这是AMD史上第一个32处理器的大型系统架构。 即使后来死在胎儿里。

2005年4月21日,AMD推出双核皓龙800系列,引领英特尔酷睿2家族一年多,是AMD公司当时意志最消沉的时期。

但是,再幸运也有用完的一天。 当时,AMD并没有预料到英特尔即将发动的帝国大反击,不仅是Pat Gelsinger的带领,更是走上了原生四核处理器的道路。

2004-2006年:正当英特尔amd空前混乱地在服务器市场上崛起之际,英特尔的64位布局给amd带来了混乱,陷入了内外外交困境。 结果是,一套64位x86指令集摆在鸭架上,一套性能改进方案,一个不换药的“双层馅水饺”双核。

除了配备大型L3高速缓存的至强MP和看起来有点着急的双核至强DP之外,这一时期的至强是台式PC系统的衍生品,它将一两个芯片封装,以及顺便封口的64位“ 值得一提的是,在此NetBurst混乱期的末期,英特尔建立了至强MP 7000和至强DP 5000命名体系。 现在,我看到至强4码的数码模型就是以这个时候为起点的。

但是,AMD在服务器市场带来的空前威胁激发了英特尔的全部潜力,使至强具有更强的多处理器竞争力。 例如,对于至强MP平台真与,E8500系列芯片组不仅可以从双系统前端总线上稍微弥补与AMD Opteron的带宽差距,还可以通过内存缓冲控制器“XMB、exteron

由于芯片组的引脚数量有限,即使出现血拼,在北桥芯片组内“硬驱”8通道内存时,一个内存通道也能“推送”几个模块也是一大挑战相比之下,划分一些存储器控制器的功能,这样高单价的多处理器服务器就足以吸收这些额外的成本。 年龄稍大的读者也应该知道,这是IBM的Power和z系列的大型主机等很多高端服务器多年的特点。

今后,Xeon MP系列也将如此,包括8核Nehalem-EX、10核Westmere-EX、15核Ivy Bridge-EX、18核Haswell-EX和24核Broadwell- EX

为了提高对服务器的网络访问能力,微软于2006年3月发布了scalablenetworkingpack(SNP )和NDIS 5.2 Miniport驱动程序架构。 技术核心的NetDMA规范试图通过从网卡直达APP应用内存的烟囱,作为英特尔第一个至强DP bensley平台的英特尔I/OAT也相继发展了几代,唯一不变的是“CPU吗? 总之,以2005年为起点,以至强MP和皓龙x800系列为中心的x86处理器,其4处理器以上的高端服务器芯片的出货量急速增加,蚕食了传统高端RISC服务器的地盘,2014年英特尔即使产品单价很低,也会吃掉80%以上的收益,RISC顺便说一下,在这个市场上,2014年IBM为12%~15%,收购Sun的Oracle还剩下5%。 甚至连四处理器都不用想单处理器平台和双处理器平台。 这些年来,很多曾经呼风唤雨的“RISC之神”都沦落到这种地步,令人痛心。

2006~2008年:英特尔开始改变AMD英特尔原计划的“三轨通用”(服务器安腾、台式机NetBurst、笔记本奔腾m )产品开发计划,准备反击2005年将完全颠覆,以回归x86为中心,在集中发展资源的同时,满足笔记本电脑、台式机和服务器的x86处理器微架构,满足台式机和服务器的英特尔钟摆的巨大车轮

英特尔看好谷歌这样的云服务运营商,为了降低成本,数据中心采用单处理器平台(谷歌第一代自制服务器使用单个奔腾iii ),英特尔也精简至强产品线扩展到与台式PC处理器相同占地面积、相同产品编号的3000系列,落后于AMD Opteron 100系列几年。 打上至强品牌的价格当然很贵,但产品是否可靠,只有这些客户才能知道。 根据脚的位置,至强产品线分为三部分。

单处理器至强up:LGA 775的3000双处理器至强DP:LGA 771的5000四处理器至强MP:socket 604的7000。 这就像一只古老的脚,有着惊人的长生命周期。 通过为支持的系统芯片组指定相同的名称,客户可以更容易地理解哪些CPU应该与哪些芯片组配合使用。 在数字编号之外,以65纳米工艺四核为起点,在型号中添加了e (高功耗)、l )、x )高功耗,突出了产品属性。 Xeon去掉了位于印度班加罗尔的英特尔研发团队负责的原生六核Dunnington,剩下的四核仍然是包裹着两个芯片的“双层馅水饺”,存在于集成内存控制器和分布式主内存中

尖读者发现某些至强DP存在很大差异,应当特别显示超低电压( ULV )的特色。 至强LV存在的原因不仅仅是当时流行的“刀片式服务器”拉动了超低功耗服务器CPU的需求。 事后以诸葛亮的视角回顾这段历史,刀片式服务器的风潮真是“昙花一现”。 其实,这款双核至强LV源于酷睿微架构( Merom )的前身Yonah,也出自以色列海法研发团队之手,通过从NetBurst到酷睿的“过渡期实验性除了没有64位之外,很多Merom的特征在Yonah上也能看到,比如双核共享大型L2缓存。 英特尔研发资源丰富,可见一斑。

由于CPU内核倍增需要大幅提高内存容量和带宽,英特尔在至强DP和至强MP系统芯片组上部署了f B- DIMM (全缓冲DIMM )。 如果通过接近PCI Express的串行总线和通信协议记住内存控制器和内存模块上的上述英特尔E8500芯片组的IMI和XMB,FB-DIMM将“IMI/XMB概念迁移到内存模块的JEDEC标准但是,FB-DIMM在市场上生存并不长。 主要原因是高成本和长内存访问延迟,普及率不高,也不想使用AMD,只有Sun UltraSPARC T2做出了贡献,最终悄然消失在所有制造商的产品Roadmap中。

当时,入门级面向服务器的5100芯片组( San Clemente )被视为“清流”,因为它保留了“传统”的DDR2内存,而且性能也不比FB-DIMM的产品差。 高速缓存相干协议窥探滤波器)内置于诸如5000x(greencreek )、5400 ( sea burg )、7300 ( Clark sboro )等上层芯片组中,用于存储块地址

酷睿2时代的英特尔至强无法一举击败在系统平台架构上保持技术优势的amd皓龙。 到了Nehalem/Westmere才开花,AMD一直持续到2017年。

2008~2011年:上图显示的是英特尔全力击败AMD的原生8核、24MB L3高速缓存、晶粒面积648平方厘米的nehalem-ex(beckton ),这款“巨兽”由英特尔打造源于笔记本电脑需求的酷睿微体系结构明显优于AMD K8和K10,但在系统体系结构水平上落后于AMD。 英特尔在Nehalem一代进行了一次“补充”,彻底瓦解了AMD的服务器产品战线。 自从Merom以来,英特尔的所有x86处理器微体系结构都必须兼顾服务器、台式PC和笔记本电脑,但Nehalem最重要的任务是“尽快将AMD部署到服务器上它将服务器和高性能台式机放在首位,直到采用32纳米工艺的Westmere才抢占了笔记本电脑市场。 在此期间,除了单处理器3000、双处理器5000、四处理器7000和至强产品命名约定之外,至强产品命名约定还增加了以下内容:

双处理器的核心代码多为高效性能( EP ),多处理器为可扩展( ex )。 6000系列:将顶级7000系列处理器“下架”为双处理器。 由于QPI大大提高了多处理器的可扩展性,7000/8000系列直接支持8处理器平台,不再是amd皓龙x800系列的特权。 英特尔主流台式机PC处理器支架的h系列插槽以h1(LGA1156 )为起点,到达今天的h5 ) LGA1200 )。 Jasper Forest是内置了pciexpressntb ( non-transperentbridge )技术的特化版Nehalem,简言之,就是制造商对双控制器( Dual Controller )相互冗馀性高的信赖例如,与便于开发双控制器企业存储设备等的Merom相比,Nehalem的最大突破可以从内到外简单概括为以下几点:

HyperThreading复活,CPU再次被用作一个两个。 所有核心都独占二级高速缓存,共享内置的三级高速缓存。 CPU与内存控制器集成,MCH消失。 从alpha ev7引入QPI总线,将缓存一致性协议( Cache Coherence Protocol )修改为MESIF。 Nehalem的x2APIC处理器内核数量的上限为4294967295,可以视为无限大。 八核Nehalem-EX也部署在处理器的环形总线上,为未来几年的英特尔多核x86处理器奠定了技术基础。 在Xeon-Phi和Xeon-SP中,网格结构( Mesh )已被替换。

从微架构层面来看,今天的“微指令高速缓存”( uOp Cache )是英特尔、AMD处理器共同武装的一部分,只要一命中,就无需启动复杂、功耗高的指令解码器,即可实现功耗和性能以NetBurst失败的Trace Cache为起点,前进到Nehalem才出现真正的雏形。 结果,Nehalem微架构至强平台呈现出与以往完全不同的风貌,即使增加了一个稍显碍眼甚至消失在Sandy Bridge中的IOH,也与近几年的AMD Opteron相似。 Nehalem一代不再受系统前端总线和MCH的约束,拥有更大的系统总线和内存带宽,整体性能进一步提高,AMD翻身变得困难。 四处理器和八处理器至强平台是NetBurst时代至强MP的内部存储器接口( imi )接口,用于支持更大的内存和更多的内存体通道

为了增强服务器的可靠性、可用性和可维护性( RAS ),英特尔将nehalem-ex至强7500系列中的安腾完整RAS体系结构移植到x86平台上。 通知recore操作系统或虚拟机管理员(虚拟机管理程序)这些设备不再可用,关闭错误标记的数据,然后进行专业操作当然,还需要与操作系统进行协作,如2008年从Windows Vista和Windows Server 2008引入的whea ( windowshardwareerrorarchitecture )。 通过不断加强,x86处理器将正式步入高端服务器的舞台。 从Merom到Nehalem的“帝国大反击”,使AMD在x86服务器上的市场占有率迅速下降,再从10%下跌到个位数的水平,让曾经的Opteron品牌黯然失色。 从Zen一代开始,AMD就开始“回归农药”,服务器品牌也更名为EPYC,不再使用曾经代表AMD最辉煌时期的名称。

前几天AMD发生了什么?

上图为原生四核K10 Barcelona,也是AMD Opteron兴盛至极的拐点。 AMD从2003~2007年开始,一直压制英特尔并猛烈攻击了好几年。 但英特尔从2006年开始吹响反攻号角,AMD于2006年夏天花费54亿美元收购ATi,严重影响了AMD内部的产品开发日程,带来了一系列骨牌效应。 2006年圣诞节,当AMD宣布原生四核K10将完成设计,CEO Hector Ruiz将亲自主持庆功圣诞晚会时,全世界都感受到AMD已经力不从心。 结果,2007年11月,发生了导致系统停机的“TLB错误”事件,但更新BIOS并关闭TLB会导致性能下降10%~30%。 AMD在服务器市场的发展势头就像自由落体直线下降一样,很难恢复。

AMD于2009年6月准时发售了原生6核K10 Istanbul,在产品市场宣传会上宣传了“使命必达的执行力”。 但这也是AMD成功的极限,通过Fusion将CPU和GPU融合的大战略,AMD加大了这一准备力度,产品计划也逐渐脱轨,之后获得了艰难的服务器市场占有率,被英特尔振子折磨得很大的AMD也是socd 尽管Opteron产品线缩减至4000 (单处理器或双处理器、Socket C32 )和6000 (双处理器或多处理器、Socket G34 )系列,但x86服务器的市场占有率仍然只有一位数姗姗来迟的“救世主”推土机家族能成功救助吗? 但事后证明,只是取出油来灭火。

2011~2017年:英特尔钟摆巨轮击碎AMD

英特尔在22纳米工艺下悄然引入3D立体结构Tri-Gate晶体管,并于2011年5月正式向全球发布。 领导其他制造商FinFET至少已超过三年,这家将摩尔定律作为登山宝训的公司,是先进半导体工艺领域最让人意志消沉的时刻。 当英特尔在2014年2月10日的旧金山IEEE ISSCC (国际固态电路研讨会)上正式公布代号为Ivytown的Ivy Bridge-EX的技术细节时,核心数量几乎是前代Sandy Bridge-EP的两倍

以2011年的Sandybridge(tock )为起点,英特尔的振子巨轮开始全速旋转,连续的ivy bridge ( tick )、has well ( tock )、Brock ( Brock ) 为了适应不同产品线的需要,同一代微架构的处理器配置包括廉价航空公司( lowcorecount,低频率核)、HCC )、高频率核)、xcc )外部由于长期的产品开发和验证,与时间、台式机和笔记本电脑处理器的“时差”也会增加,顶级产品可能会延迟两年以上。

如果你看看英特尔钟摆的节奏,就会明白为什么这几年是AMD最悲伤、最不堪回首的一天。 著名技术评论家Real World Tech站长David Kanter这样形容英特尔的钟摆“Damn Excellent At Execution”,无疑是最恰当的写照。 2011年( Tock ) ) Sandy Bridge,抛弃系统架构炙手可热的IOH,引入AVX指令集,uOp cache,交换NetBurst体系的无序指令执行引擎,缓冲区和实体数据密钥2012年( Tick ):Ivy Bridge,最大的改进还是飞出15核的Ivy Bridge-EX妖怪,不给AMD的“双馅十六核”反击的机会。 分配调整各I/O外围设备访问处理器的需求,发行中断时,知道应该由哪个处理器负责是现代多处理器环境的必要条件,是1993年奔腾的先进的可编程中断控制器虽然来自高级编程控制器( advancedprogrammableinterruptcontroller ),但与内存虚拟化一样,让VMM进行软件模拟的Shadow APIC不仅会消耗处理器性能英特尔于2013年推出了至强E5-2600 v2,其中应用程序虚拟化( apicv )已应用于Ivy Bridge微体系结构。 继box boro-ex ( nehalem-ex/west mere-ex )平台的SMI之后,积木和平台( ivy bridge )提供足够的内存带宽和容量,以应对急剧增长的内核数量broadwex )之后的数据传输接口从串行爆炸性地增加到64位并行,管线从70条增加到110条,电气特性也根本不同,总之要舍弃。

2013年( Tock ) Haswell新增了AVX2指令集,带来了英特尔x86处理器微架构史上最大规模的执行单元扩展行为,大大增强了虚拟化功能,不同的虚拟机拥有L3缓存和内存带宽实现“三级高速缓存QoS”服务质量)的Haswell-EP/EX的最大核心配置再次稍微增加到18个核心,AMD的核心数量甚至不便宜。

2014年( Tick ) Broadwell,更全面的硬件化应用程序( apicv )和资源目录技术三级缓存QoS,Broadwell-Eell

为了阻止ARM和其他RISC阵营,藉由低耗电量和网络存储等APP方式“渗透”服务器市场,英特尔推出了集成网络控制器和大量I/O接口的至强- d系统单芯片它在入门级企业存储和互联网产品中很受欢迎,然后升级到Skylake-DE。

AMD Opteron接近了生命的终点。 AMD最初选中了IBM Power4的首席工程师Chuck Moore,发现其集群多线程( CMT,clustalline )“只需增加50%的晶粒面积就可以将性能提高80%”

AMD也效仿英特尔,同时开发大核和小核。 后者在游戏机领域取得了巨大的战果,但无法挽回服务器市场的衰退。

AMD错误估计了英特尔振子节奏的进步幅度,即使是规格到处乱套的推土机( Bulldozer ),也注定无法与融合P6和NetBurst技术而大成的Sandy Bridge抗衡。 AMD服务器战线完全崩溃,到2017年,EPYC重返战场。

读者不妨先复习一下AMD现代x86处理器的家族配置文件。 对2010年以后的AMD产品线的混乱会更加敏感吧。

AMD原本依靠推土机、打桩机、压路机、动力挖掘机这种连续四代的集群多线程微架构,用两个相对简单的整数运算核心打英特尔大核心,双核共享的浮点运算器

最终,AMD Opteron输给了核心数,这场“走音工地秀”也没能结束。 群集多线程皓龙实际上只发展到了第二代——挖掘机X3000是一款采用台式机的低级产品——并闯入了没有竞争优势的ARM Cortex-A57核心A1100系列。 “正统”皓龙处理器的发展仅持续到2012年,但已经画上了句号。 然后,一直等到Lisa Su就任,将漫天飞舞的演讲团结在一起,全力开发Zen。

强烈反对,否则,就轮到AMD吹响反攻的号角了。 2017年6月,第一代EPYC试图与落后的Skylake-SP Purley平台对决时,声音相当微弱,几乎听不见。

2015年~2020年:英特尔揉合牙膏再次被AMD反超,领先优势可能过于扩大。 IBM也很难将权力有效地“下放”给普通老百姓的家庭。 由于没有竞争对手,英特尔在2015年( Tock )推出了“技术汇聚的最终英特尔”x86处理器微架构”Skylake后,钟摆巨大的英特尔厨房妈妈至强也“一次到位” 满足所有市场需求的Skylake-SP Purley平台,一再落后,直到2017年7月才姗姗来迟,被AMD吞噬,发动了“回归农药”的大反击。

既然天朗基微架构是“钟摆六世激励”技术的集大成者,以其为心脏的至强当然也不能丢脸。 不让世人觉得“引人注目”是不好的。 Skylake-SP之所以经常使用可伸缩平台( sp ),是因为它整合了过去的至强MP和至强DP以及EN/EP/EX的系统体系结构,从而实现了无与伦比的整合

因此,Skylake-SP呈现出了与过去的至强平台完全不同的新面貌。 笔者只列举几个引人注目的要点吧。

Skylake-SP内核比典型的台式PC和笔记本电脑处理器有更多的AVX-512指令集,为此增加了两个专用的执行单元。 另外,L2/L3缓存也针对服务器调整了容量和块替换策略,这也导致了单核面积的增大,日后引起了很多诸葛亮的批评。 像Lilin一样,用超连接( UPI )总线代替将来会被“吸引”的QPI。 省略XMB、SMB和SMB2内存缓冲区,所有内存模块都直接连接到CPU,并与双处理器、四处理器和八处理器集成到六通道DDR4内存中。 系统芯片组集成了用于iWARP的10GbE以太网控制器和快速辅助处理器,可提高数据压缩和解密性能。 有些机型集成了英特尔独有的OmniPath总线控制器,可为高性能计算( HPC )等APP应用提供超低延迟功能。 但英特尔宣布将于2019年放弃OmniPath。 3D XPoint内存模块Optane Apache Pass已推迟到两年后的少量改进版Cascade Lake-SP。 产品命名系统在数字的基础上,还增加了白金、黄金、银色、铜牌等名称,看起来像80 PLUS电源的效率等级认证。 对于2019年4月上市的Cascade Lake-SP,AVX-512使用名为Deep Learning Boost的VNNI命令(重点是支持人工智能推理所需的INT8/INT16短整数)和熔断) meltdowowp )”的2020年6月的Cooper Lake-P补充了对深度学习所需的BFloat16格式的支持,加固重点集中在人工智能上,过程也“死守”了14纳米。 面对AMD EPYC压倒性的核心数量优势,英特尔也再现了“双层馅水饺”的老码,打造了400W功耗、最大56个核心的Cascade Lake-AP。

此表可帮助读者快速了解IntelXeon-sp的“牙膏期”更替历史。

随着Cooper Lake-SP跨越腰斩的风波,英特尔终于在2020年夏天在HotChips 32上公开了Ice Lake-SP技术的细节,漫长的“14nm Skylake牙膏期”看起来将划上句号

值得注意的是,英特尔在第三代至强sp上暂时再现了至强MP和至强DP的分离

的样貌,在第四代的Eagle Stream平台和Sapphire Rapids处理器之前,如果需要BF16浮点格式做人工智能深度学习,就请乖乖掏钱购买比较贵的Cedar Island平台和Cooper Lake-P处理器。

时过境迁,AMD总算挺过了最黑暗的10年。随着2017年AMD发布第一代EPYC服务器芯片,重新向数据中心处理器市场发起冲击之后,得益于出色的Zen架构以及台积电的先进制程的加持,仅过了两年的的时间,根据官方公布的数据显示,2019年AMD在服务器市场的份额就迅速增长到了接近8%。而去年底AMD还推出基于Zen 3架构的第三代EPYC服务器芯片(代号Milan),这将是一款基于台积电7nm工艺制程,最高64核心的产品。外界认为,新一代性能更强的EPYC服务器芯片有望助推AMD市场份额的进一步提升。但是也同样将面对英特尔最新推出的10nm工艺的第三代Xeon-SP带来的巨大压力。另外,目前AMD在服务器市场的市占率,却仍看不到当年Opteron全盛时期的车尾灯。身为Opteron继承者,EPYC跟英特尔的Xeon-SP之间的激战,依旧是未来数年内,处理器技术领域最值得关注的焦点(假若ARM没有在数据中心领域出现爆发性成长)。

2021年之后:英特尔再度重启钟摆巨轮

Pat Gelsinger做为英特尔的CEO回归后,宣布重启“钟摆巨轮”,但这次面临的局势,远比15年前更严峻。

综观已知的英特尔未来数年Xeon产品Roadmap,重点都不在于规格细节和有没有看起来出色的尖端技术,而是英特尔能否重现“钟摆期”(2011~2017)使命必达的优异执行力。

除此之外,英特尔还得面对两个问题:“利润下滑”和“来自ARM的潜在威胁”。现今以云端服务业者的数据中心为大宗的服务器市场,处理器采购案可谓杀价杀到刀刀见骨的程度,动辄砍到牌价三四成的惨案,亦随处可闻。这也是为何AMD宁愿付出效能代价、宁可让多芯片封装衍生出较长的数据存取延迟、选择Chiplet“多馅水饺”路线的主因,并且利于应对供货需求、灵活调配服务器和桌面PC的出货比例。

当然,握有绝大多数市场的英特尔可透过大量的“商业手段”和“生态系统”维持市占率的稳定,不过因为产品逐渐失去竞争力而导致获利下滑,对英特尔才是最致命的一击。请别忘了Xeon一直是英特尔最重要的现金母牛,很不幸的,这件事似乎已经成为现在进行式了。

x86双雄将如何面对伺服器市场巨变

此外,对业界动态敏感的读者,应该有留意到一件看似微不足道、但绝对影响深远的小事:VMware在2020年10月6日(那时Pat Gelsinger还是VMware执行长),发表Arm版ESXi Hypervisor。这代表VMware可能认定Arm在服务器应用的爆发性成长,即将抵达微妙的临界点与心理关键时刻。

回过头来,ARM要切入个人电脑市场的成功率,最终仍取决于微软的态度,是否愿意再大费周章建立全新的生态系统。但假若UEFI和ACPI等规范,在ARM处理器平台发展成熟度,可和现有x86平起平坐,让自行更替操作系统更方便,那服务器市场将会呈现截然不同的局面。各位可以想像一个画面:假以时日,ARM在伺服器市场的确占有一席之地,并持续攻城掠地,然后AMD顺势推出脚位与x86版本相容的K12核心EPYC,并可无痛转换。这恐怕将是英特尔不想看到的。

但对x86双雄来说,最可怕的长期危机还是“云端业者越来越多的开始自己开发服务器芯片”,他们拥有足够的本钱与条件,如果有人跟你讲「Google搞不好已经正在秘密开发可取代英特尔、AMD的RISC-V指令集处理器」,你大概也不会感到惊讶。总之,Xeon、Opteron和EPYC,不只是x86站稳服务器市场的象征,更是见证英特尔与AMD兴衰的图腾,也许在过去难以想像、甚至连想都不敢想的巨变,将以出乎意料的速度,出现在我们眼前。作者:痴漢水球 来源:technews编辑:芯智讯-浪客剑 注:相对于原文,本文略有修改,且有补充部分内容

相关推荐

猜你喜欢

大家正在看

换一换