原标题:更高制造工艺+更高能耗比+AI加持——Meteor Lake四大模块与AI功能详细解读
在写完Meteor Lake解读后,相信我和小伙伴们都感到意尤未尽,的确,要完全讲清PC史上架构最复杂的“四合一”架构,还需要更深一些的角度。记得小时候有一部动画片,讲的是四个不同形态机器人组合为一个更大的机器人,战力的强大与否,在于合理的搭配。
Meteor Lake同样如此,虽然已经划分出GPU Tile、SoC Tile、IO Tile和Compute Tile四大功能模块,但依然还需要将各个IP安放在最适合他们的位置之上,并且符合这一代处理器高性能能耗比的设计特点和流畅无碍的沟通交流,其实,这才是Meteor Lake真正的核心竞争力。所以,接下来,让我们一起看看以各个功能模块为单位,英特尔具体怎么来搭积木的。
各个Tile的详细解读,我们先从决定Compute Tile性能表现的Intel 4制造工艺谈起。过去,我们对英特尔这个发展过程中极为关键的制造工艺节点进行过多种探讨。而这次的英特尔ON技术创新峰会上,英特尔对其性能做了一些定性的信息,虽然并非最终的定量数据要等到Ultra Core处理器正式对外发布之时,但已经很令人兴奋。
描述Intel 4制造工艺的性能提升采用了高性能逻辑库面积这个指标,比起Intel 7工艺在(集成度)上有2倍的缩减,也在性能功耗比上减少了20%以上,另外制造设备(EUV)的升级,带来的直观感受便是DIE变小了,在应用新的8VTs后,更好的协调了频率和电压的关系,从而提更高效的底层供电。
刚才我提及英特尔制造工艺在等效其他厂商的制程工艺时有一个等效的概念,其中重要的指标便是晶体管密度。在我的记忆中,英特尔从 Cannon Lake开始,就拥有比其他家更高的晶体管密度。然而各个半导体制造商采用的单元库不同,那怕同一代工艺也很难用晶体管密度来直接相比,也不能完全体现厂商的工艺水准,比方说在DIE上的晶体管并不是平均分布的,所以在半导体制造上晶体管密度更多是作为参考量来使用。
如果在同一厂商的产品体系中,提升的单元库高度带来的晶体管密度提升的确就从另一方面代表着DIE上性能的提升。将Intel 4与Intel 7相比,这次英特尔公布的是将高性能库由240库高度升级为408,由此带来有DIE面积缩减了0.59X(DIE面积缩减也代表着晶体管密度的提升)。当然,对于FinFET来说,增加 Fin(鳍)高度或减少Fin间距就能有效增加驱动电流,而接触式栅极间距和MO间距减少也代表着DIE面积的减少,事实上,DIE面积缩减一半是按库高度提升带来0.59X减少乘以栅极间距带来的0.83X减少换算而来的。
制程工艺的进步是和半导体的制造设备光刻机的同步的,刚才我已经提及了EUV光刻机在英特尔PC处理器上的首次使用,它会给整个Intel 4的制作的完整过程带来更加精细的工艺成果和流程上的增效。另外,据英特尔称,全球首款NA EUV(0.55高数值孔径)也将落户英特尔,这就从另一方面代表着EUV仅仅会在英特尔PC处理器进步过程中停留两个节点,又要改道到全新的生产线上,这正是英特尔四年五个制程的真正难度。
聊回Intel 4制造工艺,正是因为引入了EUV光刻机,其四重的曝光工艺优化了连接层上的18层的金属堆栈,其中包含13个铜互联层和5个增强型铜层。能够正常的看到,最密集的增强型铜层实现了30纳米金属层间距,让层数和密度均得到很大的提升。
另外,就要谈到英特尔在连接层的接触材料上的一些变化。在制造工艺的发展过程中,英特尔一直在优化工艺中的接触材料来提升电子迁移率,简单来说就是降低电阻,Intel 7之前的处理器连接层一直采用钨材料,Intel 7采用了两种不同的特殊金属层(带钴线的钽隔离层和带铜合金的氮化坦)来实现更小的电阻和更长的寿命,但这两种材料在寿命和电子迁移率上一直难以取得平衡,所以Intel 4上进一步推进新的材料的应用,所以密度增强型铜层上使用了钽/钴与纯铜金属合金工艺,同时使用了长寿命和高电子迁移率。
EUV最大的贡献就是改善了制造工艺,可以在更简化的工艺流程上实现更精准的半导体加工,这也是提升晶体管密度的基础。英特尔这次通过EUV光刻技术,用单个EUV层一次处理替代了以往光刻和研磨分层处理的环节让掩模总数和工艺步骤总数都有了不少的提升。还值得一提的是,使用更加精细的EUV之后,芯片内部的连接结构更标准,摒弃了以往的非标结构,这样会使APR变得很简单和高效。
正是以上的改进,让Intel 4的良率一开始便保持了非常高的状态,不像以往在14nm和10nm制程工艺上一定要通过第二代产品优化才可以做到一个较好的良率。在Intel 4上积累的这些经济,同样也会为未来的Intel 20A和Intel 18A打下非常好的基础。
虽然SOC Lite是Meteor Lake首次出现的功能模块,但我们实际上不必对它感到神秘。其实在SOC Lite出现之前,英特尔是将Wi-Fi模块、显示输出单元以及内存控制器这些非计算密集型IP归入Uncore范畴(与计算密集型核心Core相对应)。之所以要设立一个SOC Lite,其实是为了更好地实现较高的能效比,所以这个功能模块的驾构从开始设计起就是有明确目标的。
在Meteor Lake的上篇我们提到,SOC本身就可以看作一个小CPU,其实还不完全准确。之所以命名为SOC,还是从System On Chiplet来取的,但是呢,它跟独立的SoC不一样,它其中更多的是各种功能性IP,打包在一起的目的是为提升整个CPU能效比服务的。我将它其中的IP分为三类:全新加入的,比如NPU和LP E-Core;以往Uncore范畴的各个功能IP;从其他功能模块中迁移出来的。所以SOC Lite的IP构成就相当复杂了,目前来看就有NPU、LP E-Core、内存控制器、系统代理、无线控制器、IO缓存模块、电源管理模块、图像处理模块、显示输出模块……大家都都知道,一个从人的会议上,你想单独找一个人是需要合理的沟通交流(通信)方式,而不是直接上去就抢麦克风(环形总线),进而影响到所有人。
1. 对计算的密集型IP进行了重新划分,以实现其功率的优化,在不影响性能的情况下,大幅度提高升能效比。
2. 对I/O进行了扩展,为SOC Lite内部主要的IP扩展足够的带宽,所以能匹配更大的系统内存。
用一句话来说就是:主要是重新规划和引入新IP,重新构建总线和IO通道,让硬件资源调度独立化,让Uncore模块归一化。
接下来,让我们大家一起来看这些设计原则在SOC Lite上带来了哪些变化,是怎么来实现提升能耗比的最终目标的。先来看上一代混合构架的芯片,Graphics Complex(图形核心)是附属于Core Complex(性能核和能效核的统称)的,两者共享一条Ring Fabric(环形总线),其中,媒体编解码器是位于图形核心之中的。
所以,不论是调用性能核、能效核,还是图形核心、媒体编解码器想要访问内存,必须要通过总线、系统代理(System Agent)、内存控制器这条道线,访问效率很高,但正所谓牵一发而动全身,即使我仅想调用媒体编解码器来看视频,也需要激活所有的逻辑单元,而且环形总线也是整个打开,这实际上的意思就是刚才说的“想在会议上抢麦克风来单人沟通”的,麦克风的确让想沟通那个人听得很清楚,但同时也影响了其他人的注意力。从能耗比的角度来看,这是一种非常不经济做法。
OK,你说把媒体编解码器从图形核心中拿出来不就得了。事实上英特尔也是这么做的,另外还将系统代理、内存控制器均从环形总线上拿下来,均放在了全新的SOC总线,OK,大家都成一家人了,需要谁直接在SOC总线上呼叫不就行了,所以媒体编解码器、GPU Tile直接就可以访问内容控制器、Compute Tile也实现了资源独立调用,其他不用的功能模块可完全不通电激活。
通过一个多小时的讲解,大家已经熟悉了,最上面我们的图形Tile,也就是我们的XLPG Graphics就在我们的图形Tile上。同时我们的多媒体引擎移到了SOC Tile,我们的显示引擎也移到了SOC Tile。在IO Tile上有一个Display PHYs负责显示信号的输出。我们升级过Meteor Lake引擎,最高支持8K 60 10bit HDR的解码和8K 30 10bitHDR的编码。我们支持各种先进格式和传统格式的支持,包括VP9、AVC、HEVC、AV1以及其他的传统格式。针对不同的任务、不同的使用者的使用场景是不一样的。不管你是做视频播放还是串流,做基础的视频编辑还是做高级的视频编辑,你做游戏、生产力、AI都能够获得英特尔Media Engine非常好的支持。
接下来讲一下英特尔的Display Engine。我们做了几件关键的事情,首先我们对显示和显示功耗做了逐步优化。二是Display我们大家可以做全路径上的压缩。当你遇到Display输出和Display解决方案不匹配的,用这种压缩可以很好的提供显示的输出,但是功耗又控制的非常好。包括低功耗的一些模式,可以同时降低对于CPU内存Graphics的需求,降低功耗。
就制式而言,我们支持HDMI 2.1、DP 2.1以及完整的eDP 1.4的输出规范,分辨率最高支持到一个8K60 HDR,或者是支持4个4K60 HDR,或者是更高刷新率的1080p或者1440p。
接下来就该谈及I/O和带宽的问题了,12、13代酷睿一直沿用相同的环形总线,以往解决带宽瓶颈、减小延迟的方式是为一些常用IP创建高优先级。但在Meteor Lake上,将Uncore的IP集成在全新的SOC Tile之中,尤其是新增的IP对带宽的需求非常高,再延用原来的带宽解决方式,总会造成拥塞。
解决总线带宽不够的问题,加上环形总线的通信方式并不经济,最直接的方式是——再造一个带宽更大的新总线,英特尔将其命名为NOC总线GB/s;另外,它能大大的提升各个IP对内存存取时的能效(power efficiency),就是对SOC内部IP对带宽的要求来进行实时的匹配,从而解决了IP和IP之间、IP跟总线之间的拥塞;第三,它可以让接入总线的IP实现独立通信,所以,英特尔的工程师也称其为“可扩展总线”(Scalable fabric),就我看来,这非常类似于分布式通信方式,或可称为“分布式可扩展总线”,当然,这并非NOC总线正式的官方中文命名。
另外,为解决I/O之间的一些通讯瓶颈,这次英特尔还在SOC Tile中增加了一个总线——IO Fabric,双总线间增加了一个I/O的缓存块来管理I/O排序,并进行地址的转换,这个新总线我打算留到讲解IO Tile时具体解读。
接下来要讲的是Meteor Lake分离式混合架构上很重要的一个改进,它同样位于SOC Tile之中。以往调集Uncore中的IP资源,是需要CPU计算单元来控制和协调,那么就要完全通电激活所有的计算单元,这同样会大大拉低能耗比表现。
英特尔解决方式是在SOC Tile添加一个功耗极低的能效核,其中包含两个内核,也就是三级计算核心中的低功率计算岛能效核(LP E-Core),观看视频时,仅一定要通过它调集媒体IP的资源,让Compute Tile和其他IP得到休息,以此来降低了整体功耗。
非常有意思的是,虽然处于不同的Tile,但英特尔完全打通了三个计算单元在系统中的调用,即使在Windows任务管理器中也能够正常的看到三级计算核心的各自占用率。
在将处理器分为四大功能模块(Tile)之后,电源模块也得以重新设计,每个Tile上都集成了专门的电源管理控制器(PMC),并在SOC Tile上设计一个总体管理单元(PUNIT),从而构成一个可实时可扩展的电源管理架构,正是它的存在,可以单独SOC中不同IP和各个Tile的电源,实现按需调配的省电可控。
在降低功耗上,英特尔还做了一些额外的优化:1. 集成入电压控制的DLVRs,实现更精细的电压控制;2. 动态调节总线频率,按IP需求实时降低频率,省下总下功耗;3. 针对不一样的的工作负载,对软硬件进行主动调节。
小结一下:SOC Tile是一个集成多种UNCore IP和新功能IP全新模块,它改造了总线与电源架构,新增了第三级计算核心,总体设计是为了达成更佳的能耗比,并将AI功能集成其中,是目前英特尔在非计算核心之外最高效的UNCore设计,会深刻影响到未来数代CPU的架构设计。
看了SOC Tile的解读,你应该能够明白,Meteor Lake旨在打造一个可扩展的架构,所以每个Tile都希望打造出可够的灵活性,去优化、去解决的一系列问题,当然也包含了IO Tile。
通过这张图可以更为清晰地看到,挂载在NOC总线上的各种IP,它的特性是特性是高带宽、快速响应,使之上的设备快速、低功耗的访问整个内存。
SOC内部Sensing、IO Tile、以及负责输出的Thunderbolt、PCIe、WiFi、USB 4……均通过专门的高速总线——IO Fabric串在了一起。其他的还有两个负责安全的IP,包含Meteor Lake新增加的芯片级别安全引擎SSE和平台级别的可靠性和可管理安全模块CSME,他们负责不同层级的安全。另外,IO Tile内提还提供了USB 4和PCIe的输出,由于直接挂载在IO Fabric上,我向英特尔特别确认,其性能与响应速度与直接挂载在IO Fabric上的输出单元是一样的。
刚才已经提及,英特尔打通了三个计算单元在系统中的调用,这是分离式模块架构很重要的计算执行逻辑,我们不妨详细来看看,相对之前的二级混合架构,它需要在硬件线程调度器做逐步优化,让“低功耗岛”加入到合理的任务分配中来。
新的计算单元框架,主要是按照功耗和所需性能、响应速度来划分应负担的任务,具体就一个任务如何在不同核心之间进行切换,需要硬件线程调度器提供更复杂的根本策略。需要说明的是,与之前的硬件线程调度器一样,它并不具体分配进程到某一个具体核心上,而是将P-Core、E-Core、LP E-Core的实时硬件能力,向操作系统进行推荐。
具体的方式是根据每一个时钟内执行指令的能力来划分Class 0~Class 3四个等级,分别代表一个项目所需P-Core或E-Core正在执行的指令的多少,然后再根据E和Perf(E代表追求能效,Perf代表追求性能)的权重分别决定其落在哪个区间之内,从而去选择正确的Core。这个机制有些复杂,一句话就是在正确的时间让让正确的线程运行在正确的核心上。
Meteor Lake上主要增强了对OS的反馈,当某个IP占用功耗时,核心功耗会被重新动态分配,更精准的报告整个核心和每个Core的能力。比如当一个高性能的前端分配到4个P-Core之后,再次加入两个进程到E-Core之上,如果P-Core执行完后,两个较小进程还在E-Core上执行时,硬件调度会建OS将这两个进程转到SOC的LP E-Core上,从而能够关闭整个Compute Tile。能够正常的看到,LP E-Core除了调度各个IP之外,它事实上也是加入到整个计算流程中来的。
讲完三级计算核心的调用,我们进一步讲讲全新的AI功能是如何调用的。之前我们已说过,NPU是一个低功耗的AI加速引擎,用于解决;而CPU用于响应速度很快计算模块,适于随机快速响应的AI需求;而GPU则适于大规模的AI应用需求。所以,一个AI任务调集的处理器上的不同处理单元也是不一样的。
在将媒体IP、显示IP从GPU Tile中拿出之后,不仅给GPU挪出了更加充裕的DIE上面积,。能够正常的看到,Xe集显相对前代拥有2倍性能提升。
新的媒体引擎和显示引擎从GPU从移出之后,与IO Tile上的Display PHYs显示输出单元一起形成了更高效的视频输出流。
另外,英特尔还第一次展示了全新GPU Tile的内部结构。它采用了与锐炫显卡相同的构架,拥有8个Xe核心,128个几何图形渲染管线,分布在两个Render Slice(渲染切片)之中,有1.33倍的Pixel和Samplers的能力,并新增加了8个硬件光追单元。从整体性能来看,相比前代GPU,以更低电压实现了更高的主频。
另外,锐炫显卡积累的主要技术特性也被继承过来,比如更好的DX12 Ultimate的优化,支持光追和XeSS。另外还新增了乱序的采样功能,逐步提升数据采样的准确率。
在Blender渲染测试中,相比CPU,它均拥有2倍以上的提升。对竞品的性能比较,需要等到Meteor Lake正式对外发布或者我们的评测。
另外,英特尔还展示了AI方面在PC等终端设备上的构想和基于Meteor Lake上的演进思路,其实在此之前,我们已从硬件构架上解决了在全新处理器上如何分配和应用各种AI应用,同样包含AIGC(生成式AI)的演进。这里,我就不再展开这一个话题,结合英特尔近期在CPU和GPU产品上的AI能力进步,给大家讲讲AI演进中的驱动因素。
英特尔在AI技术推进上更强调端侧的AI能力,也就是在前端尽可能解决尽可能多的用户人群的AI需求。诸如一些小的ISV,便可利用Meteor Lake以其以后的处理器产品做本地化的AI运算,在大规模的部署后同样拥有与云端媲美的AI能算力;另外,通过在PC上解决AI算力,在服务器建设、电力、带宽方面的支出少得多,这让少数顶端之外的软件开发商能够顺利推进项目;前端AI算力,还能在没有网络部署时持续进行,也能更好地保护用户隐私。
当然,英特尔在端侧还提供了除CPU、GPU、NPU外更多的AI计算核心,通过早早布局的OpenVINO,可以打通所有算力为AI服务,这也符合英特尔的XPU产品策略。目前,AI算力的效率并不算高,通过应用不同的库和算法,未来通过PC处理器完成强大的AIGC本地化布局并非高不可攀。
目前,Meteor Lake展示出了超越全行业的巨大构架变革。对于英特尔来说,消化采用EUV制造设备带来的Intel 4制造工艺,在大规模量产Co-EMIB封装工艺后持续提升核心计算能力,才是最重要的。因为这一代的处理器芯片,代表着分离式模块构架下,英特尔所拥有的Chiplet(小芯片、芯粒)制造和整合能力,也是为英特尔推进IDM 2.0代工策略树立标杆的最好机会。
在AI的浪潮下,英特尔也借Meteor Lake的构架发布,拿出了自己在端侧布局上的构想,也吹响了全民AI的号角。当然,最令我们感慨的是,这个创立50多年的芯片巨头再次迈开了加速前行的步伐,Meteor Lake将是重回制程工艺巅峰的最重要一步。返回搜狐,查看更加多