此前,我們對(duì)英特爾Panther Lake處理器的架構(gòu)以及核心IP設(shè)計(jì)做了比較全面的分析,了解了其在能效、性能方面的表現(xiàn)以及CPU、GPU、NPU、IPU等計(jì)算單元的新特性以及升級(jí)點(diǎn)。
不過在一些細(xì)節(jié)技術(shù)層面,如封裝、分支預(yù)測(cè)、線程調(diào)度、電源管理、GPU/NPU計(jì)算單元技術(shù)細(xì)節(jié)等方面未進(jìn)行深入探究,所以才有了這篇Panther Lake的“技術(shù)細(xì)節(jié)補(bǔ)完”內(nèi)容。
作為Intel 18A制程工藝打造的首款移動(dòng)端處理器平臺(tái),Panther Lake汲取了上一代Lunar Lake的高能效和Arrow Lake的高性能優(yōu)勢(shì),在CPU和GPU性能方面相較上一代產(chǎn)品均提升了50%,這樣的性能進(jìn)步在近年來的移動(dòng)端處理器領(lǐng)域極為罕見,同時(shí)其在性能大幅提升的情況下,依舊保持出色的能效體驗(yàn),可以說是展現(xiàn)出了Intel 18A制程工藝的核心優(yōu)勢(shì)。
Intel 18A制程工藝的核心優(yōu)勢(shì)來自于兩大關(guān)鍵技術(shù)突破
那么肯定會(huì)有朋友存疑——Intel 18A制程工藝的核心優(yōu)勢(shì)到底是什么?
其實(shí)答案就是兩大關(guān)鍵技術(shù)的突破:RibbonFET全環(huán)繞柵極晶體管技術(shù)以及PowerVia背面供電技術(shù)。
了解半導(dǎo)體芯片的朋友都知道,性能提升其實(shí)簡(jiǎn)單來說就是來自于晶體管密度的不斷增加。但是對(duì)于芯片廠商來說,在提升晶體管密度的同時(shí)又要不斷縮減芯片面積,這就造成了高制程節(jié)點(diǎn)下良率、供電/漏電、發(fā)熱等層面的巨大挑戰(zhàn)。
Intel 18A制程工藝之所以能夠在1.8nm制程下通過晶體管密度提升提高性能的同時(shí),還能夠獲得良好的能效表現(xiàn),正是在確保良率的基礎(chǔ)上,通過RibbonFET全環(huán)繞柵極晶體管技術(shù)以及PowerVia背面供電技術(shù)解決了供電、漏電、發(fā)熱等棘手問題。
另外在10月初筆者受英特爾邀請(qǐng)前往美國亞利桑那州鳳凰城參觀英特爾Fab52晶圓廠時(shí),已經(jīng)看到有ASML光刻機(jī)正在量產(chǎn)Panther Lake芯片,這意味著其良率已經(jīng)達(dá)到了正式投產(chǎn)的要求。而且Intel 18A現(xiàn)階段的良率其實(shí)已經(jīng)高于英特爾在過去十五年推出的制程節(jié)點(diǎn)。

回到兩大關(guān)鍵技術(shù),RibbonFET全環(huán)繞柵極晶體管實(shí)現(xiàn)了全環(huán)繞柵極(GAA)架構(gòu),以垂直堆疊的帶狀溝道,提高晶體管的密度和能效,實(shí)現(xiàn)電流的精準(zhǔn)控制,在實(shí)現(xiàn)晶體管進(jìn)一步微縮的同時(shí)減少漏電問題發(fā)生。
通過下圖可以看到,沿用多年的FinFET晶體管單個(gè)鰭片為三面通電,而RibbonFET全環(huán)繞柵極晶體管每一個(gè)鰭片實(shí)現(xiàn)了四面全包圍通電,漏電率顯著降低的同時(shí),整個(gè)晶體管體積得到大幅縮減。

晶體管作為半導(dǎo)體芯片為關(guān)鍵的元件,會(huì)直接對(duì)性能產(chǎn)生影響,積熱造成的處理器頻率下降是影響性能體驗(yàn)為直觀的因素。
而半導(dǎo)體芯片性能提升又與晶體管密度關(guān)系密切,不斷縮小的芯片面積與不斷增加的晶體管密度看似是一組矛盾因子,因此需要RibbonFET全環(huán)繞柵極晶體管這樣的技術(shù)突破來沖破壁壘,確保更高晶體管密度下的性能釋放不被電流和溫度所影響。
PowerVia背面供電技術(shù)則是對(duì)芯片制造進(jìn)行了全面革新,越來越多的使用場(chǎng)景都需要尺寸更小、密度更高、性能更強(qiáng)的晶體管來滿足不斷增長(zhǎng)的算力需求,但混合信號(hào)線和電源一直以來都在“搶占”晶圓內(nèi)的同一塊空間,從而導(dǎo)致?lián)矶拢⒔o晶體管進(jìn)一步微縮增加了難度。
PowerVia背面供電技術(shù)通過將粗間距金屬層和凸塊移至芯片背面,并在每個(gè)標(biāo)準(zhǔn)單元中嵌入納米級(jí)硅通孔 (nano-TSV),以提高供電效率。這項(xiàng)技術(shù)實(shí)現(xiàn)了ISO功耗效能高提高4%,并提升標(biāo)準(zhǔn)單元利用率5%至10%。

得益于兩大關(guān)鍵技術(shù)的突破,首個(gè)Intel 18A制程處理器Panther Lake真正實(shí)現(xiàn)了芯片性能、密度和能效的顯著提升。
封裝
制程技術(shù)突破,為Panther Lake打下了很好的基礎(chǔ),但想要真正發(fā)揮制程技術(shù)優(yōu)勢(shì),少不了先進(jìn)封裝技術(shù)的支持。2023年9月,筆者受英特爾邀請(qǐng)參觀了其位于馬來西亞檳城的PG8、PG15、PG16三個(gè)封裝廠區(qū),以及位于居林(Kulim)的DSDP/SIMS工廠,全面了解了英特爾在2D和3D封裝技術(shù)領(lǐng)域的硬核實(shí)力。
本次推出的Panther Lake可以說是英特爾先進(jìn)封裝技術(shù)的得意之作。
首先,英特爾通過EMIB-M 2.5D技術(shù),幫助自家新一代處理器實(shí)現(xiàn)了關(guān)鍵性能突破:一方面縮小了Bump pitch(凸塊)的間距,并且提升了Bump density,也就是密度,另一方面還顯著的降低了芯片間C2C的功耗含量,增強(qiáng)了信號(hào)的完整性和效率。
同時(shí),英特爾通過Foveros Direct 3D封裝技術(shù)(Panther Lake使用到的是Foveros-S 3D封裝),將以往的凸塊直連改變?yōu)殂~對(duì)銅的混合鍵合,其好處是帶來了更高的密度、更低的延遲、更低功耗的互連,這也是未來大規(guī)模系統(tǒng)級(jí)集成的核心技術(shù)。
另外尤其是用在服務(wù)器方面,它可以為更大面積的芯片,更大規(guī)模的互連帶來極大好處,比如與Panther Lake一同推出的288核小核的Clearwater Forest,也就是至強(qiáng)6+處理器上,這項(xiàng)封裝技術(shù)實(shí)現(xiàn)了量產(chǎn)。

Panther Lake主要使用了Foveros-S 2.5D封裝技術(shù),各個(gè)功能模塊和被動(dòng)基礎(chǔ)模塊相連,充分發(fā)揮其在高密度、高能耗場(chǎng)景下的優(yōu)勢(shì)。
此前我們?cè)赑anther Lake技術(shù)解析文章中介紹了它的全新性能核以及能效核架構(gòu),本文不再贅述。下面我們從性能核和能效核的相關(guān)技術(shù)優(yōu)化,來聊聊Panther Lake的性能為何會(huì)有50%的提升幅度。
性能核優(yōu)化
首先我們來看看性能核的相關(guān)技術(shù)優(yōu)化。
分支預(yù)測(cè)
其實(shí)除了核心架構(gòu)之外,分支預(yù)測(cè)是現(xiàn)代處理器提升性能的核心技術(shù)指標(biāo)之一。優(yōu)秀的分支預(yù)測(cè)可以減少流水線停頓、優(yōu)化指令預(yù)期和緩存命中,應(yīng)對(duì)復(fù)雜控制流,并且可以對(duì)編譯器與代碼進(jìn)行優(yōu)化。

Panther Lake的分支預(yù)測(cè)并非推到重來,而是在前代Lunar Lake引入分支預(yù)測(cè)新算法的基礎(chǔ)上,進(jìn)行了深度迭代與優(yōu)化,目的是讓分支預(yù)測(cè)效率更高。同時(shí)Panther Lake的分支預(yù)測(cè)準(zhǔn)確度也得到了進(jìn)一步提升。
了解處理器技術(shù)的朋友都知道,分支預(yù)測(cè)的核心在于CPU預(yù)判程序執(zhí)行路徑中可能出現(xiàn)的分支,并提前做好準(zhǔn)備。這包括預(yù)測(cè)分支的走向,以及能夠多快地將預(yù)測(cè)結(jié)果反饋給CPU核心流水線。
在Panther Lake這一代的分支預(yù)測(cè)方面,相比Lunar Lake而言,首先在預(yù)測(cè)準(zhǔn)確性上有了進(jìn)一步提高,另外分支預(yù)測(cè)的延遲也大幅度縮短,這意味著CPU能夠?qū)⒏俚臅r(shí)間花費(fèi)在預(yù)測(cè)和修正的開銷上,而將更多的時(shí)間投入到真正有用的計(jì)算任務(wù)中,從而顯著擴(kuò)大有效計(jì)算時(shí)間的占比。
終結(jié)果就會(huì)直接體現(xiàn)在用戶能夠直觀感受到的CPU性能顯著提升。
內(nèi)存消歧
除了分支預(yù)測(cè)之外,在針對(duì)內(nèi)存密集型負(fù)載時(shí),Panther Lake的內(nèi)存消歧技術(shù)也會(huì)對(duì)其性能體驗(yàn)的提升有明顯的助力。
從傳統(tǒng)層面來講,CPU在處理內(nèi)存讀寫操作時(shí),往往需要嚴(yán)格遵循指令的順序。例如,一個(gè)讀取操作可能依賴于前一個(gè)寫入操作的結(jié)果,或者多個(gè)操作指向同一內(nèi)存地址時(shí),必須按序執(zhí)行。這種嚴(yán)格的依賴關(guān)系導(dǎo)致內(nèi)存單元經(jīng)常處于等待狀態(tài),使得內(nèi)存帶寬的利用率低下,無法充分發(fā)揮硬件潛力。
而內(nèi)存消歧技術(shù)的核心在于,它能夠智能地預(yù)測(cè)并打破這種表面依賴關(guān)系,允許CPU的多個(gè)執(zhí)行單元進(jìn)行亂序(Out-of-Order)或并行的內(nèi)存讀寫操作,從而充分利用內(nèi)存帶寬。
當(dāng)然,在實(shí)際代碼中,真正的內(nèi)存依賴關(guān)系依然存在。內(nèi)存消歧技術(shù)的高明之處在于,它能精準(zhǔn)預(yù)測(cè)哪些操作可以并行執(zhí)行,哪些存在真實(shí)依賴。一旦預(yù)測(cè)錯(cuò)誤或檢測(cè)到實(shí)際沖突,它能以極快的速度進(jìn)行恢復(fù),以確保程序的正確性。
通過這種機(jī)制就能夠顯著提升CPU與內(nèi)存之間的帶寬利用率。這部分內(nèi)存消歧在Cougar Cove上,相比前代Lion Cove做了更好的提升,消歧技術(shù)性能更可靠,細(xì)節(jié)更準(zhǔn),并且恢復(fù)更快。

TLB增強(qiáng)
此外,英特爾對(duì)Panther Lake進(jìn)行TLB升級(jí)。TLB簡(jiǎn)單理解就是一種緩存,其本質(zhì)上是CPU內(nèi)部虛擬地址到物理地址的映射緩存。對(duì)于混合型工作負(fù)載,TLB至關(guān)重要。
它避免了CPU頻繁訪問系統(tǒng)內(nèi)存進(jìn)行耗時(shí)的頁表遍歷,而是將常用的地址映射預(yù)先存儲(chǔ),實(shí)現(xiàn)快速查找。這極大地加速了內(nèi)存訪問,顯著提升了復(fù)雜場(chǎng)景下的性能。
這一次在Panther Lake里,英特爾實(shí)現(xiàn)了1.5倍的TLB容量提升,這一點(diǎn)得益于Intel 18A先進(jìn)制程以及PowerVia這些關(guān)鍵技術(shù),將TLB做到50%的容量擴(kuò)容,對(duì)現(xiàn)代性的復(fù)雜性工作負(fù)載來說體驗(yàn)會(huì)更好。
另外,Panther Lake性能核其實(shí)還能夠做到16.67MHz的精準(zhǔn)時(shí)鐘頻率間隔,這意味著內(nèi)部能夠?qū)崿F(xiàn)更精細(xì)的性能與能效調(diào)控,從而提供更快速的響應(yīng)和更精確的核心性能與功耗管理。
能效核優(yōu)化
與性能核一樣,能效核的分支預(yù)測(cè)能力以及內(nèi)存消歧也得到了相應(yīng)增強(qiáng),這里就不再贅述。
動(dòng)態(tài)預(yù)取器控制
首先我們來聊聊動(dòng)態(tài)預(yù)取器控制。
預(yù)取器的核心作用是預(yù)測(cè)CPU即將需要的數(shù)據(jù)和指令,并提前將其從內(nèi)存加載到緩存中,以確保執(zhí)行單元能夠持續(xù)高效工作,避免因等待數(shù)據(jù)而產(chǎn)生的空閑。
而動(dòng)態(tài)體現(xiàn)在,Panther Lake的預(yù)取器能夠根據(jù)當(dāng)前的工作負(fù)載類型和實(shí)時(shí)變化,智能地調(diào)整預(yù)取策略。這不僅能大限度地保持執(zhí)行單元的繁忙狀態(tài),提升性能,還能在某些場(chǎng)景下,通過優(yōu)化預(yù)取行為,有效降低不必要的功耗。

Nanocode
Nanocode可以理解為比傳統(tǒng)Microcode更底層的微操作指令。Microcode通常面向CPU的邏輯模塊,定義了如何執(zhí)行一條復(fù)雜指令。而Nanocode則將Microcode進(jìn)一步分解,直接面向前端的硬件執(zhí)行小單元,例如一個(gè)獨(dú)立的加法器或加載單元。這種更細(xì)粒度的控制,使得Panther Lake能夠更精準(zhǔn)、更靈活地調(diào)度硬件資源。
舉例來說,當(dāng)某個(gè)執(zhí)行單元因Microcode的粗粒度定義而無法充分利用時(shí),Nanocode能夠打破這種限制,將任務(wù)的細(xì)小部分分配給當(dāng)前空閑的硬件單元。通過這種方式,Panther Lake大幅提高了硬件資源的利用率,進(jìn)而顯著提升了整體性能并降低了CPU的執(zhí)行延遲。
另外相比前代Arrow Lake平臺(tái)來說,Panther Lake的Nanocode可以覆蓋的應(yīng)用場(chǎng)景更多。以前可能只針對(duì)某幾種類型的負(fù)載,但是在Panther Lake更加豐富,這意味著在更多應(yīng)用場(chǎng)景下,Panther Lake能夠充分釋放能效核的性能與低功耗優(yōu)勢(shì)。
GPU部分
作為移動(dòng)端平臺(tái)來說,Panther Lake的iGPU部分也是相當(dāng)令人期待,畢竟Lunar Lake的銳炫140V/130V核顯帶來了極其驚艷的圖形性能表現(xiàn),甚至讓輕薄本、商務(wù)本都具備了1080p分辨率、中低畫質(zhì)下運(yùn)行3A游戲的能力,這一變化徹底改變了輕薄本、商務(wù)本的應(yīng)用方式。
而Panther Lake的GPU采用了全新的Xe3架構(gòu),新增支持了多幀生成技術(shù),核心規(guī)模也得到大幅度拓展,所以明年P(guān)anther Lake產(chǎn)品上市之后,圖形性能應(yīng)該會(huì)給大家?guī)順O其驚喜的表現(xiàn)。
下面咱們看看為什么我們會(huì)如此期待Panther Lake的iGPU的表現(xiàn)。
這次Panther Lake的iGPU優(yōu)化主要是擴(kuò)展性層面的提升,這使其核心實(shí)現(xiàn)了更大的規(guī)模。單個(gè)渲染切片多包含的Xe核心達(dá)到了6個(gè),頂配型號(hào)擁有12個(gè)Xe核心,這種核心規(guī)模的升級(jí)對(duì)于GPU而言就是直接的性能提升手段。

同時(shí),Panther Lake把GPU模塊從計(jì)算模塊中分離出來,所以核心規(guī)模的配比上相比以往會(huì)更加靈活。首發(fā)有4核和12核,后續(xù)隨著型號(hào)的豐富,其實(shí)Xe核心的數(shù)量會(huì)非常靈活。不像以往設(shè)計(jì)在計(jì)算模塊中無法更改。

同時(shí),12核心GPU還提供了更大的二級(jí)緩存容量,由此前的8MB提升到16MB,更大的L2緩存可以減少約17%到36%的對(duì)主內(nèi)存的訪問次數(shù),通過更低頻次的內(nèi)存訪問,提供更流暢的體驗(yàn)。

核心規(guī)模拓展加上L2緩存擴(kuò)容之外,關(guān)鍵計(jì)算單元的性能優(yōu)化也是Panther Lake iGPU體驗(yàn)提升的關(guān)鍵一環(huán)。這里包含了第三代Xe核心、更強(qiáng)的光追單元、更好的矢量引擎以及更出色的圖形專用硬件管線。
在Xe3核心中,提供了8個(gè)512位矢量引擎和8個(gè)2048位XMX引擎,并且將L1緩存增加了三分之一,賦予了Xe核心更強(qiáng)大的性能。

在Xe矢量引擎中,線程數(shù)增加了25%,還添加了可變寄存器分配。通過增加線程數(shù)和可變寄存器分配,英特爾有效提升了Xe矢量引擎的使用效率,使得相同的硬件能夠支持更多、更快的負(fù)載。同時(shí),Panther Lake的iGPU支持原生FP8反量化,以及SIMD16原生ALU、三路并發(fā)、擴(kuò)展數(shù)據(jù)指令集與FP64,并支持Xe矩陣擴(kuò)展。

此外,這一代iGPU在AI算力方面直接提升到了120TOPS,巨大幅度的提升來自于XMX AI加速引擎。其每個(gè)時(shí)鐘周期可執(zhí)行1024個(gè)XMX TF32操作,支持2048個(gè)XMX FP16/BF16運(yùn)算,4096個(gè)XMX INT8運(yùn)算和8192個(gè)XMX INT4/INT2運(yùn)算,這些都比上一代有了顯著提升。

在光追單元方面,這一代開始支持異步光線追蹤的動(dòng)態(tài)光線管理。其實(shí)在光線追蹤中具挑戰(zhàn)性的是管理大量光線,當(dāng)光線過多導(dǎo)致硬件單元無法及時(shí)處理時(shí)就會(huì)發(fā)生擁塞。此時(shí),GPU就需要一個(gè)更優(yōu)的調(diào)度機(jī)制,能在擁塞即將到來時(shí)降低光線分發(fā)頻率,這自然需要高效的調(diào)度器設(shè)計(jì)。Xe3支持下一代異步光線追蹤的動(dòng)態(tài)光線管理,可大幅提升光線追蹤負(fù)載下的性能。

GPU性能升級(jí)的另一大關(guān)鍵優(yōu)化就是固定功能管線。其核心是英特爾為Panther Lake的GPU帶來了全新的URB管理器。
URB是一個(gè)存儲(chǔ)單元,用于GPU內(nèi)部子單元之間的數(shù)據(jù)轉(zhuǎn)換和傳輸。在以往的URB設(shè)計(jì)中,即使只傳輸少量數(shù)據(jù),也需要對(duì)整個(gè)URB進(jìn)行同步,效率自然會(huì)比較低下。新的URB管理器設(shè)計(jì)允許對(duì)部分URB進(jìn)行傳輸同步,高可支持2倍的異向性過濾,并使模板測(cè)試速率高提升2倍。

基于上述升級(jí),Panther Lake的Xe3核顯性能非常讓人期待。
在CPU與GPU性能大幅提升的同時(shí),Panther Lake在NPU、IPU、內(nèi)存性能、無線連接能力等方面也有著極大程度的升級(jí)。而基于這些升級(jí),英特爾也有意推動(dòng)PC行業(yè)伙伴去打造支持高效AI智能體的全新業(yè)態(tài)PC產(chǎn)品。
通過強(qiáng)力的硬件以及豐富的軟件棧,構(gòu)建本地AI智能體,讓電腦變得更加智能化,用戶只需要一條或幾條指令,就可以自動(dòng)調(diào)用各類軟件完成復(fù)雜工作流,這可以說是非常領(lǐng)先的一種未來PC發(fā)展理念。

總體來說,Panther Lake作為Intel 18A制程工藝的首個(gè)處理器平臺(tái),其整體表現(xiàn)相當(dāng)值得期待。根據(jù)官方消息來看,預(yù)計(jì)明年1月份的拉斯維加斯CES上就會(huì)有搭載Panther Lake的新品亮相。
筆者近也接到了一些PC廠商的CES參展邀請(qǐng),如果能夠成行的話,我會(huì)給大家在CES前方帶回第一手的Panther Lake新品報(bào)道。
本文鏈接:http://www.rrqrq.com/showinfo-24-184940-0.html從技術(shù)層面聊聊英特爾Panther Lake為何非常值得期待
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com