<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      業界 正文
      發私信給任然
      發送

      1

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      本文作者: 任然 2018-08-23 10:25
      導語:自古奧斯汀出怪獸……

      今年年初,三星發布了Exynos 9810旗艦處理器,其CPU為三星第三代自研貓鼬(Mongoose)架構:Exynos M3。一直以來,外界對于Exynos M3知之甚少,終于在昨天的HotChips會議上,三星官方披露了Exynos M3的詳細設計,讓外界得以一窺這款超級架構。

      據雷鋒網了解,三星Exynos 9810剛剛公布時,外界曾普遍認為其在性能方面取得了巨大的飛躍,甚至有數據顯示,Exynos 9810的GeekBench單線程得分甚至高達3400+,遠超包括驍龍845在內的其他安卓陣營處理器。

      三星的架構研發是在德克薩斯州的三星奧斯汀研發中心(SARC,Samsung’s Austin R&D Center)進行的,該中心成立于2010年,目標是為三星的S系列手機研發Exynos系列處理器。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      三星的第一代自研架構Exynos M1據說在2012年的某個時候就已經開始設計,歷經短短三年研發,Exynos 8890便于2016年首次亮相于Galaxy S7。

      Exynos M1是完全從零開始設計的,后續的幾代架構自然會把它作為下一步開發的起點。隨著Exynos M1的淘汰,SARC團隊在2015年第一季度開始使用現有的Exynos M1 RTL著手進行Exynos M3的設計。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      Exynos M3最初的定位是一次增量開發,然而在2016年第一季度,開發計劃發生了大變動,架構目標被設定得更高,以實現更大的性能提升,原本為增量開發設定的目標被拆分成了Exynos M2(即Exynos 8895處理器)。

      Exynos M2在各工作負載上的IPC改進率高達20%,這使得它即便在頻率降低了12%的情況下,最終性能仍優于Exynos M1。三星通過在Exynos M2中加入一些原本為Exynos M3設計的特性實現了這一增長目標,而新的Exynos M3設計方案則變得異常激進。

      第三代貓鼬架構

      對比Exynos M3和Exynos M1可以看到了很多的相似之處,但Exynos M3增加了相當多的擴充。SARC團隊將微架構的解碼單元從4寬度擴展到6寬度,并為內核新增了一個帶有乘法器功能的整數ALU、一個加載單元和一個大幅強化的浮點/SIMD單元,將計算容量提升了三倍之多。

      三星從未真正公開過Exynos M2的信息,也沒有特定的編譯器機器模型與之關聯,但在此次HotChips會議上,三星將Exynos M2的亂序提交窗口大小從96修改為100。盡管無法直接進行不同ISA之間的比較,但Exynos M3的亂序提交窗口大小被再次擴展至228,這與Intel的核心設計頗為相似。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      值得注意的是,在6月初Arm公布的全新Cortex A76架構信息中,其亂序提交窗口大小為128,比Exynos M3還要小,Arm表示亂序提交窗口增加7%只能提升1%性能,出于平衡性能和面積/功耗的考慮,并沒有著重增強這部分設計。

      三星則在會上解釋稱,亂序提交窗口的大小與架構的其余部分、緩沖區設計以及后端調度程序容量的設計相關聯,窗口大小和解碼寬度在設計時應該相互適應。Exynos M3的6寬度解碼單元可以很好地填充亂序提交窗口,從而獲得更強的性能。

      更大的前端規模

      繼續深入了解架構前端的更多細節,可以看到分支預測單元和取指單元的各種改進。Exynos M1的分支預測單元與其他架構的不同之處在于能每周期接收兩個分支并且在后端具有兩個分支端口。

      Exynos M3似乎仍然保持了這個寬度,但是將μBTB(BTB,Branch Target Buffer,分支目標緩沖器)從64鏈路增加到128鏈路,主BTB仍維持4000鏈路,低于Cortex A76的6000鏈路,但對于已接收分支的延遲有所改進。

      此外更重要的是,Exynos M3中分支預測單元的整體質量得到了提高,分支預測失敗的情況減少了15%。三星在會上公布了一個真正的MPKI(Misses per kilo instructions,每千條指令失敗率)值,這是Arm及其他廠商均未公布過的數據。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      Exynos M3的分支預測單元和取指單元分別提供解耦的地址隊列和解耦的指令隊列,這樣可以在執行中對單元進行時鐘控制。

      Exynos M3的取指單元的帶寬也被加倍,每時鐘周期期最多可讀取48Byte,即12條32bit指令,取指與解碼的比率為2:1(12條/6解碼),相比Exynos M2的1.5:1(6條/4解碼)有所提升。

      三星表示,為了應對日益嚴重的分支氣泡問題,需要大幅增加架構成本。雖然被取分支的平均間距小于12條指令,2:1的取指/解碼比率可能會造成浪費,但更大的解碼寬度對突發的指令爆發有很大幫助。

      雖然這種設計具有很高的瞬時功耗,但當指令隊列(現在是深度的兩倍)的填充速度比解碼單元的消耗速度更快時,它允許對取指單元進行時鐘門控,因而會對功耗產生積極的影響。

      Exynos M3的指令轉換后備緩沖區(ITLB)大小從256個條目增加到了512個條目。三星采用了與常規Arm處理器不同的三級層次結構,Cortex A75和Cortex A76的一級ITLB分別有32條和48條,其中mainTLB 共有1280個條目,包括1024個條目(頁面最大為64KB)和一個輔助256條目表(頁數> = 1MB)。

      Exynos M3也有一級數據和指令TLB,但三星沒有透露L1 ITLB的大小。

      流水線與緩存設計

      Exynos M3的解碼單元設計為6寬度,不過三星并未披露任何相關細節,只是稱其改進了指令/微指令融合功能。Exynos M3支持自Exynos M1以來的多調度形式,解碼器發出的微指令可以同時分派到多個調度器,但在亂序提交窗口中它仍然只作為一個調度和一個條目。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      流水線方面,Exynos M3的整數部分新增了兩個額外的調度器,微指令發射能力從前代的7發射增強至9發射。兩個新增端口之一是具有乘法功能的附加ALU單元,使MUL吞吐量加倍,并將簡單整數算術吞吐量提高25%。另一個新增端口是負載AGU,它可以使核心的負載帶寬加倍。

      暴力的浮點運算能力

      與前代相比,Exynos M3的浮點運算能力堪稱暴力,三星為其增加了第三條流水線,就簡單的浮點能力而言,其的乘法和算術吞吐量增加了三倍。Exynos M3在Exynos M1的FMAC+FADD單元基礎上,又增加了3個128位FMAC/FADD單元,使最大吞吐量從3(1*FMAC(2)+1*FADD(1))翻倍到6(3*FMAC(2))。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      當然,由于執行吞吐量的急劇增加,所以必須擴展調度器窗口和物理寄存器頁面。Exynos M3的調度器窗口大小從32增加到了62,FP PRF大小也從96擴展到192。

      三星一直在努力降低執行延遲,這也適用于浮點流水線。Exynos M3乘法單元的執行周期從4縮短到3,乘法累加單元的執行周期也從5下降到4;簡單浮點加法的執行周期從3縮短到2,并升級了浮點除法單元Radix-64以顯著降低除法運算的延遲。

      BTW,Arm在Cortex A76發布時大肆宣傳其新的浮點流水線,稱為其全新的“VX(矢量執行)流水線”感到非常自豪。不過從Exynos M3的情況來看,三星似乎在一年之內便再次領先了Arm,Exynos M3與Cortex A76具有相同的浮點延遲,但同時還有更高的執行吞吐量以及更低的ASIMD延遲。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      全新的加載/存儲單元

      Exynos M3的加載/存儲單元增加了第二個128bit加載端口,讀取帶寬加倍。加載調用延遲在4個周期內保持不變,存儲帶寬在每周期1次存儲時只有1個周期延遲。Exynos M3的兩個加載單元均以128bit/周期運行,與Cortex A76相同,而Cortex A75則為64bit/周期。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      總體而言,Exynos M3的加載/存儲調度器容量已經增加,存儲緩沖區增加了一倍。在這里,三星的預讀取單元需要有相當高的性能,以實現完美命中緩存的目標,避免任何內存瓶頸。

      隨后,三星提到了之前描述的新TLB層次結構。Exynos M3擁有與Exynos M1相同的32入口的DTLB(Data Translation Lookaside Buffer,數據轉換檢測緩沖區),但是Exynos M3額外有一個容量為512條目的全新中級DTLB,且為ITLB(Instruction Translation Lookaside Buffer,指令轉換檢測緩沖區)和DTLB提供服務的統一L2 TLB容量也從前代的1024條目擴容至4096條目。

      有得有失的高性能流水線

      顯而易見,擴大架構規模要付出代價,與Exynos M1的15級流水線相比,Exynos M3的流水線深度增加了2級,為17級,并添加了輔助調度階段,以及用于寄存器讀取的第二階段。相比之下,Cortex A75和Cortex A76的流水線深度為13級。Exynos M3的分支預測錯誤的懲罰也從Exynos M1上的14個周期增加至16個周期。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      Exynos M3和Exynos M1相對于Arm公版架構的的缺點是,它的取指和解碼單元比Arm公版多2級,寄存器重命名單元要多1級,以及需要第二個調度階段(再多1級)。三星沒有透露Exynos M3在流水線各階段之間是否有其他快速路徑來減少關鍵情況下的延遲,但表示這是設計大規模高性能架構的必要成本。

      理論上更長的流水線級數有利于頻率的提升(Intel為讓奔騰4沖擊高頻,曾在NetBurst架構的Prescott核心中使用31級超長流水線)。不過奇怪的是,三星的17級流水線并沒有給Exynos M3帶來頻率上的優勢,反而在沖擊高頻時付出了極大的功耗代價。這似乎意味著三星在EDA功力還有待提升。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      全新的緩存層次結構

      與Cortex A75和Cortex A76一樣,Exynos M3引入了新的獨占L2緩存作為核心和最后一級共享緩存之間的中間級。新的獨占L2為每核心512KB,與Exynos M1中的共享L2相比,訪問延遲從22個周期減少到12個周期。不過,Cortex A75的L2命中延遲只有8個周期,Exynos M3在這一方面處于劣勢。

      Exynos M3的L2緩存帶寬也增加了一倍,為每時鐘周期32Byte讀寫,而Cortex A75則每時鐘周期16Byte讀/32Byte寫。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      值得注意的是,由于實際芯片中會受到物理布局的影響,實際延遲數據可能還會更高。根據實測,驍龍845的L2延遲在2.8GHz時約為4.4ns, Exynos 9810在2.7GHz時的延遲L2延遲約為4.6ns。

      Exynos M3的共享L3緩存是以NUCA(Non-uniform cache architecture,非一致性緩存體系)方式實現的大型4MB緩存,由4個位于CPU核心對面的1MB分區組成。由于布局不均勻,CPU核心在訪問緩存分區時的延遲并不相同,訪問相鄰分區時延遲為32個周期,訪問距離最遠的分區時延遲為44個周期,三星表示整體的平均訪問延遲為37個周期。

      與L2的情況相似,Exynos M3在L3緩存方面也要弱于Arm公版架構,Cortex A75的L3訪問延遲僅為25個周期,這一點在實測數據中也得以體現:驍龍845的L3訪問延遲約為11.4ns,而Exynos 9810的延遲則為11ns~20ns。

      三星在會議中解釋稱,這種緩存分區的設計旨在為高端移動設備之外的不同設計實現更好的可配置性,言外之意似乎與S.LSI試圖進入汽車領域有關。總體而言,三星承認最終產品的緩存層次結構設計并未達到他們真正想要的水平。

      硅芯片上的物理布局

      三星今年公布了芯片物理布局的數據,詳細分析了處理器內核的平面圖。

      以下是雷鋒網對圖片中一些術語名詞的簡短說明:

      ·pL2:獨占L2緩存,在Exynos M3中為每核心512KB。

      ·FPB:浮點數據路徑;浮點單元/ASIMD單元。

      ·FRS:浮點調度器以及浮點/向量寄存器。

      ·MC:解碼單元和重命名單元。

      ·DFX:這是調試/測試邏輯,代表“針對某某的設計”,例如DFD(針對調試的設計)、DFT(針對測試的設計)、DFM(針對可制造性的設計)和其他雜項邏輯。

      ·LS:加載/存儲單元以及64KB的L1高速數據緩存。

      ·IXU:整數執行單元,包含執行單元、調度器和寄存器。

      ·TBW:透明緩沖寫入,包括TLB結構。

      ·FE:架構前端,包括分支預測單元、取指單元和64KB L1高速指令緩存。

      與Exynos M1相比,Exynos M3中的功能單元尺寸都大大增加,最終Exynos M3的內核功能模塊面積為2.52mm2,另外還有0.98mm2的面積用于512KB L2緩存。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      Exynos M1核心布局

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      Exynos M1核心布局

      三星還展示了整個Exynos M3集群的平面圖, 4個核心彼此相鄰排列,L2和L3也有序的彼此相鄰放置。這種布局可以大大節省芯片布局工作,只需將每個模塊簡單地復制4次即可。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      IPC平均提升59%

      會議最后,三星分析了Exynos M3的性能表現,稱其IPC增長幅度約為59%。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      當然,在不同的工作負載下,IPC的增長并不是線性的,在高ILP(多種指令同時執行)的工作負載下,IPC增長僅有限25%,在MLP(存儲級并行)工作負載下甚至幾乎沒有增加,而在其他許多混合工作負載中,IPC的提升幅度超過80%。

      三星展示了Exynos M2、Exynos M3和Cortex A75之間的GeekBench4性能對比,分布代表Exynos 8895、Exynos 9810和驍龍845的性能表現。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      除三星展示的對比數據外,我還添加了一些新的Spec分數,這些分數改進了最初的評論數據,新的Spec分數考慮了動態電壓頻率調整以及更綜合的測試環境。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      能效比一直是處理器的一個重要評判標準,不過三星在Exynos M3上顯然省略這些。正如上文中提到的,Exynos M3在沖擊高頻時付出了極大的功耗代價,盡管它在2.7GHz時擁有絕對領先的性能,但此時能效比卻低于Exynos M2。在將頻率降低到與Exynos M2相同的2.3GHz后,Exynos M3才顯示出能效比上的優勢。

      下圖顯示了完成測試中的電能消耗量及平均功耗,左邊的條形表示消耗的能量,以J(焦耳)為單位,條形越短代表耗能越少,相應的平臺的效率越高;右邊的條代表性能分數,條形越長代表性能越強。

      從結果來看,Exynos M3擁有相當寬泛的能效比區間。與Cortex A75相比,Exynos M3在2.3GHz時便可擁有更強的性能以及相仿的能耗比;而與Exynos M2相比,Exynos M3即便在1.8GHz這個最低頻率上,性能和能效比均壓倒性的優于2.3GHz的滿血Exynos M2。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      據雷鋒網了解,Exynos 9810中的Exynos M3集群在單核、雙核、四核滿載的情況下頻率分別為2.7GHz、2.3GHz、1.8GHz,功耗均為3.5瓦左右。換言之,M3核心從1.8GHz到2.3GHz,提升500MHz頻率功耗便翻了一倍,而從2.3GHz提升到2.7GHz,僅400MHz的提升就讓功耗再次翻倍,即從1.8GHz到2.7GHz,即便性能也呈線性同步提升,幅度也只有50%,功耗則翻了兩番。

      而Exynos 9810的四核Exynos M3全部運行在相同的電壓和頻率上,許多情況下執行次要線程的核心并不需要跑在與主線程核心相同的最高性能點上,但其所需的性能又超過了Cortex A55小核心所能負擔的范圍,所以執行次要線程的核心只能與主線程核心飚在相同的高頻率上,大大降低了整體的能效比。

      三星未來戰略與結論

      最后,三星更多地討論了Exynos項目的時間表。正如開篇介紹中所說,Exynos M3原計劃于2014年第2季度開始,然而隨著M1的完成,RTL在2015年第1季度開始,開發計劃發生了大變動,目標被設定得更高,原本的Exynos M3被拆分成了Exynos M2,而新的Exynos M3設計方案則變得異常激進。

      RTL于2017年第一季度交付給SoC團隊,用于Exynos 9810的第一個EVT0流片(實際產出的芯片是EVT1),并于2017年中期下線,而最終發布的Exynos 9810則是在 2018年3月上市。

      Cortex A76沒出生就已被它干掉——三星Exynos M3架構詳解

      Exynos M3對于三星設計團隊來說是一次相當大的挑戰,整個架構設計幾乎推倒重來,并且還必須面對極端的時間壓力,在項目截止日期前推出產品。

      整體來看,Exynos M3是一個非常堅實的微體系結構,感覺上更像是一款桌面級架構。三星為了增強架構性能,采取了最簡單粗暴的辦法擴充規模,這也導致了其巨大的內核尺寸。不過由于時間限制,三星似乎仍然保留了很多沒有被納入Exynos M3的改進,特別是緩存層次結構似乎是這一架構中最薄弱的部分,三星承認他們對此并不滿意。

      三星的貓鼬架構經歷了Exynos M2和Exynos M3兩代改進,其IPC增長率分別高達20%和59%。據悉,SARC設計團隊現在每年都會有持續的架構改進,且三星表示Arm Cortex A76的真正競爭對手是明年的Exynos M4,而不是現在的Exynos M3。

      就在幾天前,Arm公布了其未來三年CPU路線圖,揭示了Cortex A76的繼任者Deimos和Hercules,并承諾約15%和10%的代際收益。從目前的測試數據來看,Exynos M3在性能方面似乎已達到或超過Cortex A76的水平,預計在Exynos M4上,我們仍可以看到三星自研架構的競爭優勢。

      感謝三星一直以來所做的架構曝光,這種細節展示在行業內實屬少見。希望S.LSI和SARC能夠解決Exynos M3架構的弱點,使明年的新架構取得更大的成功。

      via:Anandtech

      相關文章:

      淺析ARM全新Cortex A76架構:2.4GHz便可干掉驍龍845

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      分享:

      編輯

      觀點離經叛道的骨灰級硬件愛好者
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 亚洲一区| 中文字幕无码av波多野吉衣| 一区一区三区产品乱码| 久久香蕉欧美精品| 成年片色大黄全免费网站久久| jizzjizz欧美| 午夜免费啪视频在线无码| 国内精品久久久久久| 五月花成人网| 精品久久久久无码| 阿鲁科尔沁旗| 色综合av社区男人的天堂| 免费的很黄很污的视频| 国产91视频| 日逼免费视频| 国产成人精品无码一区二区 | 亚洲欧洲一区二区免费| 又粗又黄又猛又爽大片免费| 一色桃子中出欲求不满人妻 | 国产zzjjzzjj视频全免费| 看全黄大色黄大片视频| 手机在线观看AV| 人人妻人人爽人人澡欧美一区| 精品国内自产拍在线观看视频| 国产????XX高清| 国产精品自拍视频免费看| 亚洲色鬼| 亚洲av麻豆aⅴ无码电影| 国产av中文字幕| 男女超爽视频免费播放| 亚洲女初尝黑人巨高清| 宫西光在线| 欧美日韩国产一区二区三区欧| 性一交一黄一片| 国产黄色一区二区三区四区| 亚洲AV成人片不卡无码| 人人看av日韩国产| 嫩草研究院久久久精品| 滨州市| 国产精品成人亚洲| 女人被狂c躁到高潮视频 |