<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給程弢
      發送

      0

      谷歌硬件工程師揭秘,TPU為何會比CPU、GPU快30倍?

      本文作者: 程弢 2017-04-06 14:03
      導語:從這次發布的測試結果來看,TPU似乎已經超出了業界的預期,但是藏在這一芯片背后的內部架構究竟有什么秘密呢,我們從Jouppi此前發布的論文當中,可以找到答案。

      谷歌硬件工程師揭秘,TPU為何會比CPU、GPU快30倍?

      在谷歌發布TPU一年后,這款機器學習定制芯片的神秘面紗終于被揭開了。

      昨日,谷歌資深硬件工程師Norman Jouppi刊文表示,谷歌的專用機器學習芯片TPU處理速度要比GPU和CPU快15-30倍(和TPU對比的是英特爾Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍。

      從這次發布的測試結果來看,TPU似乎已經超出了業界的預期,但是藏在這一芯片背后的內部架構究竟有什么秘密呢,我們從Jouppi此前發布的論文當中,可以找到答案。

      據雷鋒網了解,早在四年前,谷歌內部就開始使用消耗大量計算資源的深度學習模型,這對CPU、GPU組合而言是一個巨大的挑戰,谷歌深知如果基于現有硬件,他們將不得不將數據中心數量翻一番來支持這些復雜的計算任務。

      所以谷歌開始研發一種新的架構,Jouppi稱之為“下一個平臺”。Jouppi曾是MIPS處理器的首席架構師之一,他開創了內存系統中的新技術。三年前他加入谷歌的時候,公司上下正在用CPU、GPU混合架構上來進行深度學習的訓練。

      Jouppi表示,谷歌的硬件工程團隊在轉向定制ASIC之前,早期還曾用FPGA來解決廉價、高效和高性能推理的問題。但他指出,FPGA的性能和每瓦性能相比ASIC都有很大的差距。他解釋說,“TPU可以像CPU或GPU一樣可編程,它可以在不同的網絡(卷積神經網絡,LSTM模型和大規模完全連接的模型)上執行CISC指令,而不是為某個專用的神經網絡模型設計的。一言以蔽之,TPU兼具了CPU和ASIC的有點,它不僅是可編程的,而且比CPU、GPU和FPGA擁有更高的效率和更低的能耗。

      TPU的內部架構

      谷歌硬件工程師揭秘,TPU為何會比CPU、GPU快30倍?

      該圖顯示了TPU上的內部結構,除了外掛的DDR3內存,左側是主機界面。指令從主機發送到隊列中(沒有循環)。這些激活控制邏輯可以根據指令多次運行相同的指令。

      TPU并非一款復雜的硬件,它看起來像是雷達應用的信號處理引擎,而不是標準的X86衍生架構。Jouppi說,盡管它有眾多的矩陣乘法單元,但是它GPU更精于浮點單元的協處理。另外,需要注意的是,TPU沒有任何存儲的程序,它可以直接從主機發送指令。

      TPU上的DRAM作為一個單元并行運行,因為需要獲取更多的權重以饋送到矩陣乘法單元(算下來,吞吐量達到了64,000)。Jouppi并沒有提到是他們是如何縮放(systolic)數據流的,但他表示,使用主機軟件加速器都將成為瓶頸。

      谷歌硬件工程師揭秘,TPU為何會比CPU、GPU快30倍?

      256×256陣列縮放數據流引擎,經過矩陣乘法積累后實現非線性輸出

      從第二張圖片可以看出,TPU有兩個內存單元,以及一個用于模型中參數的外部DDR3 DRAM。參數進來后,可從頂部加載到矩陣乘法單元中。同時,可以從左邊加載激活(或從“神經元”輸出)。那些以收縮的方式進入矩陣單元以產生矩陣乘法,它可以在每個周期中進行64,000次累加。

      毋庸置疑,谷歌可能使用了一些新的技巧和技術來加快TPU的性能和效率。例如,使用高帶寬內存或混合3D內存。然而,谷歌的問題在于保持分布式硬件的一致性。

      TPU對比Haswell處理器

      在和英特爾“Haswell”Xeon E5 v3處理器來的對比中,我們可以看到,TPU各方面的表現都要強于前者。

      在Google的測試中,使用64位浮點數學運算器的18核心運行在2.3 GHz的Haswell Xeon E5-2699 v3處理器能夠處理每秒1.3 TOPS的運算,并提供51GB/秒的內存帶寬;Haswell芯片功耗為145瓦,其系統(擁有256 GB內存)滿載時消耗455瓦特。

      相比之下,TPU使用8位整數數學運算器,擁有256GB的主機內存以及32GB的內存,能夠實現34GB/秒的內存帶寬,處理速度高達92 TOPS ,這比Haswell提升了71倍,此外,TPU服務器的熱功率只有384瓦。

      谷歌硬件工程師揭秘,TPU為何會比CPU、GPU快30倍?

      除此之外,谷歌還測試了CPU、GPU和TPU處理不同批量大小的每秒推斷的吞吐量。

      谷歌硬件工程師揭秘,TPU為何會比CPU、GPU快30倍?

      如上圖所示,在小批量任務中(16),Haswell CPU的響應時間接近7毫秒,其每秒提供5482次推斷(IPS),其可以實現的最大批量任務(64)每秒則可以完成13194次推斷,但其響應時間為21.3毫秒。相比之下,TPU可以做到批量大小為200,而響應時間低于7毫秒,并提供225000個IPS運行推理基準,是其峰值性能的80%,當批量大小為250,響應時間為10毫秒。

      不過需要注意的是,谷歌所測試的Haswell Xeon處理器似乎也不能完全說明問題,英特爾Broadwell Xeon E5 v4處理器和最新的“Skylake”Xeon E5,每核心時鐘(IPC)的指令比這款處理器提升了約5%。在Skylake是28核,而Haswell為18核,所以Xeon的總體吞吐量可能會上升80%。當然,這樣的提升與TPU相比仍有差距。

      最后雷鋒網需要強調的是,TPU是一個推理芯片,它并非是要取代GPU,可以確定的是,TPU與CPU一起使用對訓練分析更加有益。但對于CPU制造商而言,如何研發出像ASIC一樣兼顧性能和能效的芯片是現在以及未來要做的。

      可以確定的是,谷歌已經逐漸在自己的數據中心部署TPU,但是上述測試數據只是理論結果,實際應用表現如何?我們還不得而知。

      Via nextplatform,雷鋒網編譯

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      谷歌硬件工程師揭秘,TPU為何會比CPU、GPU快30倍?

      分享:
      相關文章

      略懂技術的小編

      關注一切有未來感的產品及技術!
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 精品流白浆| 亚洲AV成人精品日韩在线播放| 性中国videossexo另类| 日韩精品人妻中文字幕| 亚洲美女高潮不断亚洲| 熟女人妻AV| 亚洲视频高清不卡在线观看| 亚洲综合伊人久久综合| 国产AV国片精品有毛| 果冻传媒18禁免费视频 | 久久天天躁狠狠躁夜夜不卡| 延长县| 国产成人亚洲综合无码| 欧美乱大交xxxxx潮喷l头像| 开原市| 黑水县| av中文字幕国产精品| 国产 校园 另类 小说区| 国内精品自线在拍| 在线毛片免费| 精品国产色情一区二区三区| 伊人www| 男人和女人做爽爽视频| 午夜三级在线| 亚洲精品二区在线播放| 中文无码第一页| 人妻社区| a4yy私人毛片| 337p西西人体大胆瓣开下部| 天堂www在线中文| 久久狠狠高潮亚洲精品| 国产精品扒开腿做爽爽爽视频| 婷婷伊人綜合中文字幕小说| 成在线人免费视频| 亚洲AV电影在线观看| 精品无码一区二区三区| 久久99精品久久水蜜桃| 大尺度无遮挡激烈床震网站| 天堂av成人国产精品| 国内精品久久久久影院一蜜桃| 精品人妻伦九区久久AAA片|