<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能 正文
      發(fā)私信給劉鵬
      發(fā)送

      0

      【評測】谷歌TPU二代來了,英偉達Tesla V100尚能戰(zhàn)否?

      本文作者: 劉鵬 編輯:楊曉凡 2018-05-09 18:40
      導(dǎo)語:去年的評測中英偉達 Tesla V100 尚能不懼谷歌 TPUv1 的挑戰(zhàn),但是現(xiàn)在谷歌 TPU 二代來了,英偉達 Tesla V100 尚能戰(zhàn)否?

      雷鋒網(wǎng)按:谷歌去年年中推出的 TPUv1 一度讓英偉達感受到威脅將近,而現(xiàn)在的谷歌 TPU 二代 TPUv2 則著著實實得將這份威脅變成了現(xiàn)實,去年的評測中英偉達 Tesla V100 尚能不懼谷歌 TPUv1 的挑戰(zhàn),但是現(xiàn)在谷歌 TPU 二代來了,英偉達 Tesla V100 尚能戰(zhàn)否?

      【評測】谷歌TPU二代來了,英偉達Tesla V100尚能戰(zhàn)否?

      以下為 RiseML 對谷歌 TPUv2 和英偉達 Tesla V100 的對比評測,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI 科技評論將其內(nèi)容編譯如下。

      谷歌在 2017 年為加速深度學(xué)習(xí)開發(fā)了一款的定制芯片,張量處理單元 v2 (TPUv2)。TPUv2 是谷歌在 2016 年首次公開的深度學(xué)習(xí)加速云端芯片 TPUv1 的二代產(chǎn)品,被認為有著替代英偉達 GPU 的潛在實力。RiseML 此前撰寫過一篇谷歌 TPUv2 的初體驗,并隨后收到了大家「將谷歌 TPUv2 與英偉達 V100 GPU 進行對比評測」的大量迫切要求。

      但是將這兩款深度學(xué)習(xí)加速芯片進行公平而又有意義的對比評測并非易事。同時由于這兩款產(chǎn)品的對業(yè)界未來發(fā)展的重要程度和當(dāng)前深度詳細評測的缺失,這讓我們深感需要自行對這兩款重磅云端芯片進行深度評測。我們在評測過程中也盡可能地站在芯片對立雙方傾聽不同意見,因此我們也同時與谷歌和英偉達的工程師建立聯(lián)系并讓他們在本次評測文草稿階段留下各自的意見。以上措施使得我們做出了針對 TPUv2 和 V100 這兩款云端芯片的最全面深度對比評測。

      實驗設(shè)置

      我們用四個 TPUv2 芯片(來自一個 Cloud TPU 設(shè)備)對比四個英偉達 V100 GPU,兩者都具備 64GB 內(nèi)存,因而可以訓(xùn)練相同的模型和使用同樣的批量大小。該實驗中,我們還采用了相同的訓(xùn)練模式:四個 TPUv2 芯片組成的一個 Cloud TPU 來運行一種同步數(shù)據(jù)并行分布式訓(xùn)練,英偉達一側(cè)也是同樣利用四個 V100 CPU。

      模型方面,我們決定使用圖像分類的實際標(biāo)準(zhǔn)和參考點在 ImageNet 上訓(xùn)練 ResNet-50 模型。雖然 ResNet-50 是可公開使用的參考實例模型,但是現(xiàn)在還沒有能夠單一的模型實現(xiàn)支持在 Cloud TPU 和多個 GPU 上進行模型訓(xùn)練。

      對于 V100,英偉達建議使用 MXNet 或者 TensorFlow 的實現(xiàn),可以在 Nvidia GPU Cloud 平臺上的 Docker images 中使用它們。然而,我們發(fā)現(xiàn) MXNet 或者 TensorFlow 實現(xiàn)直接拿來使用的話,在多 GPU 和對應(yīng)的大訓(xùn)練批量下并不能很好地收斂。這就需要加以調(diào)整,尤其是在學(xué)習(xí)率的設(shè)置方面。

      作為替代,我們使用了來自 TensorFlow 的 基準(zhǔn)庫(benchmark repository),并在 tensorflow/tensorflow:1.7.0-gpu, CUDA 9.0, CuDNN 7.1.2 下在 Docker image 中運行它。它明顯快過英偉達官方推薦的 TensorFlow 實現(xiàn),而且只比 MXNet 實現(xiàn)慢 3%。不過它在批量下收斂得很好。這就有助于我們在同樣平臺(TensorFlow 1.7.0)下使用相同框架,來對兩個實現(xiàn)進行比較。

      云端 TPU 這邊,谷歌官方推薦使用來自 TensorFlow 1.7.0 TPU repository 的 bfloat16 實現(xiàn)。TPU 和 GPU 實現(xiàn)利用各個架構(gòu)的混合精度訓(xùn)練計算以及使用半精度存儲最大張量。

      針對 V100 的實驗,我們在 AWS 上使用了四個 V100 GPU(每個 16 GB 內(nèi)存)的 p3.8xlarge 實例(Xeon E5-2686@2.30GHz 16 核,244 GB 內(nèi)存,Ubuntu 16.04)。針對 TPU 實驗,我們使用了一個小型 n1-standard-4 實例作為主機(Xeon@2.3GHz 雙核,15GB 內(nèi)存,Debian 9),并為其配置了由四個 TPUv2 芯片(每個 16 GB 的內(nèi)存)組成的云端 TPU(v2-8)。

      我們進行了兩種不同的對比實驗,首先,我們在人工合成自然場景(未增強數(shù)據(jù))下,觀察了兩者在每秒圖像處理上的原始表現(xiàn),具體來說是數(shù)據(jù)吞吐速度(每秒處理的圖像數(shù)目)。這項對比與是否收斂無關(guān),而且確保 I / O 中無瓶頸或無增強數(shù)據(jù)影響結(jié)果。第二次對比實驗,我們觀察了兩者在 ImageNet 上的準(zhǔn)確性和收斂性。

      數(shù)據(jù)吞吐速度結(jié)果

      我們在人工合成自然場景(未增強數(shù)據(jù))下,以每秒圖像處理的形式觀測了數(shù)據(jù)吞吐速度,也就是,在不同批量大小下,訓(xùn)練數(shù)據(jù)也是在運行過程中創(chuàng)造的。同時需要注意,TPU 的官方推薦批量大小是 1024,但是基于大家的實驗要求,我們還在其他批量大小下進行了兩者的性能測試。

      【評測】谷歌TPU二代來了,英偉達Tesla V100尚能戰(zhàn)否?

      在生成的數(shù)據(jù)和沒有數(shù)據(jù)增強的設(shè)置下,在各種批量大小下測試兩者的每秒圖像處理性能表現(xiàn)。批量大小為「global」總計的,即 1024 意味著在每個步驟中每個 GPU / TPU 芯片上的批量大小為 256

      當(dāng)批量大小為 1024,兩者在數(shù)據(jù)吞吐速度中并無實際區(qū)別!谷歌 TPU 有約 2% 的輕微領(lǐng)先優(yōu)勢。大小越小,兩者的性能表現(xiàn)會越降低,這時 GPU 就表現(xiàn)地稍好一點。但如上所述,目前這些批量大小對于 TPU 來說并不是一個推薦設(shè)置。

      根據(jù)英偉達的官方建議,我們還在 MXNet 上使用 GPU 做了一個實驗,使用的是 Nvidia GPU Cloud 上提供的 Docker image (mxnet:18.03-py3) 內(nèi)的 ResNet-50 實現(xiàn)。在批量大小為 768 時(1024 太大),GPU 能每秒處理 3280 張圖像。這比上面 TPU 最好的性能表現(xiàn)還要快 3%。但是,就像上面那樣,在批量大小同為 168 時,多 GPU 上 MXNet 收斂得并不好,這也是我們?yōu)槭裁搓P(guān)注兩者在 TensorFlow 實現(xiàn)上的表現(xiàn)情況,包括下面提及的也是一樣。

      云端成本

      現(xiàn)在 Google Cloud 已經(jīng)開放了云端 TPU(四個 TPUv2 芯片)。只有在被要求計算時,云端 TPU 才會連接到 VM 實例。云端測試方面,我們考慮使用 AWS 來測試英偉達 V100(因為 Google Cloud 當(dāng)前仍不支持 V100)。基于上面的測試結(jié)果,我們總結(jié)出了兩者在各自平臺和 provider 上的每秒處理圖像數(shù)量上的花費成本(美元)。

      【評測】谷歌TPU二代來了,英偉達Tesla V100尚能戰(zhàn)否?

      每秒圖像處理上的成本(美元)

      在上表所示的成本下,云端 TPU 顯然是個贏者。然而,當(dāng)你考慮長期租用或者購買硬件(云 TPU 現(xiàn)在還沒有辦法買到),情況可能會不同。以上情況還包括當(dāng)租用 12 個月時的情況(在 AWS 上的 p3.8xlarge 保留實例的價格(無預(yù)付款))。這種租用情況將明顯得將價格降低至每 1 美元處理 375 張圖像的成本。

      GPU 這邊有一個更有意思的購買選項可以考慮,例如 Cirrascale 就提供了四個 V100 GPU 服務(wù)器的月租服務(wù),月租金 7500 美元(約 10.3 美元/小時)。但是由于硬件會因 AWS 上的硬件配置(CPU 種類,內(nèi)存以及 NVLink 支持等等)的不同而改變,而以 benchmarks 為基準(zhǔn)的對比評測要求的是直接的對比(非云端租用)。

      正確率和收斂

      除報告兩者的原始性能之外,我們還想驗證計算(computation)是「有意義」的,也就是指,實現(xiàn)收斂至好的結(jié)果。因為我們比較的是兩種不同的實現(xiàn),所以一些誤差是在預(yù)料之中的。因此,這是一項不僅僅是關(guān)于硬件速度,還會涉及到實現(xiàn)質(zhì)量的對比評測。TPU 的 ResNet-50 實現(xiàn)中加入了非常高計算強度的圖像預(yù)處理過程,這實際上犧牲了一部分數(shù)據(jù)吞吐速度。谷歌給出的實現(xiàn)中就是這樣設(shè)計的,稍后我們也會看到這種做法確實獲得了回報。

      我們在 ImageNet 數(shù)據(jù)集上訓(xùn)練模型,訓(xùn)練任務(wù)是將一張圖像分類至如蜂鳥,墨西哥卷餅或披薩的 1000 個類別。這個數(shù)據(jù)集由訓(xùn)練用的 130 萬張圖像(約 142 GB)以及 5 萬張用于驗證的圖像(約 7 GB)組成。

      我們在批量大小為 1024 的情況下,對模型進行了 90 個時期的訓(xùn)練,并將數(shù)據(jù)驗證的結(jié)果進行了比較。我們發(fā)現(xiàn),TPU 實現(xiàn)始終保持每秒處理 2796 張圖像的進程,同時 GPU 實現(xiàn)保持每秒處理 2839 張。這也是根據(jù)上面數(shù)據(jù)吞吐速度結(jié)果所得的區(qū)別,我們是在未進行數(shù)據(jù)增強和使用生成的數(shù)據(jù)的情況下,對 TPU 和 GPU 進行的原始速度比較。

      【評測】谷歌TPU二代來了,英偉達Tesla V100尚能戰(zhàn)否?

      兩個實現(xiàn)在進行了 90 個時期訓(xùn)練后的首位準(zhǔn)確率(即只考慮每張圖像具有最高可信度的預(yù)測情況下)

      如上圖所示,TPU 實現(xiàn) 進行了 90 個時期訓(xùn)練后的首位準(zhǔn)確率比 GPU 多 0.7%。這在數(shù)值上可能看起來是很小的差別,但是在兩者已經(jīng)非常高的水平上進行提升是極度困難的,以及在兩者在實際應(yīng)用場景中,即便是如此小差距的提升也將最終導(dǎo)致在表現(xiàn)產(chǎn)生天壤之別。

      讓我們來看一下在不同的訓(xùn)練時期模型學(xué)習(xí)識別圖像的首位準(zhǔn)確率。

      【評測】谷歌TPU二代來了,英偉達Tesla V100尚能戰(zhàn)否?

      設(shè)置了驗證的兩個 實現(xiàn)的首位準(zhǔn)確率

      上表中放大圖部分首位準(zhǔn)確率的劇烈變化,與 TPU 和 GPU 這兩個 實現(xiàn)上模型的學(xué)習(xí)速率是相吻合的。TPU 實現(xiàn)上的收斂過程要好于 GPU,并在 86 個時期的模型訓(xùn)練后,最終達到 76.4% 的首位準(zhǔn)確率,但是作為對比,TPU 實現(xiàn)則只需 64 個模型訓(xùn)練時期就能達到相同的首位準(zhǔn)確率。TPU 在收斂上的提升貌似歸功于更好的預(yù)處理和數(shù)據(jù)增強,但還需要更多的實驗來確認這一點。

      基于云端的解決方案成本

      最后,在需要達到一定的精確度的情況下,時間和金錢成本最為關(guān)鍵。我們假設(shè)精確度 75.7%(GPU 實現(xiàn)可實現(xiàn)的最高精確度)為可接受的解決方案,我們就可以計算出,基于要求的模型訓(xùn)練時期和模型圖像每秒處理的訓(xùn)練速度,達到該精確度的所需成本。這還包括計算模型在某個訓(xùn)練時期節(jié)點上花費的時間和模型初始訓(xùn)練所需的時間。

      【評測】谷歌TPU二代來了,英偉達Tesla V100尚能戰(zhàn)否?

      首位準(zhǔn)確率達到 75.7% 的金錢成本(保留 12 個月的使用周期)

      正如上表所示,云端 TPU 允許用戶在 9 個小時內(nèi)并且花費 55 美元,就能在 ImageNet 上從零開始訓(xùn)練模型精確度至 75.7%,花費 73 美元能將模型收斂訓(xùn)練至 76.4%。雖然V100 與 TPU 的運行速度同樣,但V100 花費價格過高以及其收斂實現(xiàn)更慢,所以采用 TPU是明顯更具性價比的解決方案。

      需要再一次說明的是,我們本次所做的對比評測的結(jié)果取決于實現(xiàn)的質(zhì)量以及云端服務(wù)器的標(biāo)價。

      另外一項兩者的有趣對比將會是基于兩者在能量功耗上的比較。然而,我們現(xiàn)在還無法得知任何公開的 TPUv2 能量功耗信息。

      總結(jié)

      基于我們的實驗標(biāo)準(zhǔn),我們總結(jié)出,在 ResNet-50 上四個 TPUv2 芯片(即一個云端 TPU)和四個 GPU 的原始運行速度一樣快(2% 的實驗誤差范圍內(nèi))。我們也期待將來能通過對軟件(TensorFlow 或 CUDA)優(yōu)化來提升兩者在平臺上的運行性能和改善實驗誤差。

      在特定問題實例上達到特定的精確度的兩者實際運用中,時間和云端成本最為關(guān)鍵。以目前的云端 TPU 定價,配合高水平的 ResNet-50 實現(xiàn),在 ImageNet 上達到了令人欽佩的準(zhǔn)確率對時間和金錢成本(僅花費 73 美元就能訓(xùn)練模型達到 76.4%的精確度)。

      將來,我們還將采用來自其他領(lǐng)域的不同網(wǎng)絡(luò)架構(gòu)作為模型的基準(zhǔn)以進行更深度的評測。還有一個有趣的實驗點是,對于給定的硬件平臺,想要高效地利用硬件資源需要花費多少精力。舉例來說,混合精度的計算可以帶來明顯的性能提升,然而在 GPU 和 TPU 上的實現(xiàn)和模型表現(xiàn)卻是迥異的。

      最后,感謝弗萊堡大學(xué)的 Hannah Bast、卡耐基梅隆大學(xué)的 David Andersen、Tim Dettmers 和 Mathias Meyer 對本次對比評測草稿文的研讀與矯正。

      via RiseML Blog,雷鋒網(wǎng) AI 科技評論編譯。

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      【評測】谷歌TPU二代來了,英偉達Tesla V100尚能戰(zhàn)否?

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 亚洲成人综合导航| 51精品国产人成在线观看| av香港经典三级级 在线| 色噜噜狠狠色综合成人网| 人妻制服丝袜中文字幕| 国产精品亚洲专区无码web| 亚洲色大成网站www久久九 | 91资源在线观看| 极品无码国模在线观看| 免费视频欧美无人区码| 精品国产乱码久久久久久婷婷| 一级做a爰片在线播放| 日韩AV在线免费观看| 精品久久久噜噜噜久久久| 国产亚洲欧美日韩俺去了| 黄www| 日韩人妻无码专区一本| 无码h肉动漫在线观看| 男女肉粗暴进来动态图| 日韩AV一卡二卡三卡| 日本特黄特黄刺激大片| 夜夜爽影院| 中国一区二区视频| 亚洲av永久无码精品秋霞电影影院| 青青久草| 亚洲成人夜色| 欧美A√| 国产精品无码a∨麻豆| 精品国产制服丝袜高跟| 国产成人精品18| 亚洲AV成人一区二区三区AV| 大地资源中文第三页| 日本三码电影在线| 日韩成人电影一区| 巨熟乳波霸若妻在线播放| 天天综合天天色| 中文字幕一区二区三区人妻少妇| jizz亚洲人| 国产精品沙发午睡系列990531| 电影久久久久久| 91久久精品视频|