0
| 本文作者: 李詩 | 2018-09-20 15:40 |
數據是人工智能(以下簡稱AI)技術的燃料,也被比喻為數據經濟中的石油。在AI時代,數據的采集、存儲、傳輸和處理需要強大的基礎設施作為支撐。數據中心和數萬臺服務器成為互聯網巨頭的標配。
8月22日,今日頭條與英特爾舉辦主題為“數據賦能,AI正當時”的戰略合作發布會,會上,今日頭條介紹與英特爾合作的超10萬臺服務器的大規模數據中心,同時雙方宣布成立技術創新實驗室,在大數據和AI方面進行更長遠戰略合作。

這兩年,頭條系產品用戶量增長迅猛,要處理的數據也是呈指數級增長。
近日頭條技術副總裁楊震原介紹,目前,今日頭條每日數據處理量超過50PB、存儲數據超過1500PB、評論系統每天的評論數大概有1億條,需要大量的服務器來處理這些內容。
2013年3月字節跳動的服務器數量只有幾十臺,到年底增至一千臺,此后便是上萬臺的增長。在2017年年初的時候,公司大概有2-3萬臺服務器,現在大概有17萬臺服務器。
今日頭條對大型數據中心的需求是急迫的。楊震原介紹道,字節跳動花費了不到九個月的時間在懷來創建起了超大規模的數據中心。數據中心投入運營創立了國內多個第一,包括國內首個大平層預制數據中心,首個整體電源模塊預制數據中心,首個大規模分布式數據中心,首個間接蒸發冷卻模塊數據中心。
雷鋒網曾報道,今日頭條在懷來的數據中心是第三方廠商秦淮數據定制的,投資60億元,主要承載數據存儲、挖掘分析、應用等數據交易生態體系和云服務生態體系,定位為國家級新媒體企業提供高可靠性的云計算服務。
字節跳動2016年初開始有新建數據中心的計劃,懷來的基礎設施相對不完善,但是潛力巨大。2017年12月字節跳動開始在懷來數據中心放置服務器,目前一期園區約5萬臺服務器已經投入使用,正在緊鄰一期園區建設二期,規模增加一半但預計工期相同,大概能容納9萬臺服務器。
今日頭條的服務器100%采用最新的英特爾至強可擴展處理器(Purley)平臺,基于Purley平臺去架構的大數據分析、精準廣告的推放、個人用戶行為的分析,在今日頭條和抖音很多應用當中都已經有出色的使用。
數據中心是互聯網巨頭的標配,但是也不是一勞永逸的方法。楊震原談到,“懷來數據中心已經滿載運行了,下一步我們還要建設更大規模的數據中心。但是,更大規模的數據中心實際上只是解決擴展性的問題,我們有資源的情況下可以迅速的擴充資源,支撐我們的業務發展。但未來的挑戰也非常大,我們也不可能完全靠堆資源的方式解決我們的問題。
舉一些我們未來的挑戰,比如全球化運營,字節跳動在歐洲、北美、南美、東南亞都有很多產品和用戶。全球化運營過程中我們會面臨海外IDC的建設還有長距離傳輸的挑戰,尤其是我們的推薦系統是一個非常緊耦合的結構,這個對我們的挑戰非常大。再比如,數據規模會進一步的擴大,會帶來一些計算模式的演進,還有算法沉淀、商業模式帶來的一些問題。
另外,新硬件的變化,手機移動端和5G網絡這些新的變化可能會帶來未來計算模式到底是什么樣的變化,是不是有更多的計算offload在外面,我們的傳輸是不是有新的模式去運作,這些問題對我們都有很大的挑戰,而且我們不能都僅僅通過加資源去解決,這就是我們為什么去跟英特爾更加緊密的合作,我們希望不僅僅在資源的累積上,而是做更多的創新,更多的算法,我們能夠給英特爾提出更多的問題,我們一起去合作,這些東西是為了解決我們的挑戰,而且我希望這些東西能夠輸出給行業,能夠帶動市場的發展,所以這是共贏一個事情。”
這幾年,AI風口正盛,而今日頭條正是依靠算法、AI技術快速崛起的新銳AI公司代表。在2016年,今日頭條創辦人工智能實驗室,旨在推動人工智能前沿技術研究,讓機器深入理解文字、圖片、視頻、環境場景和用戶興趣,從而促進人類信息與知識交流的效率和深度。主要研究機器學習、圖像識別、自然語言處理、語音識別等AI技術。
據今日頭條算法架構師曹歡歡介紹,今日頭條在目前在多方面運用AI技術:第一方面是做內容推薦的算法,目前頭條、抖音、火山、西瓜都在大量地使用這方面的技術;第二是自然語言處理,主要用來分析文章內容、用戶評論等,對內容推薦是很重要的支撐。此外,我們也在用NLP技術做寫稿機器人“Xiaomingbot”;另外是計算機視覺,我們在抖音、火山、FaceU激萌等短視頻App上用到了很多的CV技術,例如人臉特效、背景分割、“尬舞機”、內容審核、封面選擇、AI剪輯等;最后是語音識別,這個方面應用還不多,目前是用在抖音、火山、西瓜里的內容審方面,將視頻的語音內容識別成文字,然后利用NLP技術去發現不良內容、惡意營銷等。
雷鋒網了解到,今日頭條這些AI技術研發和落地應用都需要底層力量支持,英特爾為今日頭條提供基礎架構平臺支撐,包括CDN、智能運維數據系統、計算、存儲。在計算方面,今日頭條現在已經全面使用新一代至強可擴展平臺,網絡傳輸方面采用英特爾新一代高速網卡,存儲方面也大量用到SSD,在底層的開源軟件上也有合作。
隨著企業級的計算市場在不斷的發展,云計算、大數據、人工智能、機器學習技術也在不斷的創新,英特爾正在從以個人電腦為中心變成以數據為中心的公司。
英特爾公司市場營銷集團行業解決方案部中國區總經理梁雅莉介紹到,英特爾是業界現在唯一一家能夠提供從數據中心、從云到端的端到端解決方案的公司,英特爾既能夠通過最新的至強可擴展處理器以及開發當中的神經網絡處理器來滿足數據中心當中海量的數據處理,也可以在汽車、無人機等對能耗以及對運行環境特別有嚴苛要求的到端的場合提供Movidius這種低功耗、高性能的人工智能處理芯片,當然我們還會通過創新的劃時代的存儲技術和連接技術、通訊技術來賦能各行各業數字化的創新和轉型。
據雷鋒網了解,在硬件方案之上,英特爾也在積極推動人工智能領域高性能軟件工具的開源,目前所有的主流人工智能軟件的框架TensorFlow、Caffe,已經在英特爾的至強平臺、英特爾的Nervana神經網絡平臺上得到非常好的性能的優化,而且英特爾也將把優化所有這些框架使用的工具,MKL-DNN都開源開放給所有的開發者,能夠推動更多、更好的人工智能的軟件充分發揮英特爾Nervana平臺的性能。
今日頭條是英特爾助力企業級計算的一個例子。從2013年起,今日頭條就與英特爾展開了合作。2018年,雙方在年初簽訂了創新基金,然后共同成立了創新實驗室,今天一起簽訂戰略合作備忘錄,利用雙方的資源優勢來引領行業技術發展的趨勢。
英特爾與今日頭條的戰略合作涵蓋數據中心和底層基礎架構的硬件和軟件優化、市場合作以及成功案例推廣等,包括大數據分析、人工智能等領域。合作內容具體包括以英特爾至強可擴展處理器的計算、基于英特爾3D XPoint技術的存儲產品和網絡,為今日頭條構建和優化數據中心基礎設施;并通過AVX2/AVX-512等指令集與軟件層的優化,為今日頭條的數據分析及人工智能應用賦能,打造全方位的解決方案。
技術創新合作實驗室主要是圍繞平臺架構、技術架構、應用業務架構和技術趨勢等方面進行深度合作,希望能夠引領行業應用趨勢,樹立行業技術的典范,希望通過技術實驗室將平臺架構與技術架構靈活結合起來,并轉化為生產力,更好的支撐和應用到整個業務架構當中,將最前沿的技術落地,落地到具體的項目和業務當中。
相關文章:
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。