1
| 本文作者: 郭佳 | 2018-06-30 22:12 | 專題:2018 CCF-GAIR 全球人工智能與機器人峰會 |
宅客頻道編者按:作為橫跨電商、支付、云服務、視頻等領域的互聯網巨頭公司,阿里是如何借用 AI 技術來解決所面對的安全挑戰?在6月30日舉辦的CCF-GAIR智能安全專場中,阿里巴巴集團安全部資深總監路全帶來了《從危到機,AI 時代下的安全挑戰》的演講。
路全現任阿里巴巴集團安全部資深總監,負責集團系統和數據安全領域算法的開發。有十余年將大規模統計機器學習,數據挖掘和深度學習成功應用的業界經驗,曾在雅虎和Experian帶領研發團隊。并在頂級國際會議上發表論文二十余篇,擁有多項國際專利。
2018 全球人工智能與機器人峰會(CCF-GAIR)于6月29日在深圳召開。本次大會共吸引超過2500余位 AI 業界人士參會,其中包含來自全球的 140 位在人工智能領域享有盛譽的頂級嘉賓。
以下是路全在現場的演講內容,雷鋒網在不改變原意的基礎上進行了編輯整理。

路全:大家好,很高興能在這個場合和大家分享我們在阿里巴巴網絡安全上的一些實踐和經驗。剛才各位來賓已經對我的演講做了很好的鋪墊,比如說浙大的任教授,他對數據安全各個方面做了非常詳盡的總結,百度的聶總也從安全為智能這個角度談了智能為IOT設備能做什么防護。我今天的演講也是講安全為智能,而不是智能為安全。

我還是想以智能汽車為例展開我的演講,因為大家可能這兩天聽了很多關于智能汽車的比喻,它確實是一個非常典型的智能安全體。大家想一想,我們有幾種方式可以去攻擊智能汽車?
第一個方式在這幾天各位來賓已經講了很多,我們可以去改變這些交通標志,來利用智能算法本身的缺陷攻擊智能汽車,這個我就不展開講了,因為各個來賓都講了例子。
第二個方式是傳統的方式,比如在電影《速度與激情8》,它能夠控制那些平民的汽車,最后完成它的攻擊行為,這是傳統的黑客或者滲透入侵的例子。
第三個方式其實剛才任教授提到的,通過數據的方式,今天我可以不侵入你的系統,但是我產生一些實時的數據或者說一些你以前已經習慣于走這些道路的數據,我把這些數據輸入到云端或者你的系統,可以控制你的車,按照我想要的路徑去走,利用數據中毒的方式來攻擊人工智能系統。

其實,阿里巴巴面臨的挑戰還比智能汽車安全更為復雜,因為大家都知道阿里巴巴現在是一個大數據公司,有很強的人工智能方面的開發和研究能力,每個月、每個季度、每半年其實在阿里巴巴這個生態里都會長出很多新的人工智能的算法或人工智能體,作為集團安全來講,其實我們的防守范圍就以前會大很多,因為以前可能更多的是看中這些機器的防護,但現在這些機器變成人工智能的算法或者人工智能體,我們的防護必須要有一些新的改進。
我剛才簡單介紹了數據污染或者叫數據中毒,一提這個,大家腦海里浮現出來的可能有些非常直觀的例子,比如說微軟小冰的例子,它是一個人工智能對話系統,剛上線的時候因為用實時對話的數據進行訓練的,所以你給他一些不好的對話,就會被污染,這是非常直觀的。
還有一個直觀的例子,SEO(搜索引擎優化)也可以當做一種利用數據去掌握或者控制搜索的推薦算法,因為它其實就是根據推薦算法去用新的數據,去讓推薦算法或者說搜索算法把你排到他想要的位置。

我現在想舉的是兩個不是那么直觀的例子,這是我們在阿里巴巴的網絡安全中遇到的。大家都知道雙十一是阿里巴巴非常大的活動,每年雙十一對普通百姓來說是能夠去買到很多便宜的商品,但我們發現了非常有趣的現象。
平時我們會有很多的爬蟲,根據網絡的流量來爬取信息,因為阿里巴巴的信息還是非常值錢的,但是在雙十一兩個星期之前的爬蟲流量變小了或者幾乎為零,尤其是重要的應用上,我們就奇怪為什么雙十一之前他們不來了?你可能會說,也許跟打仗一樣,正常打仗之前要有一些靜默的方式,然后到雙十一采取一種全新的方式,但是這個解釋不是很通,后來我們明白了,對抗者知道你的模型一定是用最近期的數據訓練的,那他在雙十一之前的兩周靜默之后,我的雙十一這一天的模型其實訓練數據就偏了,我的模型效果就會很差,所以其實是用故意去把你的時間訓練的數據給帶偏的方式來試圖影響和扭曲你的模型。
還有一個例子也是機器爬蟲的例子,也很有趣,因為我們講安全對抗都是一個成本之間的對抗,我們發現有的端口每天來很多機器流量或者來很多爬蟲,我們把它殺掉,它還是不斷的來,這個也不合理,因為他是在浪費他的錢,明明每天被你殺掉,還每天都來,這不是很有經濟效益的問題。
后來我們也發現了,他們其實也是在用一種非常聰明的方式污染你的模型,因為他有大量的低級爬蟲或者說低級流量,其實還有一部分高級的,低級的是大量合在一起不停的攻擊你,他不怕低級的被你識別和殺掉,但是他知道你的模型會被大量低級爬蟲樣本的特征所帶偏,所以他實際是看中那些高級的爬蟲,達到它的目的,低級的就是給你殺的,就是給你去破壞你的模型。這是兩個不是很直觀的數據污染的例子。

再總結一下數據中毒和數據污染,其實我用這個圖來說,無論是什么樣的數據中毒和污染其實都是一個,如果左邊是我們的目標,我們的統計模型或者現在所有機器學習的模型都是統計模型,其實昨天有一個嘉賓分享得很好,他說所有的機器學習模型其實都是在做最小化你的目標函數,所有的機器學習模型都是在解一個最小化的問題,然后這個最小化問題是在你的訓練樣本上,所以你可以想象他最后做的是一張網,每張網是訓練樣本,但是不能保證樣本和樣本之間是沒有空檔的,所以用機器學習來做安全攻防的話,更像一張網,我要訓練一張網去覆蓋我的正確目標,但是數據中毒的目的就是讓你訓練的這張網跑偏。
阿里安全除了在傳統網絡安全上建立安全的防御體系,防御黑客入侵和滲透,還要建立一張網是防止臟數據或者數據中毒,數據污染。

我剛才舉的兩個例子其實都是機器流量的例子,我們在實際中發現數據污染或者數據中毒,我們叫機器流量是萬惡之源,機器流量最后會造成很多的數據中毒,比如說剛才舉的是爬蟲爬取信息的例子,還有商家的信息泄露,因為任教授說到現在在爬取數據不只是爬整條的,所以爬蟲是機器流量很嚴重的問題,還有在搜索上排序刷單,這些都是用機器流量來完成目的的,所以我們要防止數據中毒或者數據污染,根治機器流量。

阿里在機器流量防控體系的建立實際主要是由三個方面組成,我待會兒會分別給大家做詳細介紹。
第一個是檢測模塊,檢測模塊聽起來不是很智能,但其實如果把整個智能系統比作一個人的話,檢測模塊就是眼睛,沒有眼睛的話很多事情是做不了。
第二是分類模型,分類模型是機器學習的一種在工業界最常用的模型,如果我們還是把這個比作有機體的話,分類模型就是大腦。
最后一個是輔助系統,因為我做機器學習已經很久,有十幾年的歷史,在工業界來說,昨天英特爾的CTO也講到他們提供機器學習整個訓練的線下的部分,但我的經驗是,模型是在有效的系統中占比是有效的,現有的已經有效的機器學習系統還有兩個是非常重要需要加進去的,一個是跟控制有關,反饋控制是一個研究的已經很透的領域,但其實在實際系統中,反饋控制往往能起到和機器學習模型疊加組合起來能起到好效果。還有一個要注意的,其實就是在傳統的OR領域,運籌學領域做的和信息系統結合,也能產生很好的效果。這是我說的輔助系統的這兩個重要的對機器學習系統的幫助。

先講檢測模塊,我剛才把檢測模塊比作整個系統的眼睛,這個眼睛是要滿足這四方面的要求,第一個很簡單,你必須要能判斷出你的目標是0是1,判斷不出來就不是一個好的檢測系統。
第二個可能經常被忽視,尤其是安全攻防領域,這個檢測是想盡量做到被攻擊者無感知的,因為在攻防上,傳統來講我們作為防守方,其實是有一個很大的劣勢,就是我們好像永遠都站在明處,那些攻擊者都是站在暗處,他們可以不斷的來測試我們的系統,但是我不知道他什么時候在測試我,我完全被動,他可以隨時在暗處躲著,隨時打我一拳,隨時看到我的動作。檢測系統實際把剛才我說的攻防不利方面轉化了,因為我們有檢測系統的話,檢測系統如果做到對方無感知,在檢測系統上我們是站在暗處,他們站在明處,因為他沒有感知到我是在什么時間,什么點去做檢測的。
最后這兩個也是必須的,第一個是要檢測到未知的新攻擊,因為機器學習是用歷史來告訴未來,用歷史的數據來告訴你未來的行為,很容易陷入到你的特征只能表示已知的攻擊行為,而對未知的不可預測,所以這個檢測系統必須提取的特征是一個對所有的攻擊行為都適用。最后一個是無偏的,聽起來是非常自然的一件事,但是在實際中會有很多的陷井,如果不注意的話會把你的檢測結果帶偏。

第二部分我講的是分類模型,這個是大的分類模型框架,從輸入到輸出,可以看到輸入的信息基本上有四個方面,一個當然你是在檢測流量是不是機器流量,所以肯定有流量的信息,第二是生態的數據,這個其實是阿里現在一個越來越有優勢或者越來越有利的,因為阿里的生態包括集團、UC瀏覽器、高德、優酷,這些都是并入到阿里的大生態中,大生態里的各個方面和數據可以做到互相的補充,形成一個聯動的防御機制,這是生態數據的重要方面。
第三是情報,這里主要是公開有的這些數據,但是去經過分析,可以得到一些有價值的情報,其實安全問題本質上是一個大數據的問題,但這個大數據問題我的觀點是通過小數據來解決的,撬動大數據問題的杠桿的小數據,其實就是情報。第四是專家經驗,因為昨天大家在會場上也聽到講了很多知識圖譜或者知識庫,可能那些是比較新的名字,但是在工業界用就是我們要把專家經驗作為特征之一結合到系統。有了這些輸入之后,特征會用各種各樣的方法去計算各種維度的相似度的特征和提取,最后識別出來的結果可以用在離線的識別服務和在線識別服務,這就是一個模型的框架。

最后再講輔助系統一塊,因為我剛才說了,輔助系統在工業界其實是機器模型能夠合理的利用和產生價值的必不可少的一些部分,第一個是持續檢測,因為如果把檢測比作眼睛的話,如果你想整個攻防體系最后是自動化的話,一定需要持續檢測,這也是我剛才講的控制上的應用。第二是多模型防控,機器學習模型其實最后訓練出來的是像一張網,這張網覆蓋上會有很多洞,我怎么解決這些洞?從模型訓練角度講你只有加更多例子,你可以理解為這個網的節點就更加多了,但這個有的時候數據是不可得的,所以多模型防控就好像用不同模型去訓練不同網,我把網疊加起來,希望這種疊加效應能夠對我的整個防御體系產生更好的攔截作用。第三是分場景防守,分場景防守也是呼應我剛才講的,除了控制模塊,第二塊是我們要在實際中,運籌學或者傳統的有條件的優化上,其實已經幫我們指明了很多路,他們在供應鏈管理上已經做得非常好,分場景防守就是在我們模型的上面加上一些系統,不等同于是采取分段模型,而其實是增加了一個決策系統,去讓模型更好的在不同場合、不同策略適應。最后一個在實際中也是必須的,不管你采取多復雜的系統,用什么模型,最后是要兜底的,他們都會有可能產生一些不可預期的結果,所以這個系統現在不管人工智能發展得多好,還是要留一個出口,當我一旦有一些沒有預料到的情形發生的時候,我要讓人知道這些報警,有專家去做控制。

這主要是我今天想講的內容,其實我講的主要是三個觀點,第一個是由于我們有越來越多的人工智能算法和人工智能體,這些都成為安全所要保護范圍里面的重要成分之后,我們一定要警惕這些智能體被數據中毒或者數據污染,因為他們都是數據驅動。作為像阿里巴巴這樣的網絡公司來講,數據中毒或者數據污染的主要途徑是通過機器流量,因為這些智能體都是用大數據訓練的,他要用大量的垃圾數據去污染你,這些垃圾數據不大可能是由人產生,一定是機器產生。最后我簡單的介紹了阿里安全關于防止機器行為數據中毒的清洗體系的三個組成部分。
在阿里本來有一句話說,我們要像治理酒駕一樣去打擊假貨。現在還要加上一句,因為我們不光要像治理酒駕一樣去打擊假貨,我們還要像呵護我們的孩子一樣去呵護AI系統,因為它是數據驅動,你教它什么,給它什么數據,就會出現什么行為。這就是我今天的演講,謝謝大家。
雷鋒網:與國內其它幾大巨頭相比,阿里的 AI 安全戰略有哪些特色?
路全:主要有三點。
第一是阿里的安全戰略會緊密結合阿里的AI研究,比如我們的達摩院在視覺技術、自然語言處理等領域邀請了很多世界一流的科學家加入,在制訂AI相關的安全戰略方面,首先會考慮充分利用本身已有的技術優勢,尤其是在人工智能方面的技術優勢,把他們合理的利用到安全的垂直領域上,發揮最大的作用。
第二是阿里有豐富的生態,有利于用AI技術打造一個生態化的安全體系。阿里除了電商外,還有阿里云,也相繼收購了優酷、UC、高德地圖、餓了么等,還有螞蟻金服,我們所擁有的生態的廣度和深度,為做AI安全提供了很多機遇和挑戰,因為生態足夠大,這張網足夠大,所以黑產容易在這張生態網中留下更多的足跡。
第三點是阿里要建立一個國際化的安全體系。近兩年,我們的電商和支付業務,通過并購等手段進入了東南亞、巴西、歐洲、俄羅斯、西班牙等地區的市場,所以在安全上,也必須是一個全球性的戰略,比如不同的國家和地區對安全有不同的要求,這也使我們在制訂安全策略的時候,必須要有足夠的柔性和靈活性,因為你不再只是考慮一個國內的市場,或者國內的合規,你必須適應本地化的安全需求。
雷鋒網:在你的演講中,提到了數據污染的兩個案例,可否以網絡爬蟲這個為例,結合你們具體的某項業務來解釋一下,這會對普通用戶和公司分別造成怎樣的后果?
路全:對消費者而言,爬蟲造成的第一個嚴重的危害就是數據泄漏,比如可以爬到你的訂單信息,利用這個信息,騙子可以非常快的取得你的信任,這是欺詐的第一步。在下一步就是你的貨可能有問題、要退款、你要打錢給我。所以,這些信息是后面所有這些欺詐的源頭。對公司來說,爬蟲可能會竊取到你的商業信息。在很多年前,沃爾瑪發現有人會用衛星圖片來分析超市前面停車的數量,以此來預測財報。那現在電商就更方便了,黑客能知道你賣了多少貨,去了解到你公司的敏感財務信息等。
雷鋒網:你認為目前在AI+安全領域做的非常好的國外公司是哪家?為什么?
路全:阿里最終的競爭對手是Google、Facebook、亞馬遜這樣的全球化的公司。所以,安全領域的第三方公司或乙方公司提供的產品,對阿里這樣一個龐大的生態體來講,很多情況只能幫助我們解決一個點的問題。從阿里安全的角度,有這么大的生態、這么復雜的一個系統,整個安全體系還是以自建為主。
所以,我們會更多的關注Google、亞馬遜、Facebook等公司的安全系統。
對Google來說,他在安全上做得比較新,甚至很多方面它把安全整個功能和硬件結合的非常好,因為它在整個系統底層的架構上,包括硬件的芯片上,把安全都集中進來了。
像Google的安全架構,安全不再是一個軟件層,比如說它自己的深度學習芯片,都是自己研發的,在研發過程中已經把安全功能模塊化放進去了。所以,這一方面確實做的比較領先,已經把安全打造成一個芯片級的技術能力了。
亞馬遜最大的優勢是云安全做的很好,它對整個云安全和云上生態、對客戶的安全都是領先的。
Facebook是一個社交媒體屬性的網站,所以我們會期待它在數據安全、用戶人身安全上會有一些新的嘗試出來,今天第一個嘉賓(任奎)也介紹了一些差分隱私技術,這些技術我覺得最有可能去嘗試的就是Facebook。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。