0
導讀:美劇《紙牌屋》中提到——96%的互聯網數據無法通過標準搜索引擎訪問,其中大部分屬于無用信息,但隱藏在表層之下的有許許多多你無法想象的內容,包括:兒童販賣、比特幣洗錢、致幻劑、系統漏洞、賞金黑客等等。

對于普通人來說,暗網(Darknet或Dark Web)、深網(Deepnet或Deep web)這兩個名詞可能從來沒有聽說過。暗網(Darknet或Dark Web)是指只使用非常規協議和端口以及可信節點進行連接的私有網絡。與其他分布式點對點網絡不同的是,暗網的數據傳輸是匿名進行的。當今互聯網上的搜索服務可比喻為像在地球的海洋表面的拉起一個大網的搜索,巨量的表面信息固然可以通過這種方式被查找得到,可是還有相當大量的信息由于隱藏在深處而被搜索引擎錯失掉。絕大部分這些隱藏的信息是須通過動態請求產生的網頁信息,而標準的搜索引擎卻無法對其進行查找。傳統的搜索引擎“看”不到,也獲取不了這些存在于深網的內容,除非通過特定的搜查這些頁面才會動態產生。于是相對的,深網就隱藏了起來。所有暗網的集合組成了深網(Deepnet或Deep web)的一部分。據估計,深網要比表面網站大幾個數量級。
它其實與我們的網絡生活息息相關,特別是安全方面。讓我們先來看一個案例:
早在2015年2月,微軟在Windows操作系統中發現了一個嚴重的漏洞,該漏洞可能會導致惡意攻擊者遠程控制目標電腦(俗稱“肉雞”)。這個漏洞影響了大量的Windows操作系統(包括Vista,、7、8以及其他Windows Server服務器系統和Windows mobile系統)。
微軟馬上發布了補丁進行修復,但是沒過多久這個漏洞就已經在黑客社區傳播開了。
4月,網絡安全專家發現基于這個漏洞的exploit已經在暗網(darknet)市場上進行公開出售,要價在$15,000美元左右。7月,基于這個漏洞開發的惡意軟件被報告出現。該惡意軟件“Dyre Banking Trojan”目標針對全世界的用戶,想從被感染的計算機上盜取用戶的信用卡相關信息。

暗網上某交易市場
這一案例恰好提供了惡意軟件從來源到發展成型的關鍵過程,在短短幾個月內,黑客將一個漏洞變成了exploit,然后將其打包出售,再后就可以看到其變成了惡意軟件被釋放到全球的互聯網中。
在該案例中,微軟察覺并找出了那個漏洞,并在它被利用在惡意軟件中之前發布了一個補丁。但是如果惡意軟件利用的是軟件未知的漏洞,相關的開發者就必須馬上發布相應的補丁(基本上是在同一天內),所以也有個名字叫“0day攻擊”。

針對這一類型的網絡安全犯罪,對于網絡安全專家來說關鍵的目標是在一個漏洞被惡意軟件利用之前0day內將它找出來。Dyre Banking Trojan的案例對于Eric Nunes以及他在Arizona State University的同事來說,這給了他們重要的啟示。
今天他們宣布了一個新的智能采集系統,它能在暗網(dark web)和深網(deep net)中使用機器學習來研究黑客論壇以及他們的交易市場。該系統能搜尋潛在漏洞的線索。
他們的系統一開始的表現就十分亮眼,Nunes和他的同事提到“目前,系統平均每周都能找到超過305個高質量的網絡威脅。”
使用深度學習的漏洞搜索引擎十分罕見,讓我們先來了解一下背景資料。那些黑客以及一些不懷好意的人一般傾向于將它們的論壇和交易市場在互聯網中隱藏起來,一般來說有好幾種方式。第一種是依賴于廣泛使用的Tor軟件(該軟件是著名的匿名代理工具,由 開發)來掩蓋自己在互聯網上的行跡,防止被追蹤。這個被稱為“暗網(Darknet或Dark Web)”
第二種使用的是那些開放網絡中沒有被搜索引擎收錄的地址,這個被稱為“深網(Deepnet或Deep web)”,這些網站一般很難被找到(也很難登錄上去)。
為了監視黑客在這兩個地方上的活動,Nunes和他的同事開發了一個特定的爬蟲來抓取暗網(dark web)和深網(deep net)上的信息。顯然,這份工作中的關鍵步驟是給爬蟲指定的開始頁面,顯然這項任務必須由那些對這些暗網、深網信息十分熟悉的人來進行。該研究小組隨機開始在暗網、深網中將與黑客行為相關的特征信息提取出來(要篩選掉那些毒品、槍支等等其他信息)。
最后,他們使用機器學習算法來檢測相關站點上的討論的物品和主題信息。他們使用的機器學習原理是通過手工標記約25%的數據,表明哪些相關、哪些無關,然后該機器學習算法通過自主學習剩下的相關數據并進行判斷。對于人類來說需要一分鐘來標記五個交易市場或者相關論壇上的兩個主題,但是讓機器學習算法來干的話這個時間可以大大縮小。

利用機器學習查找暗網、深網中信息示意圖
最后的結果相當有趣,Nunes和他的同事提到“使用機器學習模型之后,我們能夠以相當高的精度查探到相關交易市場上92%的相關信息以及論壇中80%的與惡意攻擊有關的討論信息。”
這項技術早已揭露了大量的惡意攻擊活動,Nunes和他的同事提到“在過去的四個星期中,我們在交易市場數據中檢測到16個0day漏洞。”這其中包括一個重大的安卓(Android)漏洞(它被打包約20000美元出售)以及一個IE11瀏覽器的漏洞(它被打包月約10000美元出售)。
他們同樣發現了使用這些論壇和交易區的黑客的行蹤,據稱有751個用戶同時出現在一個交易區,并且有一個賣家同時出現在7個交易區中,在其中一個交易區中提供超過80個惡意軟件產品。“該賣家得到的評分平均在4.7/5.0,該評分由所有與他交易過的買家評價得來,根據相關信息他在暗網中曾進行超過7000次交易。”Nunes和他的同事提到。
對于打擊網絡犯罪來說這是相當關鍵的一步,目前使用該機器學習模型每周能識別超過300次網絡威脅,該系統早已吸引到相關業界公司的注意。如果他們的研究團隊接下來能繼續在漏洞被惡意軟件利用之前0day識別出來的話,那么他們就能幫助相關的軟件開發者迅速開發出相應的補丁,這對于安全專家來說是相當重要的幫助。
道高一尺,魔高一丈。在網絡安全上這最終還是會否變成一個貓鼠游戲?我們不禁思考,當黑客們意識到他們會被機器學習算法這樣監測之后肯定會改變他們的活動方式,到那時機器學習算法是否還能高精度的進行監控識別呢?
via MIT Tech Review
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。