0

作者 | Stephen Ornes
編譯 | 王曄
校對 | 維克多
用由點和線組成的網絡形式對現實世界建模,是自18世紀以來采用的主流方法。但隨著大數據的出現,研究人員開發了更多的數學工具,在大量的計算機資源加持下,數學研究不斷被發現。
正如科羅拉多大學博爾德分校的計算機科學家Josh Grochow說的那樣:“整個領域經歷了一個令人興奮的快速增長期。”,“畢竟,新網絡模型的出現,讓我們有能力在大數據的噪音中找到有價值的東西:復雜的結構和信號。”
在之前,業界往往用數學分支中的圖論表示兩個事物中的關系。但當涉及到大數據時候,需要關系并不能用簡單的二元關系來表示,換句話說,傳統的圖論思維表現出了“短板”。
例如嘗試建立一個關于養育子女的網絡模型。圖論能表現出父母與孩子的聯系,但是對于同儕壓力等群體效應往往束手無措,即二元網絡并不能捕捉到群體的影響。再例如,如果一位藥理學家想模擬藥物相互作用,圖論可能會顯示兩種藥物如何相互反應。但三種藥物呢?或者四種呢?
對于群體效應等的描述,數學家和計算機科學家發明了"高階互動 "一詞。從量子力學中的相互作用到疾病在人群中傳播的軌跡,這些"高階互動 "的數學現象遍布各個方面。
最近幾年,高維數據集成為探索的引擎,給數學家和網絡理論家帶來新思路。對于圖論表示“高階互動”有了新的研究成果。最直觀的表現是一些數學家已經意識到:從數學角度來看,我們以為的數據結構并不完全適合我們在數據中看到的情況。

Emilie Purvine
"網絡只是事物的影子,"Grochow表示。如果一個數據集有一個復雜的基礎結構,那么把它作為一個圖來建模可能只揭示了整個故事的有限投影。
尋找高維結構使數學變得特別模糊而有趣。例如,圖的“高階類似物”被稱為超圖。結合圖,可以理解到超圖就是每一個邊可以包含兩個以上的點所構成的圖,這意味著它可以代表多向(或多線性)關系。
超圖的邊(Hyperedge)可以被看作是一個表面,而不是一條線,就像在三個或更多地方釘了一塊油布一樣。
超圖如何從大數據集中挖掘關系類型?以科學出版為例,想象兩個數據集,每個數據集都包含最多由三位數學家共同撰寫的論文;為了簡便,我們把它們命名為A、B和C。一個數據集包含六篇論文,其中三個不同的二人合著組(AB、AC和BC)各寫了兩篇論文。另一個數據集只包含兩篇論文,每篇都是由三位數學家合著的(ABC)。
從這兩組數據中提取的合著關系圖可能看起來像一個三角形,顯示每個數學家(三個節點)都與另外兩個數學家(三個鏈接)合作過。當然,如果只有“誰與誰合作”這一個問題,那么就不需要超圖。
超圖可以回答關于不明顯結構的問題。例如,第一個數據集的超圖(有六篇論文)可能包括顯示每個數學家對四篇論文有貢獻的超邊。對兩組超圖的比較將表明,第一個數據集中的論文作者不同,但在第二個數據集中是相同的。

這種高階方法在應用研究中已經被證明是有用的。例如,20世紀90年代,生態學家展示了向黃石國家公園重新引進狼群時,生物多樣性和食物鏈結構的變化過程。在最近的一篇論文中,美國西北太平洋國家實驗室的數學家milie Purvine和她的同事分析了一個病毒感染的生物反應數據庫,使用超圖來確定所涉及的最關鍵基因。在論文中,他們還展示了這些相互作用是如何被圖論提供的通常成對分析遺漏的。
康奈爾大學的Austin Benson最近使用高階馬爾科夫鏈和張量模擬了紐約市的出租車行程。雖然仍有改進空間,但結果比傳統的馬爾科夫鏈要好。
然而,從圖到超圖的泛化很快就會變得復雜。例如圖論中的規范切割問題,該問題問道:"給定一個圖上的兩個不同的節點,你最少可以切割多少條邊來完全切斷兩者之間的所有聯系?給定一個圖上的兩個不同的節點,要完全切斷這兩個節點之間的所有聯系,你能切斷的最少的邊數是多少?許多算法可以很容易地找到給定圖形的最佳切割數。
但是如何切割超圖呢?康奈爾大學的數學家Austin Benson說:“有很多方法可以將這種切割的概念推廣到超圖中。但沒有一個明確的解決方案”,他說“因為超邊可以以各種方式被切斷,創造出新的節點組”。
最近,Benson 與兩位同事一起,嘗試將分割超圖的所有不同方式正式化。但對于某些情況,這個問題基本上是無法解決,或者說無法確定是否存在解決方案。
超圖并不是探索高階互動的唯一方法。拓撲學是一種對幾何屬性的數學研究,其假設是:當你拉伸、壓縮或以其他方式轉換對象時,這些屬性不會改變。拓撲學提供了一種更直觀的方法。當拓撲學家研究一個網絡時,他們尋找形狀、表面和尺寸。他們可能會注意到連接兩個節點的邊是一維的,并詢問不同網絡中一維物體的屬性。或者他們可能會看到連接三個節點所形成的二維三角形表面,并提出類似的問題。

拓撲學家把這些結構稱為 simplicial complexes。實際上,這是通過拓撲學的框架來看的超圖,神經網絡提供了一個很好的例子。它們由旨在模仿我們大腦的神經元如何處理信息的算法驅動。圖形神經網絡(GNNs)將事物之間的連接建模為成對連接,擅長推斷大數據集中缺失的數據,但在其他應用中,它們可能會錯過僅由三個或更多群體產生的相互作用。近年來,計算機科學家開發了 simplicial neural networks,它使用高階復數來概括GNN的方法,以求發現這些效應。
simplicial complexes 將拓撲學與圖論聯系起來,與超圖一樣,它們提出了引人注目的數學問題。例如,在拓撲學中,simplicial complexes 的特殊類型的子集本身也是simplicial complexes ,因此具有相同的屬性。如果超圖也是如此,子集將包括其中的所有超邊——包括所有嵌入的雙向邊。
但情況并非總是如此。“我們現在看到的是,數據落入了中間地帶,你可以進行三向互動,但不是成對的互動。”Purvine表示,“大數據集已經清楚地表明,無論是在生物信號網絡中還是在同行壓力等社會行為中,群體的影響往往遠遠超過個人的影響”。
Purvine將數據描述為數學三明治的中間部分,上限是拓撲學思想,下限是圖論。
這種創造性的 "游戲 "感也延伸到了其他工具。在圖和其他描述數據的工具之間存在著各種美妙的聯系。但是一旦你轉移到高階設置,這些聯系就難以出現了。當你試圖考慮馬爾科夫鏈的高維版時,這一點尤其明顯。
馬爾科夫鏈描述了一個多階段的過程,其中下一階段只取決于元素的當前位置;研究人員已經使用馬爾科夫模型來描述信息、能量甚至金錢等事物如何在一個系統中流動。馬爾科夫鏈最著名的例子也許是隨機漫步,它描述了一條路徑,其中每一步都是由之前的步驟隨機決定的。隨機漫步也是一個特定的圖。任何沿著圖的軌跡都可以顯示為一個沿著鏈接從節點到節點的序列。
但如何擴大像步行這樣簡單的東西呢?研究人員轉向高階馬爾科夫鏈,它不僅取決于當前的位置,還可以考慮許多以前的狀態。這種方法已被證實對網絡瀏覽行為和機場交通流等系統的建模非常有用。

Austin Benson
正如前文所言,Austin Benson最近描述了一個新的隨機過程模型,該模型將高階馬爾科夫鏈與張量結合起來。用紐約市的出租車乘坐數據集對其進行了測試,以了解其預測軌跡的能力。結果是喜憂參半:模型對出租車運動的預測比通常的馬爾科夫鏈要好,但這兩個模型都不是很可靠。
張量本身是研究高階相互作用的另一種工具,近年來已經開始發揮作用。要理解張量,首先考慮矩陣,它將數據組織成行和列的數組。現在想象一下由矩陣組成的矩陣,或者不僅有行和列,還有深度或其他維度的數據的矩陣。這些都是張量。如果每個矩陣都對應于一個音樂二重奏,那么張量將包括所有可能的樂器配置。
對物理學家來說,張量并不新奇,例如用來描述一個粒子的不同可能的量子態。但網絡理論家采用這一工具來提高矩陣在高維數據集中的能力。
前文所述,Benson不確定的出租車模型表現出一個普遍存在的問題:研究人員何時真正需要超圖這樣的工具?在許多情況下,如果條件合適,超圖將提供與圖完全相同的預測和分析。"亞琛工業大學的Michael Schaub問道:"如果某些東西已經被封裝在網絡中,是否真的有必要對系統進行建模為高階?
這取決于數據集,圖是社交網絡的一個很好的抽象,但社交網絡是如此之多。對于高階系統,有更多的方法可以建模。例如,圖論可能會顯示個人是如何連接的,但不能捕捉到社交媒體上的朋友群是如何影響彼此的行為的。
同樣的高階互動不會出現在每一個數據集中,所以奇怪的是,新理論是由數據驅動的:這挑戰了數學的基本邏輯。
Purvine表示,"我喜歡數學的原因是它是基于邏輯的,如果你遵循正確的方向,你會得到正確的答案。但有時,當你定義整個數學的新領域時,會有種主觀性,即什么是正確的方法。"她說,"如果你不承認有多種方法,你可能會把社區推向錯誤的方向。"
但對工具的探索代表了一種自由,不僅允許研究人員更好地理解他們的數據,而且允許數學家和計算機科學家探索新的可能性世界。有無盡的東西可以探索,這很有趣,也很美妙,是很多偉大問題的來源。

雷鋒網雷鋒網雷鋒網
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。