UIUC 李博：如何探索大模型背后的安全隱憂？|ICML2024直擊

本文作者：馬蕊蕾

2024-07-31 18:20

專題：ICML 2019

導語：導語：純靠Transformer的架構或數據驅動模型，解決不了推理問題。

作者：馬蕊蕾

編輯：陳彩嫻

大模型的安全研究，沒有趕上 AI 的發展速度。

7 月微軟藍屏事件，像是新老交替之際的一記警鐘。每一項新技術的發明，都伴隨著一種新責任的出現。假使 AI 集成到每個應用，那么發生在微軟的藍屏事件，同樣也會成為 AI 潛在的危險。

“大模型能力的提升并不能代表它的安全也能得到改進，大家還是要有意識的發現模型潛在的風險和漏洞?！?ICML 2024 大會期間，AI 科技評論訪談 ICML Tutorial Chair 李博時，她如是說道。

李博現任伊利諾伊大學香檳分校（UIUC）和芝加哥大學教授，目前處于學術休假期間在工業界訪問。她重點研究機器學習、計算機安全、隱私和博弈論，大部分工作都在探索機器學習系統對各種對抗性攻擊的漏洞，并致力于開發現實世界的可信機器學習系統。

她曾榮獲 IJCAI 2022 計算機與思想獎、麻省理工學院技術評論 MIT TR-35 、Alfred P. Sloan 斯隆研究獎、NSF CAREER 獎、AI’s 10 to Watch、C.W. Gear Outstanding Faculty Award，英特爾新星獎等，并獲得來自 Amazon、Facebook、谷歌、英特爾和 IBM 等科技公司的學術研究獎。她的論文曾獲多個頂級機器學習和安全會議的最佳論文獎，研究成果還被永久收藏于英國科技博物館。

UIUC 李博：如何探索大模型背后的安全隱憂？|ICML2024直擊

在去年 12 月份，她在模型安全領域創業，創立了新公司——Virtue AI。

李博告訴 AI 科技評論，在此之前，她一直沒有找到合適的契機去創立一家公司，直到 2023 年初的 ChatGPT 開始，大模型的安全問題逐漸顯現，成立一家公司來解決眼前的問題擁有了最佳時機。

隨即，李博與被稱為“AI 安全教母”的伯克利大學教授宋曉冬（Dawn Song）等人一起成立了安全公司 Virtue AI。據悉，目前 Virtue AI 團隊不過 20 人，但已獲得上千萬美元的融資。

大模型在處理復雜任務時，沒法繞開的挑戰之一就是幻覺問題。在她看來，推理能力純靠 Transformer 的架構或者數據驅動模型，是解決不了問題的，因為公共數據模型不能真正的學習符號推理的任務。

她嘗試過數據驅動模型和符號邏輯推理的架構組合，并提出一個觀點：她認為當模型同時具備數據驅動的泛化能力和邏輯的推理能力，才能從根本上解決幻覺問題。

在 ICML 2024 大會期間，AI 科技評論聯系到李博教授，與她就 ICML 2024、大模型安全以及新公司 Virtue AI 等話題進行了對話，以下作者進行了不改原意的編輯與整理：

大模型能力的提升≠安全能力的改進

AI科技評論：今年 ICML 的熱門方向有哪些？

李博：首先，大模型依舊是非常熱的方向；其次，agent也是一個重要方向；還有，今年多模態的發展明顯有了更快的進展，像最佳論文獎也涉及到了圖像和視頻生成的領域；深度學習也是熱門方向，包括人工智能價值對齊（AI Alignment）和具身智能。

另外，由于大模型越來越熱門，相應地，有關安全的研究以及政策也越來越多，這個也是比較重要的話題。

AI科技評論：今年ICML新增了"Position Papers"板塊，這是不是意味著對學界的前瞻性觀點越來越重視了？

李博：對的，因為大模型本身會在很多新領域，引發新的討論話題。所以“Position Papers”板塊，可以讓大家在一些新興領域，提出他們認為應該去研究但目前還不清楚怎么去研究的話題。

我認為這是非常重要的，比如當一個新興話題還沒有基礎和具體的方法時，很難寫出一篇方法論（methodology）。但有了這個"Position Papers"板塊，就可以讓更多學界的人提出一些話題，讓更多的人認識到這個話題很重要并能參與討論，相當于一個引導信息的區域。

AI科技評論：今年您在ICML上參與了哪些活動？

李博：我們組里有 13 篇論文，所以有很多學生參加。

例如像《C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models》，理論分析了LLm的生成風險，并證明RAG比Vanilla LLm生成風險低；還有《RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content》，已經被Llamaguarc V2引用，還表示我們的模型型號更具備彈性。

這次我也在 Alignment Workshop、AI Safety Workshop和 AI Safety Panel and Social有一些討論，但重點主要在AI安全方面。

UIUC 李博：如何探索大模型背后的安全隱憂？|ICML2024直擊被Llamaguarc V2引用的論文，論文鏈接：http://arxiv.org/pdf/2403.13031

AI科技評論：今年哪些論文或研究可能對未來機器學習領域有重大影響？

李博：研究模型的體系架構領域肯定會有較大的影響，會運用在不同的領域或者完善模型上，像 AI 安全如何應對在文本、視頻等領域的內容風險問題。

未來我們可以預料到，大家會將大模型運用在不同的產品上，如果永遠需要去微調模型，既對效用有影響，也會產生更高的成本。所以內部的 Guardrail 模型是一個輕量和靈活的解決辦法，我們做了很多關于安全風險、Guardrail 模型的一些工作。

AI科技評論：您怎么看 Meta Llama 3.1 模型？

李博：我們發布了一個針對Llama 3.1 405B 型號的安全風險評估報告，Llama 3.1 模型對于開源社區確實是一件非常好的事情，對大家做大模型的微調很有益處。

但我們從安全的角度去做評估，還是會有很多安全問題。所以，我們可以看到大模型能力的提升并不能代表它的安全也能得到改進，大家還是要有意識的發現模型潛在的風險和漏洞。

UIUC 李博：如何探索大模型背后的安全隱憂？|ICML2024直擊 Llama 3.1 405B型號整體安全性評估，照片來源：https://www.virtueai.com/research/

大模型幻覺問題的解法

AI科技評論：目前大模型在處理復雜任務時面臨的重要挑戰有哪些？

李博：第一方面，業界有很多人討論過大模型，認為它還是在做數據分配，還不具備真正的推理能力。如何提高模型的推理能力以及能讓模型真正的理解詞匯和遵循知識規則，一直是比較重要的挑戰。

第二方面，如何整合知識來解釋它到底能有什么用處。

第三方面，從模型微調和訓練角度來看，效率還是一個挑戰。目前小的模型，也是一種趨勢，例如 OpenAI 的GPT-4o mini，雖然很小但很有能力。

AI科技評論：未來模型能否解決幻覺的問題？

李博：我認為，推理能力純靠Transformer的架構或者數據驅動模型，是解決不了問題的。因為公共數據模型本質就是學習數據的分配，它并不能真正的學習符號推理的任務，所以需要對模型的架構上做改變。

我之前有做過數據驅動模型和象征性邏輯推理的架構組合，使得模型不僅有數據驅動的泛化能力，還有邏輯推理的能力，我覺得這才能在根本上解決幻覺問題。

AI科技評論：國內在大模型安全領域感覺提的相對很少。

李博：其實國內提的也不少，國內有可信安全實驗室以及各類可信機構，還提了很多法案。

其實我們有一篇Paper《AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies》，提到歐盟、美國和中國有關模型安全的政府政策涵蓋的風險類別，當中有一個非常有意思的發現，中國在內容安全風險、社會風險以及法律和權利風險上覆蓋的都很多。

UIUC 李博：如何探索大模型背后的安全隱憂？|ICML2024直擊 AI Risk Categorization Decoded (AIR 2024)，圖片來源：https://arxiv.org/html/2406.17864v1

AI科技評論：目前有哪些研究在探索如何安全地訓練大模型？

李博：我們有不同的一些方向。第一步，從數據的角度，如何讓模型生成更高質量的數據，從而不被噪音數據所誤導。

第二步，從模型的角度，預訓練包括模型微調之后，如何讓模型在學習的過程中過濾噪音數據，捕捉到更本質的信號。

第三步，從模型的外部如何加一層，即使受到了噪音數據的影響，也不會輸出這種內容，能及時被處理。第四步，如何將知識清晰的整合到大模型當中，繼而去加推理組件，這是我們一直在做的，使得它更好的推理、緩解幻覺或者應對一些風險內容。

AI科技評論：對抗性訓練在提高大模型魯棒性方面扮演了什么角色？

李博：對抗性訓練的方法很多，尤其在大模型上做人工智能價值對齊（AI Alignment），包括一站式開發平臺（LAF）、可信賴的模型微調指令、學習私密或有害信息等，這些在大模型魯棒性方面都能提高性能。

反而相對于對抗性訓練的幫助很小，我個人認為在圖像方面，對抗訓練的方向非常明確。但是在大模型上，對抗性訓練受很多方面的影響，例如網絡安全、有害信息等等，在對抗訓練的時候，你可能把每一類都要考慮周全，這幾乎是不可能做到的。所以，其實會有更適合大模型的方法來提高人工智能價值對齊，而不是單純依賴于對抗性訓練。

AI科技評論：您認為可信AI的未來將如何發展？

李博：可信AI非常重要，現在大家基本上都能夠做模型的微調，但是如何把完善好的大模型真正的運用到實際解決問題的場景中？大家目前不敢部署，因為一旦部署，就會有一些安全爭議。

所以，我個人覺得，大模型可信AI的瓶頸會是把基礎模型部署到真正可使用到場景中的能力。

從基礎混合模型來看，需要解決如何對齊和微調的問題。針對添加了額外的模型，需要考慮如何輔助它變得更安全；針對新添的知識，能有一些額外的推理組件，真正做到可推理。這些是比較重要的手段來提高模型，包括最后的認證，由于我們都不能保證模型什么時候還會變得易攻擊，所以需要一些認證。

創立Virtue AI的動機

AI科技評論：您為什么在去年年底成立Virtue AI公司？當時有什么契機嗎？

李博：其實很早就想做一個有關模型層安全的公司，因為我們之前的很多算法已經被其他大公司用了，也想讓更多的人進行更有效的使用。

之前確實沒有找到合適的契機，因為當時模型還有發展起來，還不能找到適合應用它的場景。我們不知道模型中最重要的安全問題到底是什么。從2023年初的ChatGPT一直到年底，基本上能部署到一些地方，比如Copilot都用起來了，所以這個時候安全的問題就逐漸開始顯現，當問題出現的時候，公司成立正好可以去解決當下的問題，相當于和問題一起成長。

UIUC 李博：如何探索大模型背后的安全隱憂？|ICML2024直擊 Virtue AI，照片來源：https://www.virtueai.com/research/

AI科技評論：做模型層的安全，您是基于什么考慮決定先做面向B端的？

李博：目前大模型好的應用有很多都集中在B端，安全對于B端來說更為嚴重，無論是巨大的經濟損失還是人身安全的問題，所以想要先去幫助B端解決問題。

AI科技評論：目前團隊的情況。

李博：我們目前團隊成員15-20人，主要都是對AI安全領域非常感興趣的研究者，一群有夢想的人聚集在一起，希望實現AI安全真正能夠部署在真實的場景中。

AI科技評論：你們的愿景目標是什么？

李博：近期目標，我們還是希望縮小大模型的發展和部署在實際場景之間的鴻溝，讓安全真正能運用到場景中，確?，F有的AI模型能夠被保護起來。

長期目標，我們也希望像Ilya的SSI公司擁有一個安全模型，不一定是超級安全智能，安全智能也可以。但是近期，我們不會聚焦在安全模型，眼前還有很多的問題沒有解決，先讓AI能安全的用起來，再去聚焦在新的安全模型的發展上。

AI科技評論：那目前主要的難點問題什么？

李博：比如風險評估問題，對于大模型我們會有一個理論認證，但現在的認證還不是非常令我們滿意，所以我們還在努力完善。另外大模型很大，我們本身有一些算法，但目前都比較貴，這也是一個問題。

AI科技評論：公司在大模型安全這塊的技術是什么？

李博：目前在做風險評估，主要是攻擊技術，幫助大家理解模型到底是否安全。其次，我們有一系列多模態的Guardrail模型，比如在文字，圖像，和視頻等領域去幫助大家保護現有的AI產品或者模型。

我們也有Safe Agent、Guardrail Agent和Virtue Agent。這些Agent可以吸收外部真實的信息，做一些決策和推理，然后確保安全。

AI科技評論：目前公司核心的競爭力是什么？

李博：AI安全本身是一個很難的問題，我們做了很久也還沒有徹底解決這個問題。所以只做工程師是不夠的，還是需要一些核心的算法，根本上去識別和解決安全問題。我們有十幾年的關于AI安全知識的積累，也有自己算法的積累。

AI科技評論：你之前一直在學術界，創立新公司對你來說有哪些挑戰？

李博：挑戰有很多，商業模式和產品都是一些很新的領域，有很多的東西需要學習。但非常有意思的點是，我能夠近距離接觸工業界，從中了解到他們真正關心、擔心的AI安全問題是什么以及希望得到什么樣的方式去解決問題。

從之前研究角度，可能做出的總結不是工業界真正需要的。通過現在的公司，其實是能夠了解一些真正的需求和場景，所以這兩者之間對我來說是相輔相成的。

AI科技評論：目前公司的產品有哪些？

李博：我們最近已經發布了新產品，第一個產品線是面向AI模型、系統和代理的綜合風險評估平臺，無論是哪種模型，我們都可以為大家提供風險評估；第二個產品線是Guardrail模型，這個模型會優先給大家使用，做出一些輸入輸出的模型；第三個產品線是Safe Agent，用Agent去解決有關安全的問題。

AI科技評論：目前主要在和哪些公司有合作，重點在做些什么？

李博：我們正在和斯坦福大學的HELM合作開發AIR-BENCH 2024，這是一項綜合基準，為了評估遵循新興監管框架的 AI 模型的安全性和合規性。

也和Huggingface 共同托管標準LLM安全排行榜，從公平性、穩健性、隱私性和毒性等不同的安全性和可信度角度為基礎模型提供統一的評估。

AI科技評論：公司接下來重點要做的是什么？

李博：我們現在還是會積極招聘在AI和AI安全方面感興趣的人，雖然公司有產品也有客戶，但我們更注重研究，還是會發論文。接下來也想處理一些有挑戰的研究問題，將其轉化為產品。

（雷峰網）

（雷峰網(公眾號：雷峰網)）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。