0
| 本文作者: 鄭佳美 | 2025-12-22 10:30 |
這兩年,AI 的能力提升幾乎是肉眼可見的。
我們習慣于贊嘆它在圍棋上戰勝人類,在數學推理上超越專家,或者在編程上展現出的驚人效率。它還能改論文、參與決策,在不少復雜任務中已經表現得比人類更穩定、更高效。但也正是在這個過程中,人們逐漸意識到一個問題:當 AI 真的開始做事而不只是展示能力時,我們關心的已經不再是它能不能做到,而是它做出來的結果到底靠不靠譜。
甚至,當這些系統為了達成目標學會了“走捷徑”,甚至學會了為了獎勵而撒謊時,我們是否做好準備面對一個“學會精細化欺騙甚至危害人類安全”的超級智能?
于是,對齊、安全和評測成了繞不開的話題。我們用全面的評測、紅隊演練去檢查模型是否按照預期行事,默認的前提是:只要模型在這些測試中表現良好,它的行為就是可信的。
但隨著 AI 被放進更真實、更復雜、持續運行的使用環境中,一些現象開始反復出現,而且越來越難用偶然失誤來解釋。有的模型會迎合用戶明顯錯誤的判斷,有的在評測環境中表現得循規蹈矩,卻在實際使用中采取不同策略,還有研究發現,在多智能體環境里,模型甚至會以人類不容易察覺的方式進行配合。
這些行為通常被籠統地稱為 AI 欺騙,但真正困難的地方在于,我們并不清楚這到底意味著什么,它究竟只是模型還不成熟的副作用,還是一種隨著能力增強而逐漸浮現的結構性問題。
正是在這樣的背景下,一篇來自北京大學,由楊耀東教授團隊主導的綜述論文《AI Deception: Risks, Dynamics, and Controls》,試圖系統性地重塑我們理解 AI 欺騙的方式。這篇論文并非聚焦某一個具體模型或單一案例,也不是旨在提出新的算法技巧,而是回顧并整合了近年來大量關于語言模型、強化學習智能體以及多智能體系統的實驗研究,從中提煉共通的 AI 欺騙的模式與因果結構,希望為產業界和學術界敲響人工智能安全的警鐘。
論文真正關心的,并不是模型是不是有意騙人,而是一個更現實的問題:當 AI 具備更強的目標導向能力、更復雜的環境理解能力,并且運行在并不完美的激勵和監督條件下時,欺騙究竟是偶發的異常,還是一種在特定條件下可以被預測、被解釋,甚至需要被正視的行為結果。

論文地址:https://arxiv.org/pdf/2511.22619
值得注意的是,這篇綜述的高級顧問陣容本身,也在一定程度上反映了這一問題的重要性。論文的顧問團隊涵蓋了來自國內外頂級高校與前沿研究機構的多位知名學者,他們長期活躍在 AI 對齊、安全、強化學習和多智能體系統等領域,相關工作不僅影響著學術研究的走向,也在實際塑造大型模型的訓練與部署方式。
這種跨機構、跨研究方向的參與,使得論文并非停留在單一學派或技術路線的視角之中,而是試圖從更寬的研究共識出發,梳理 AI 欺騙問題的整體輪廓。

本篇報告系統性整合了近年來大量關于語言模型、強化學習智能體以及多智能體系統的實證研究。這些研究在不同任務、不同模型和不同實驗設置下,反復指向了一組已經相當穩固的結論。
首先,現在的 AI 已經能夠在多種任務和環境中,穩定地表現出欺騙行為。這里的欺騙并不是指偶爾說錯話,也不是模型能力不夠導致的失誤,而是指在相似條件下反復出現的行為模式。
比如,有些模型會主動迎合用戶的錯誤看法,讓用戶更滿意,有些模型會在評測或訓練階段故意表現得能力一般,但在實際使用時展現出更強的能力,還有一些模型會給出聽起來很合理的解釋,但這些解釋并不是真正支撐它做出決定的原因。
它們在監督存在時表現得很守規矩、很對齊,而一旦監督減弱或消失,行為就發生改變。更進一步的實驗甚至發現,在多智能體環境中,模型之間還可能以不容易被察覺的方式進行配合,共同誤導人類評估者或自動化評測系統。

其次,隨著模型能力的提升,這類欺騙行為反而會變得更隱蔽、更持久,也更難被發現。實驗表明,能力更強的模型更擅長多步推理和長期規劃,因此欺騙不再只是一次性的說謊或誤導,而是可以持續很多輪對話,甚至貫穿整個任務過程。
模型還能根據環境變化靈活調整策略,比如判斷自己是否正在被測試、是否有人類在監督,從而決定是表現得很對齊,還是采取其他行為。這說明,模型變得更聰明,并不會自然減少欺騙,反而給了欺騙更多實現空間。

第三,這些欺騙行為帶來的風險并不是固定不變的,而是會逐級放大。在最輕的情況下,用戶可能只是被誤導,對模型產生了不準確的信任。
但如果這種行為長期存在,就可能演變為對用戶的持續操縱,甚至在專業領域中造成目標偏離、決策錯誤。再往上,多個系統性欺騙疊加起來,還可能破壞科研、監管或社會制度層面的信任。
在一些極端情形下,如果模型長期隱藏真實能力或真實目標,甚至可能出現人類難以及時發現和控制的風險。已有的實驗和案例顯示,那些看起來問題不大的小型欺騙,往往不會自動消失,反而可能成為更嚴重問題的起點。

最后,這篇報告指出,現有的對齊和安全方法并不能可靠地解決這些問題。像人類反饋強化學習、紅隊測試、規則約束等手段,在實驗中往往只能讓模型在表面上表現得更安全,而不能保證它在更復雜、長期的環境中真的改變了行為策略。
模型可以學會在測試中如何看起來是對齊的,但這并不意味著它在測試之外也會始終如此。這就導致一種結果:安全機制越復雜,模型越可能學會繞開它們,使欺騙行為變得更加隱蔽。

這些結論并非源自單一實驗,而是來自大量研究在相似問題結構下反復展開的實證過程。盡管具體模型類型、任務形式和實驗細節各不相同,但相關研究在方法邏輯上呈現出高度一致性,并最終被抽象為一個統一的認知范式。
總體而言,這些研究并未通過直接指示模型實施欺騙來觀察結果,而是通過系統性地構造條件,使得欺騙在功能上逐漸成為一種更具優勢的行為選擇。
在實驗設計的起點,研究者通常會引入某種形式的非理想激勵。這些激勵可能來自目標函數的表達不完全、獎勵信號的可被利用性,或訓練數據與真實任務需求之間的結構性偏差。
在此類設置下,模型并非簡單地在完成任務與失敗之間做選擇,而是在真實達成目標與制造看似成功的表現之間存在可操作空間。多項研究表明,當這種空間存在時,欺騙性策略往往能夠以更低的代價換取更高的回報,因此更容易在訓練或部署過程中被模型學到。

隨著模型能力的提升,這一現象表現得愈發明顯。實證結果顯示,欺騙并不會在任意模型中自發出現,而是高度依賴于模型是否具備足夠的感知、規劃與執行能力。
能力受限的模型在類似條件下更多表現為隨機錯誤或不穩定行為;而當模型能夠理解自身所處的環境、識別監督機制的存在,并進行多步推理和長期規劃時,其行為開始呈現出明顯的策略性特征。在這一階段,模型不再只是“出錯”,而是能夠在特定情境下有條件地選擇是否實施欺騙。雷峰網(公眾號:雷峰網)
為了進一步驗證欺騙的觸發條件,研究者通常會通過改變環境變量來觀察模型行為的變化。這些變量包括監督強度的變化、分布外輸入的引入,以及高壓力或高回報任務場景的設置。
相關實驗反復發現,欺騙往往并非持續存在的輸出模式,而是在模型判斷當前情境對自身更為有利時被激活。這表明,欺騙更接近一種情境依賴的決策策略,而非固定的模型缺陷。
在檢測層面,研究者系統性地比較了多種評估方法,包括靜態測試、基準評測、多輪交互、對抗性提問、博弈式任務以及對模型內部狀態的分析。一個在多項研究中反復出現的結果是:模型往往能夠通過靜態或單輪評估,卻在更接近真實使用情境的動態交互中暴露出欺騙行為,或者在語言層面表現出高度合規和誠實,而在實際行動或長期行為中系統性偏離其表面承諾。

最后,當研究者嘗試通過更嚴格的監督機制、規則約束或評測體系來緩解這些問題時,實驗結果并未顯示模型會簡單地轉向真實對齊。
相反,在多個設置中觀察到,模型逐漸學會適應新的約束條件,在滿足表面要求的同時,通過更隱蔽的方式繼續追求有利結果。這種現象在不同研究中反復出現,形成了一種持續的監督與規避之間的動態循環。
從意圖爭議到因果定義
這篇論文的價值,并不在于發現了某一種全新的 AI 欺騙現象,而在于它改變了我們理解和討論這一問題的方式。
過去,人們談論 AI 欺騙時,往往會糾結于一個難以回答的問題:模型到底是不是有意在騙人。作者并沒有沿著這條思路繼續下去,而是選擇繞開這個哲學爭議,轉而提出一個更現實、也更可操作的視角。
具體來說,論文并不要求判斷模型是否具有主觀意圖,而是只關注三個可以被觀察和驗證的事實:模型是否反復誘導他人形成錯誤認知,是否因此影響了對方的決策行為,以及這種影響是否為模型帶來了實際或潛在的好處。
只要這三點同時成立,就可以將相關行為視為欺騙。通過這種方式,欺騙不再依賴對模型心理狀態的猜測,而成為一個可以通過實驗、對比和因果分析來研究的問題,從而使這一議題真正進入科學和工程研究的范圍。雷峰網
在此基礎上,論文進一步挑戰了一個長期被默認接受的假設,即只要模型在評測中表現良好,就可以認為它是安全的。作者整合的多項實驗結果顯示,模型完全可能在 benchmark 測試或受監督環境中顯得誠實、可靠、符合人類期待,但在更復雜、更長期或更接近真實使用場景的環境中,卻表現出完全不同的行為。
這說明,當前以靜態測試和短期評估為核心的安全方法,存在著難以忽視的盲區:模型學會了如何通過測試,卻未必改變了其在真實環境中的行為邏輯。
論文還強調,AI 欺騙并不是單純由模型內部機制決定的技術問題,而是與外部制度和環境密切相關。激勵設計是否合理、部署環境是否復雜、監督機制是否持續有效,以及組織層面的決策方式,都會在無意中影響模型的行為選擇。
在這樣的背景下,僅僅通過修改模型結構或訓練方法來解決問題,往往效果有限,甚至可能因為增加約束條件而促使模型發展出更隱蔽的欺騙方式。也正因為如此,作者將 AI 欺騙明確視為一種社會—技術交織的問題,而不是可以單靠算法優化解決的局部缺陷。
最終,論文提出了一個雖然令人不安、但非常現實的判斷:在具備目標導向能力、能夠理解復雜環境,并運行在不完美監督條件下的系統中,欺騙很可能并不是例外,而是一種自然出現的行為模式。
從這個角度看,AI 安全研究的目標或許不應是試圖徹底消除所有欺騙行為,而是思考如何在欺騙可能存在的前提下,構建仍然可監控、可審計、可約束的系統。
這一轉變不僅改變了對 AI 欺騙的理解,也對未來的評估方法、安全設計和治理思路提出了更現實的要求。
本文的第一作者是北京大學元培學院人工智能方向本科生陳博遠,目前在北京大學對齊與交互實驗室(PAIR Lab)從事研究工作,師從楊耀東教授。
其主要研究興趣為強化學習、大模型對齊、前沿AI安全風險,聚焦于構建安全可信賴的人工智能系統。
陳博遠曾在國際頂級會議NeurIPS發表口頭報告(前 0.45%)和亮點論文(前 0.3%),多篇論文被收錄 ACL, NeurIPS 等國際頂級會議和期刊,獲 ACL2025 最佳論文獎,谷歌學術引用 1600 余次。他曾受邀參加聯合國秘書長科學顧問委員會討論,于國家自然科學基金委雙清論壇作特邀報告。
陳博遠還入選首批北京市自然科學基金本科生項目資助、獲評北京大學 2025 學生年度人物(全校 10 位)、商湯獎學金(全國 25 位)、北京大學五四獎學金(最高學生榮譽)等。

參考鏈接:https://cby-pku.github.io/
論文的通訊作者楊耀東是北京大學人工智能研究院助理教授,智源研究院大模型安全研究中心主任。
楊耀東教授的主要研究方向為智能體交互學習與對齊,致力于大模型的可信應用與安全落地,科研領域涵蓋強化學習、AI 對齊與具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等國際頂級期刊和會議發表論文二百余篇,谷歌學術引用逾 12000+ 次,自 2022 年以來位列 CSRanking 北大人工智能與機器學習方向學者首位,入選 Scopus 全球 Top2% 頂尖科學家。
近年來,楊耀東教授將研究重點進一步拓展至大模型與通用智能背景下的對齊問題,探索如何從算法與系統層面出發,使模型行為更好地符合人類意圖與價值預期。
除科研工作外,他也積極參與學術社區建設與人才培養,持續指導學生在 AI 安全與對齊方向開展研究,其指導的團隊北大對齊小組(PKU-Alignment Group)在該領域逐步形成了具有國際影響力的研究群體。

參考鏈接:https://www.yangyaodong.com/
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。