Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

本文作者：劉潔

2024-10-23 10:23

導(dǎo)語：小模型干大事，DeepMind重新審視Transformer推理能力。

DeepMind悶聲干大事，悄悄訓(xùn)練了一個大小只有270M的Transformer模型，居然不需要搜索，就能實現(xiàn)大師級的下棋水平。

這幾天的推特因為這篇2月份發(fā)布的論文吵得不可開交，DeepMind團隊也趕緊放出了更新后的論文版本，開源了有關(guān)數(shù)據(jù)集和代碼，對網(wǎng)上的爭議做了回應(yīng)。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

最開始，有位網(wǎng)友分享了DeepMind的這項研究，并提出“Transformer也能用于邏輯任務(wù)”的觀點，沒想到卻激起了一場關(guān)于Transformer能不能推理的爭論。

先是顧全全果斷轉(zhuǎn)發(fā)表示贊同，“這表明Transformer具有推理和規(guī)劃的能力。”

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

然而，這一觀點很快遭到了激烈反駁，爭論的火藥味十足。

田淵棟直言，短時策略并不等于推理能力。他認為，“Transformer模型的評估基于閃電戰(zhàn)模式（每局限時5-10分鐘），這更依賴直覺和戰(zhàn)術(shù)反應(yīng)，而非傳統(tǒng)的深度搜索和規(guī)劃。”

田淵棟還指出，閃電戰(zhàn)下機器人雖然Elo達2713，但未能展示出超越訓(xùn)練數(shù)據(jù)的能力。“此外，機器人在短時間內(nèi)的閃電戰(zhàn)Elo分數(shù)比人類選手要低，這可能說明它的表現(xiàn)更多依賴于模式匹配，而非真正的推理。”

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

很多反對者也指出，論文中明確提到，這種模型的表現(xiàn)仍然高度依賴于訓(xùn)練數(shù)據(jù)和架構(gòu)規(guī)模。歸根結(jié)底，它只是在進行統(tǒng)計匹配，而非真正的邏輯推理。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

也有很多人認為，這實際上只是一種預(yù)測。雖然Transformer能夠精準地計算和預(yù)測下一步行動，這看著像是在推理，但與人類推理并非一回事。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

顧全全解釋道，“推理的核心在于蘊涵（entailment）?！币M行推理，首先需要識別一組基本的命題或原子公式，然后再通過一系列推理規(guī)則來推導(dǎo)出結(jié)論。

Transformer實現(xiàn)推理的關(guān)鍵在于它是否能夠?qū)W習(xí)推理規(guī)則，這些規(guī)則是推理的組成部分，但并不能構(gòu)成完整的“推理”。

以往的研究表明，Transformer 能夠?qū)W習(xí)各種“算法”或規(guī)則，例如線性回歸（Linear Regression）、k 最近鄰（k-Nearest Neighbors）和貝葉斯網(wǎng)絡(luò)推理中的 Chow-Liu 算法。

這些算法雖然不是嚴格意義上的邏輯推理規(guī)則，但仍然是一種有邏輯的算法規(guī)則。顧全全認為，DeepMind這次的研究恰恰展示了Transformer學(xué)習(xí)推理規(guī)則上的潛力。

不過，他也坦言：“盡管大量實證研究表明Transformer可以有效地學(xué)習(xí)推理規(guī)則，但仍然需要在理論上得到嚴格證明?！?/p>

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

換句話說，目前我們只能從實驗數(shù)據(jù)上看到模型的表現(xiàn)，而要真正確認Transformer能不能像人類一樣推理，還需要更多理論研究。

算法到模型的通用方法

DeepMind這篇論文在推特引發(fā)的激烈討論，不僅限于技術(shù)本身。

有位網(wǎng)友在深入研究論文細節(jié)后認為，這項研究展示了一個重要突破，即將任意概率算法提煉成神經(jīng)模型的通用方法。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

他還樂觀地表示“我們正處于整個計算機科學(xué)從圖靈機的起源開始重寫的邊緣?！?/p>

Gary Macus對此持懷疑態(tài)度，他在與論文作者交流后指出，論文中的Transformer模型雖然在標準國際象棋上取得了成功，但在更復(fù)雜的棋盤變體（如Fischer隨機象棋）上表現(xiàn)不佳，也無法推廣到更大的棋盤（如8x12）。這說明了模型在泛化能力上的局限性。

他還指出，這類模型的優(yōu)秀表現(xiàn)往往局限于國際象棋這類封閉的環(huán)境，在更開放、更復(fù)雜的環(huán)境中會面臨嚴峻挑戰(zhàn)。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

也有人不贊同這種說法，認為Gary Macus低估了神經(jīng)網(wǎng)絡(luò)的繁華能力。雖然模型的適用性不夠廣，但這種方法卻是可以推廣的。像MCTS（蒙特卡洛樹搜索）這樣的算法也可以被蒸餾成模型，這可能也適用于語言處理。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

推特上關(guān)于這篇論文的爭論愈演愈烈。DeepMind也于10月21日在arxiv上更新了論文，并推出了名為ChessBench的大規(guī)模數(shù)據(jù)集。

ChessBench數(shù)據(jù)集包含了1000萬個國際象棋局面及其走法與價值注釋，共計超過150億個數(shù)據(jù)點，這些數(shù)據(jù)全部由最先進的國際象棋引擎Stockfish 16提供。

研究團隊還開源了ChessBench數(shù)據(jù)集、模型權(quán)重以及所有訓(xùn)練和評估代碼，方便學(xué)術(shù)界進行下一步研究。

更新的第二版論文里，也提到了“蒸餾”這件事。

研究人員表示，盡管可以通過監(jiān)督學(xué)習(xí)將Stockfish的搜索算法的近似版本蒸餾到Transformer中，但完美的蒸餾仍然遙不可及。

這也反映了深度學(xué)習(xí)領(lǐng)域的一個核心問題：即使模型在某些特定領(lǐng)域（如象棋、圍棋）表現(xiàn)出了卓越的性能，但它們?nèi)匀灰蕾囉诖罅坑嬎阗Y源和規(guī)則化的訓(xùn)練環(huán)境。

像AlphaZero就是依靠強化學(xué)習(xí)，通過與自己反復(fù)對弈，最終超越了傳統(tǒng)棋類引擎，一旦應(yīng)用到更復(fù)雜、更少規(guī)則約束的環(huán)境，也難免暴露出缺乏泛化能力的問題。

DeepMind的這篇論文就提供了一條可行的路。

論文在結(jié)尾強調(diào)Transformer不應(yīng)該只是單純的統(tǒng)計模式識別器，而應(yīng)該被當作是一種近似通用算法的強大技術(shù)。再結(jié)合Transformer模型在實驗中展示的強泛化能力，也許可以被視作AI模型泛化問題的一種解法。

為什么DeepMind重回棋局研究？

也有網(wǎng)友發(fā)問，之前不是已經(jīng)有模型實現(xiàn)過了大師級的下棋水平嗎，為什么DeepMind還要再做一次？

其實在AI行業(yè)里早就有了一個共識：所有的應(yīng)用都應(yīng)該用AI大模型重做一遍。

因為AI技術(shù)的商業(yè)化落地始終是個難題，要對準具體的業(yè)務(wù)肯定是找現(xiàn)成的應(yīng)用來得快。另外，用大模型重做已有的應(yīng)用能夠進一步挖掘其商業(yè)價值，個性化的用戶體驗?zāi)軌蛟黾佑脩粽承該屨几嗟氖袌龇蓊~。

在市場的驅(qū)動下，微軟和谷歌這樣的大企業(yè)早就付諸行動并且頗有成效了。

微軟往Office辦公三件套引入了Copilot，實現(xiàn)了從文本生成到流程自動化的全面升級。像普通用戶就可以通過提供文字提示或是Word文檔讓Copilot生成幻燈片，企業(yè)用戶還可以直接生成一些簡單的代碼應(yīng)用。

Google Workspace套件里集成的生成式AI也很實用，用戶可以利用智能助手在Google Docs和Gmail中生成郵件、摘要等內(nèi)容，減少重復(fù)勞動大大提高了工作效率。

而且這次研究的重要性不僅僅在于棋類AI的迭代，更在于它為AI推理和學(xué)習(xí)的未來提供了新方向。

回顧以往的棋類AI研究，博弈樹一直是核心工具。

博弈樹將每一個棋局狀態(tài)表示為節(jié)點，每下一步棋則從一個節(jié)點移動到對應(yīng)的子節(jié)點，通過窮舉所有可能的步驟，構(gòu)建出一個龐大的樹狀結(jié)構(gòu)。

然而，棋類游戲的復(fù)雜性讓這種全量搜索變得幾乎不可行。

為了解決這個問題，約翰·麥卡錫（John McCarthy）提出了著名的α-β剪枝算法。

這種算法的核心在于，在繪制博弈樹的同時進行計算評估，一旦某一分支的結(jié)果無法優(yōu)于已有的最佳結(jié)果，就會立即“剪枝”，跳過這個分支的計算。這種方式有效減少了無效計算，大大提升了搜索效率。

1997年，IBM的Deep Blue利用α-β剪枝算法，并結(jié)合數(shù)百萬場棋局的數(shù)據(jù)支持，成功實現(xiàn)了深度計算。最終，Deep Blue擊敗了國際象棋世界冠軍加里·卡斯帕羅夫。

這是AI第一次在公開比賽中戰(zhàn)勝頂級人類棋手，也是博弈樹算法與啟發(fā)式規(guī)則結(jié)合的巔峰。

2017年，DeepMind發(fā)布了AlphaZero，進一步突破了傳統(tǒng)的博弈樹模型。

與以往AI依賴人類知識庫和啟發(fā)式規(guī)則不同，AlphaZero完全拋棄了這些外部支持，僅通過自我對弈和通用強化學(xué)習(xí)算法，就在短時間內(nèi)掌握了國際象棋、將棋和圍棋的玩法。

這項突破性研究展示了AI自我優(yōu)化的潛力：無需借助外部知識庫，AI也能達到卓越水平。

這一次，DeepMind在棋類AI的探索上更進一步。與AlphaZero相比，Transformer模型不僅拋棄了人類知識庫和啟發(fā)式規(guī)則，甚至不再使用任何搜索算法，而是通過監(jiān)督學(xué)習(xí)直接從包含1000萬場國際象棋比賽的數(shù)據(jù)集中學(xué)習(xí)策略。

DeepMind訓(xùn)練了三種規(guī)模的Transformer模型，分別為9M、136M和270M參數(shù)，并根據(jù)預(yù)測目標（動作值、狀態(tài)值或行為克隆）構(gòu)建了一個預(yù)測器。動作值預(yù)測器用于生成策略，評估所有合法動作的預(yù)測值并選擇期望動作值最大的動作。

實驗結(jié)果顯示，最大的270M參數(shù)模型在Lichess閃電戰(zhàn)中達到了2895 Elo的分數(shù)，表明它已經(jīng)具備了大師級的國際象棋策略。

Transformer能否推理引爭議，DeepMind連夜更新論文開源數(shù)據(jù)集：Transformer真的很強

（動作價值模型與Stockfish 16、Leela Chess Zero的變體、AlphaZero（有無蒙特卡洛樹搜索）以及GPT-3.5-turbo-instruct的比較）

相比AlphaZero依賴深度搜索和自我對弈，這個模型的成功之處在于無需借助任何搜索算法，僅僅基于棋盤狀態(tài)的學(xué)習(xí)也能達到大師級別的棋藝。并且該模型大幅降低了計算需求——甚至在部分任務(wù)中以八倍更少的浮點計算量取得與AlphaZero相當?shù)某煽儭?/p>

這不僅是技術(shù)上的突破，更暗示了Transformer模型在泛化和學(xué)習(xí)推理規(guī)則方面的巨大潛力。

小模型的里程碑

DeepMind這次的研究對LLM尤其是小參數(shù)模型來說，同樣具有里程碑式的意義。

相信很多人都發(fā)現(xiàn)了，現(xiàn)在LLM的研究已經(jīng)到了一個交叉點。

一部分研究者堅信“大即是好”，致力于開發(fā)性能強大的巨型模型；另一部分則選擇“小而美”的方向，專注于小參數(shù)模型的優(yōu)化和應(yīng)用。

像Meta和蘋果就是小模型賽道的堅定擁護者。

Meta推出的MobileLLM系列，將模型規(guī)?？s小至1B以下，并推出了125M和350M兩個版本。

而一直專注于閉源開發(fā)的蘋果，也在開源領(lǐng)域有所突破，發(fā)布了一系列開源模型OpenELM，參數(shù)規(guī)模集中在270M到3B之間。

270M這個數(shù)字是不是很熟悉？正是DeepMind這次使用的Transformer模型參數(shù)量。這兩家公司都不約而同選擇270M，絕非偶然。

與動輒數(shù)百億參數(shù)的巨型模型相比，蘋果的3B模型在LLM領(lǐng)域已算是“小型”。

然而，對于手機等移動設(shè)備而言，3B的模型依然太大。因此，270M成為絕佳選擇——既能在移動設(shè)備上順暢運行，又兼顧了模型性能。

類似的趨勢也出現(xiàn)在大型模型領(lǐng)域。

很多主流大模型的參數(shù)設(shè)定為7B、13B或65B，其中7B尤其常見。原因在于7B的模型可以在單卡上部署，大大降低了應(yīng)用的成本和門檻。

這也表明，無論是大模型還是小模型，研究的核心都在于如何實現(xiàn)商業(yè)落地。

行業(yè)趨勢表明，輕量化正逐漸成為市場主流。相比巨型模型，小模型的優(yōu)勢十分明顯：

參數(shù)少、計算量小，推理速度更快；
成本更低，適合更廣泛的部署場景；
對大部分企業(yè)而言，小模型的能力已經(jīng)足以滿足業(yè)務(wù)需求。

截至2021年，全球移動設(shè)備用戶數(shù)量已達86億，超過了地球總?cè)丝?。如何滿足如此龐大的移動用戶需求，已經(jīng)成為各大企業(yè)競爭的焦點。

比如，蘋果的最新語音助手就內(nèi)置了270M模型，支持離線語音識別和本地響應(yīng)。谷歌的TinySpeech也為了能在移動設(shè)備上實現(xiàn)更加快速準確的語音識別功能，縮小了參數(shù)規(guī)模。

OpenAI也推出了ChatGPT Lite版本，在保證準確率的同時，通過減少參數(shù)量來降低計算資源的消耗，這使得用戶能夠在資源有限的設(shè)備上，享受到流暢的實時聊天和問答系統(tǒng)交互體驗。

在與LLM有關(guān)的其他領(lǐng)域，也在積極推動輕量化戰(zhàn)略，包括專注于高性能硬件的英偉達。

英偉達新推出的Jetson系列（如Jetson Nano和Jetson Orin Nano）就是專為嵌入式AI系統(tǒng)設(shè)計，將強大的算力嵌入體積小、能耗低的設(shè)備中，意在推動物聯(lián)網(wǎng)和邊緣設(shè)備的發(fā)展。

這也說明，小模型并非技術(shù)上的妥協(xié)，而是商業(yè)化的最優(yōu)選擇。未來更多的AI應(yīng)用將逐步擺脫云端依賴，通過小模型在本地運行，推動“輕量級AI”進入日常生活。

Transformer“擬直覺”：AI是否能模仿人類思維？

這項研究還引發(fā)了一個有趣的哲學(xué)問題：AI是否正在向“直覺型思維”邁進？

傳統(tǒng)的AI系統(tǒng)依賴于窮舉式搜索和策略規(guī)劃，但人類大師的棋藝往往依賴直覺與經(jīng)驗，而非純粹的計算。

在閃電戰(zhàn)模式中，DeepMind的模型能夠在5-10分鐘內(nèi)完成棋局，依靠的是快速判斷而非傳統(tǒng)的窮舉式搜索，這種決策模式看起來和人類的直覺非常相似。

但AI的策略始終還是來自對大量數(shù)據(jù)的學(xué)習(xí)，這和人類的“下意識反應(yīng)”存在本質(zhì)區(qū)別。AI的所謂直覺，更像是通過模式識別模擬人類的行為，不能真正等同于“理解”。

這種對人類思維的模擬行為也常見于其他AI領(lǐng)域。

拿下諾貝爾獎的AlphaFold就利用了生物序列與結(jié)構(gòu)之間的復(fù)雜關(guān)系，模擬生物學(xué)家的推理過程，從而快速、準確地預(yù)測蛋白質(zhì)結(jié)構(gòu)。

英偉達用于訓(xùn)練和模擬機器人行為的Isaac Sim仿真平臺，也是通過模擬真實世界中的物理環(huán)境，允許AI學(xué)習(xí)如何在動態(tài)環(huán)境中做出決策，類似于人類在復(fù)雜環(huán)境中的反應(yīng)方式。

遺憾的是這些表現(xiàn)依然是基于訓(xùn)練數(shù)據(jù)，而非真正的認知理解。

DeepMind的Transformer模型展示了AI領(lǐng)域的一個重要趨勢：從大模型走向輕量化、從搜索算法轉(zhuǎn)向直接推理。在未來的AI應(yīng)用中，效率與規(guī)模的平衡將是關(guān)鍵。Transformer的成功不僅改變了我們對AI的認知，也為AI如何在復(fù)雜環(huán)境中進行推理提供了新的思路。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。