<label id="jgr5k"></label>

<legend id="jgr5k"><track id="jgr5k"></track></legend>

^{<sub id="jgr5k"></sub>}

<u id="jgr5k"></u>

久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线

<sub id="62lvu"></sub>

<p id="62lvu"></p>

<legend id="62lvu"><track id="62lvu"></track></legend>

<cite id="62lvu"></cite>

<s id="62lvu"></s>

^{<blockquote id="62lvu"></blockquote>}

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能正文

發(fā)私信給鄭佳美

發(fā)送

0

上交博士最新思考：僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

本文作者：鄭佳美

2025-11-10 17:41

導(dǎo)語(yǔ)：從「試錯(cuò)」到「優(yōu)化」，RL 的統(tǒng)一思維框架。

人工智能領(lǐng)域發(fā)展到現(xiàn)在，強(qiáng)化學(xué)習(xí)（RL）已經(jīng)成為人工智能中最令人著迷也最核心的研究方向之一。它試圖解決這樣一個(gè)問(wèn)題：當(dāng)智能體沒(méi)有現(xiàn)成答案時(shí)，如何通過(guò)與環(huán)境的交互，自主學(xué)會(huì)最優(yōu)行為？

聽(tīng)起來(lái)簡(jiǎn)單，做起來(lái)卻異常復(fù)雜。幾十年來(lái)，研究者提出了成百上千種算法，從最早的 Q-learning 到后來(lái)基于深度學(xué)習(xí)的 DDPG、SAC、PPO、IQL……每種方法都有自己的原理、參數(shù)與假設(shè)，看起來(lái)彼此獨(dú)立，仿佛一座龐大而混亂的迷宮。

對(duì)于剛接觸強(qiáng)化學(xué)習(xí)的人來(lái)說(shuō)，這種復(fù)雜性常常令人挫敗：我們似乎在學(xué)習(xí)無(wú)數(shù)名字，卻始終難以看清它們之間的聯(lián)系。

然而，最近有一篇由上海交通大學(xué)與上海期智研究院的博士生 Kun Lei 發(fā)布的博客提出了一個(gè)令人眼前一亮的框架：所有強(qiáng)化學(xué)習(xí)算法，其實(shí)都可以通過(guò)兩個(gè)問(wèn)題來(lái)理解，第一，數(shù)據(jù)從哪里來(lái)？第二，策略更新有多頻繁？

就是這兩個(gè)看似樸素的問(wèn)題，像兩根主線一樣，把強(qiáng)化學(xué)習(xí)的世界重新梳理清楚。從它們出發(fā)，我們可以發(fā)現(xiàn)：復(fù)雜的 RL 算法不過(guò)是在這兩根軸上移動(dòng)的不同點(diǎn)位。

而當(dāng)這一結(jié)構(gòu)被揭示出來(lái)，整個(gè)算法邏輯突然變得直觀、有序，也更容易被理解。

上交博士最新思考：僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

博客地址：https://lei-kun.github.io/blogs/rl.html

數(shù)據(jù)從哪里來(lái)

強(qiáng)化學(xué)習(xí)的過(guò)程，本質(zhì)上是智能體不斷收集經(jīng)驗(yàn)、并用這些經(jīng)驗(yàn)改進(jìn)策略的循環(huán)。不同算法的差異，很大程度上取決于它們依賴什么樣的數(shù)據(jù)。

最直接的方式是“在策略學(xué)習(xí)”。在這種模式下，智能體一邊與環(huán)境交互，一邊學(xué)習(xí)。每一個(gè)動(dòng)作都帶來(lái)新的數(shù)據(jù)，立刻被用于更新模型。這類(lèi)方法像是不斷在現(xiàn)場(chǎng)實(shí)踐的學(xué)生，代表算法包括 PPO、SAC 等。

在線學(xué)習(xí)的優(yōu)點(diǎn)是靈活、適應(yīng)性強(qiáng)，但也意味著代價(jià)高昂，每次試錯(cuò)都可能耗費(fèi)時(shí)間、能量，甚至造成損失。

相對(duì)保守的是“離策略學(xué)習(xí)”。它允許智能體反復(fù)使用過(guò)去的經(jīng)驗(yàn)，而不必每次都重新與環(huán)境交互。算法會(huì)把這些經(jīng)驗(yàn)保存下來(lái)，在需要時(shí)反復(fù)采樣學(xué)習(xí)。DQN、TD3、DDPG 都屬于這一類(lèi)。

離策略學(xué)習(xí)提高了樣本利用率，也讓學(xué)習(xí)過(guò)程更穩(wěn)定，是許多實(shí)際應(yīng)用中的主流方案。

還有一種方式更極端，叫做“離線學(xué)習(xí)”。這里，智能體完全依賴一個(gè)固定的數(shù)據(jù)集進(jìn)行訓(xùn)練，不能再與環(huán)境交互。這種方法看似受限，但在高風(fēng)險(xiǎn)場(chǎng)景中卻尤為重要，比如醫(yī)療、自動(dòng)駕駛或機(jī)器人控制。

算法必須在不試錯(cuò)的情況下，從既有數(shù)據(jù)中學(xué)會(huì)盡可能好的決策，CQL、IQL 就是這類(lèi)方法的代表。

從在線到離線，數(shù)據(jù)的獲取方式逐漸從主動(dòng)探索轉(zhuǎn)向被動(dòng)利用。算法的選擇往往反映了任務(wù)的現(xiàn)實(shí)約束：能否安全地試錯(cuò)？能否持續(xù)獲得新數(shù)據(jù)？試錯(cuò)的代價(jià)是否可承受？這便是強(qiáng)化學(xué)習(xí)的第一個(gè)維度：數(shù)據(jù)從哪里來(lái)。

上交博士最新思考：僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

學(xué)習(xí)更新的節(jié)奏

而強(qiáng)化學(xué)習(xí)的第二個(gè)維度，是學(xué)習(xí)更新的節(jié)奏。簡(jiǎn)單來(lái)說(shuō)，就是智能體多久評(píng)估一次策略，又多久調(diào)整一次行為。

最簡(jiǎn)單的方式是一種“一步式學(xué)習(xí)”。智能體在一個(gè)固定的數(shù)據(jù)集上訓(xùn)練一次，學(xué)到一個(gè)策略后就不再改進(jìn)。模仿學(xué)習(xí)就是典型例子。它速度快、風(fēng)險(xiǎn)低，適合那些對(duì)安全性要求高或數(shù)據(jù)有限的任務(wù)。

另一種方式是“多步式學(xué)習(xí)”。算法在一批數(shù)據(jù)上多次更新，直到性能收斂，再重新收集新的數(shù)據(jù)。這是一種折中策略，既避免了頻繁交互的高成本，又能比一次性訓(xùn)練獲得更好的表現(xiàn)。

最具代表性的是“迭代式學(xué)習(xí)”。這類(lèi)算法不斷在“收集數(shù)據(jù)—更新模型—再收集數(shù)據(jù)”的循環(huán)中進(jìn)化，每一次交互都推動(dòng)性能提升。它們像一個(gè)永不停歇的學(xué)習(xí)者，不斷探索未知、修正自身。PPO 和 SAC 就是這種方式的代表。

從一步到多步，再到迭代，算法的更新節(jié)奏越來(lái)越密集，也意味著從靜態(tài)到動(dòng)態(tài)的轉(zhuǎn)變。不同節(jié)奏之間，其實(shí)反映的是對(duì)穩(wěn)定性和適應(yīng)性的權(quán)衡。

上交博士最新思考：僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

一個(gè)更底層的統(tǒng)一框架

在講清楚“數(shù)據(jù)從哪來(lái)”和“學(xué)習(xí)更新的節(jié)奏”這兩條主線之后，博客提出了一個(gè)更底層的統(tǒng)一視角：無(wú)論算法形式如何變化，所有強(qiáng)化學(xué)習(xí)方法其實(shí)都在做兩件事：評(píng)估當(dāng)前策略、然后改進(jìn)它。

簡(jiǎn)單來(lái)說(shuō)，強(qiáng)化學(xué)習(xí)就像一個(gè)反復(fù)自我練習(xí)的過(guò)程：

先評(píng)估，看看自己目前的策略表現(xiàn)得怎樣，哪些動(dòng)作好、哪些不好；

再改進(jìn)，根據(jù)評(píng)估結(jié)果，調(diào)整策略，讓下一次決策更聰明一點(diǎn)。

Q-learning、PPO、SAC……看起來(lái)名字各不相同，其實(shí)都在重復(fù)這兩個(gè)動(dòng)作。唯一的區(qū)別，只是它們?cè)u(píng)估得方式不同、改進(jìn)的速度不同、或者用到的數(shù)據(jù)不同。雷峰網(wǎng)

在博客中，作者用一組公式，把這兩步統(tǒng)一地寫(xiě)了出來(lái)：

評(píng)估階段（Policy Evaluation）就是去衡量“這套策略到底值不值”。算法會(huì)讓模型預(yù)測(cè)某個(gè)狀態(tài)下采取某個(gè)動(dòng)作能得到多大的回報(bào)，然后和實(shí)際反饋進(jìn)行比較。如果誤差太大，就調(diào)整模型，讓它的預(yù)期更接近現(xiàn)實(shí)。在線算法直接用新數(shù)據(jù)計(jì)算，離線或離策略算法則要通過(guò)重要性采樣、加權(quán)平均等方式修正舊數(shù)據(jù)的偏差。

改進(jìn)階段（Policy Improvement）是在得到新的評(píng)估結(jié)果后，優(yōu)化策略本身。模型會(huì)傾向于選擇那些帶來(lái)更高期望回報(bào)的動(dòng)作。但為了避免一下子“改過(guò)頭”，很多算法會(huì)加上約束或正則項(xiàng)，比如讓新策略不能偏離舊策略太多（這就是 PPO 的思想），或者在策略里保留一定的探索性（這就是 SAC 中熵正則的作用）。

上交博士最新思考：僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

從這個(gè)角度看，所謂不同的強(qiáng)化學(xué)習(xí)算法，其實(shí)只是這兩個(gè)過(guò)程的不同實(shí)現(xiàn)。有的算法更注重評(píng)估的準(zhǔn)確性，有的更強(qiáng)調(diào)改進(jìn)的穩(wěn)定性，有的頻繁更新、快速迭代，有的則保守謹(jǐn)慎、慢慢優(yōu)化。

當(dāng)我們用“評(píng)估 + 改進(jìn)”去看強(qiáng)化學(xué)習(xí)時(shí)，整個(gè)算法體系就像被抽絲剝繭地展現(xiàn)在眼前，所有方法都不再是孤立的技巧，而是這兩個(gè)動(dòng)作的不同組合。

在講清這兩條主線后，博客還進(jìn)一步將視角延伸到了現(xiàn)實(shí)世界的智能系統(tǒng)，尤其是當(dāng)下正在快速發(fā)展的機(jī)器人基礎(chǔ)模型。

Kun Lei 指出這種以訓(xùn)練節(jié)奏為核心的思考方式，與現(xiàn)代機(jī)器人基礎(chǔ)模型的訓(xùn)練實(shí)踐高度契合。例如 Generalist 團(tuán)隊(duì)的 GEN-0 與 Pi 的 pi_0.5，它們的成長(zhǎng)過(guò)程就像一臺(tái)不斷運(yùn)轉(zhuǎn)的數(shù)據(jù)飛輪。系統(tǒng)會(huì)持續(xù)吸收新的任務(wù)與場(chǎng)景，將它們整合進(jìn)統(tǒng)一的語(yǔ)料庫(kù)，然后周期性地進(jìn)行再訓(xùn)練或微調(diào)。雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

在這樣的機(jī)制下，多步式更新成為一種自然選擇。每一次訓(xùn)練循環(huán)都帶來(lái)小幅、受控的改進(jìn)，既保守到能避免分布坍塌的風(fēng)險(xiǎn)，又留下足夠的探索空間，使模型能夠在不斷擴(kuò)展的數(shù)據(jù)語(yǔ)料中穩(wěn)步成長(zhǎng)。

并且當(dāng)模型逐漸接近能力瓶頸，無(wú)論是為了超越人類(lèi)在特定任務(wù)上的上限，還是為了更精準(zhǔn)地對(duì)齊人類(lèi)表現(xiàn)，研究者通常會(huì)轉(zhuǎn)向迭代式的在線強(qiáng)化學(xué)習(xí)，針對(duì)特定目標(biāo)進(jìn)行更高頻、更精細(xì)的評(píng)估與改進(jìn)。

這種從多步更新向在線迭代過(guò)渡的訓(xùn)練策略，已在實(shí)踐中被多次驗(yàn)證有效，例如在 rl-100 等典型設(shè)定中，多步更新已經(jīng)能夠在有限數(shù)據(jù)下取得穩(wěn)定進(jìn)步，而適量的在線 RL 則能在保持安全與穩(wěn)定的前提下，將模型性能進(jìn)一步推高。

走在 RL 前沿的年輕研究者

上交博士最新思考：僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

作者主頁(yè)：https://lei-kun.github.io/?utm

這篇博客的作者 Kun Lei 目前是上海交通大學(xué)與上海期智研究院的博士生，師從清華大學(xué)許華哲教授。

Kun Lei 畢業(yè)于西南交通大學(xué)，在本科階段就開(kāi)始從事人工智能與優(yōu)化相關(guān)的研究，并曾與西南交通大學(xué)的郭鵬教授以及美國(guó)奧本大學(xué)的王毅教授合作開(kāi)展科研工作。

在讀博之前，他曾在上海期智研究院擔(dān)任研究助理，與許華哲教授共同進(jìn)行強(qiáng)化學(xué)習(xí)和機(jī)器人智能方向的研究，后來(lái)又在西湖大學(xué)進(jìn)行了為期四個(gè)月的科研實(shí)習(xí)，主要探索具身智能與強(qiáng)化學(xué)習(xí)算法在真實(shí)環(huán)境中的應(yīng)用。

Kun Lei 的研究方向涵蓋深度強(qiáng)化學(xué)習(xí)、具身智能與機(jī)器人學(xué)習(xí)。相比單純追求算法指標(biāo)，他更關(guān)心這些算法如何真正落地，怎樣讓強(qiáng)化學(xué)習(xí)不僅在仿真環(huán)境中有效，也能在真實(shí)的機(jī)器人系統(tǒng)中穩(wěn)定工作，怎樣讓智能體在有限的數(shù)據(jù)下快速學(xué)習(xí)、靈活適應(yīng)。

同時(shí)從他的博客也能看出，Kun Lei 的研究風(fēng)格兼具工程實(shí)踐與直覺(jué)思考，他追求的不是更復(fù)雜的模型，而是更清晰的理解。這篇關(guān)于強(qiáng)化學(xué)習(xí)的文章正體現(xiàn)了這種思路，他沒(méi)有堆疊晦澀的公式，而是用兩個(gè)最本質(zhì)的問(wèn)題，理出強(qiáng)化學(xué)習(xí)背后的邏輯主線。

而強(qiáng)化學(xué)習(xí)之所以讓人望而卻步，是因?yàn)樗睦碚擉w系龐大、公式繁復(fù)。初學(xué)者常常被各種貝爾曼方程、策略梯度、折扣回報(bào)等概念包圍，每一個(gè)術(shù)語(yǔ)都能展開(kāi)成幾頁(yè)推導(dǎo)，但卻難以抓住核心。

這篇博客的價(jià)值就在于，它把這一切重新拉回了原點(diǎn)。作者沒(méi)有從復(fù)雜的數(shù)學(xué)出發(fā)，而是提出兩個(gè)最簡(jiǎn)單的問(wèn)題：數(shù)據(jù)從哪里來(lái)？策略更新有多頻繁？

這看似樸素的提問(wèn)，其實(shí)觸及了強(qiáng)化學(xué)習(xí)的根。它幫助讀者重新看見(jiàn)算法的結(jié)構(gòu)，不同方法之間不再是孤立的技巧，而是圍繞這兩個(gè)維度的不同取舍。通過(guò)這樣的視角，強(qiáng)化學(xué)習(xí)那片看似混亂的森林，突然變得有路可循。

更重要的是，這種思路不僅僅是一種講解方式，更是一種思考問(wèn)題的習(xí)慣。它提醒我們，復(fù)雜系統(tǒng)的背后往往隱藏著最簡(jiǎn)單的規(guī)律，只是被層層公式和術(shù)語(yǔ)掩蓋。當(dāng)我們回到原理本身，用結(jié)構(gòu)化的方式去理解問(wèn)題，復(fù)雜性就不再是障礙。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

最新文章

熱門(mén)搜索

移動(dòng)互聯(lián)網(wǎng) 淘寶 App Store SpaceX 庫(kù)克 Microsoft AWS 早報(bào) 在線教育 ChatGPT Disrupt大會(huì)

為了您的賬戶安全，請(qǐng)驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請(qǐng)驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說(shuō)

主站蜘蛛池模板：波多野结衣久久一区二区| 亚洲一卡2卡三卡四卡精品| 一区二区三区精品| 亚洲av国产成人精品区| 久久av高潮av无码av喷吹| 亚洲AV熟女| 欧美?级毛片一进一出夜本色| 18av千部影片| 青草午夜精品视频在线观看| 97精品国产一区二区三区| 久艹视频在线观看| 无码人妻一区二区三区四区老鸭窝 | 久久熟| 丰满人妻一区二区三区无码AV| 潮喷失禁大喷水aⅴ无码| 久久久天堂国产精品女人| 中文字幕+乱码+日韩| 精品久久久久久中文字幕| 91丝袜高潮流白浆潮喷在线观看| 中文字幕乱码中文乱码51精品| 一区二区AV| 国产人成无码视频在线| 午夜在线不卡| 久久天天躁狠狠躁夜夜av浪潮| 成年午夜无码av片在线观看| 中文字幕日韩精品有码视频| 日韩熟女精品一区二区三区| 伊人网狼人| 亚洲成人人妻| 国产XXX| 亚洲熟妇无码av在线播放| 国产愉拍91九色国产愉拍| 日韩在线一区二区三区免费视频| 国产精品久久精品第一页| 秭归县| 国产精品久久久久免费观看| 欧美A√| 成在线人免费| 3Pav图| 亚洲无码综合网| 一二三四中文字幕日韩乱码|

<cite id="hhdzp"><li id="hhdzp"><pre id="hhdzp"></pre></li></cite>