<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能 正文
      發(fā)私信給鄭佳美
      發(fā)送

      0

      上交博士最新思考:僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

      本文作者: 鄭佳美   2025-11-10 17:41
      導(dǎo)語(yǔ):從「試錯(cuò)」到「優(yōu)化」,RL 的統(tǒng)一思維框架。

      人工智能領(lǐng)域發(fā)展到現(xiàn)在,強(qiáng)化學(xué)習(xí)(RL)已經(jīng)成為人工智能中最令人著迷也最核心的研究方向之一。它試圖解決這樣一個(gè)問(wèn)題:當(dāng)智能體沒(méi)有現(xiàn)成答案時(shí),如何通過(guò)與環(huán)境的交互,自主學(xué)會(huì)最優(yōu)行為?

      聽(tīng)起來(lái)簡(jiǎn)單,做起來(lái)卻異常復(fù)雜。幾十年來(lái),研究者提出了成百上千種算法,從最早的 Q-learning 到后來(lái)基于深度學(xué)習(xí)的 DDPG、SAC、PPO、IQL……每種方法都有自己的原理、參數(shù)與假設(shè),看起來(lái)彼此獨(dú)立,仿佛一座龐大而混亂的迷宮。

      對(duì)于剛接觸強(qiáng)化學(xué)習(xí)的人來(lái)說(shuō),這種復(fù)雜性常常令人挫敗:我們似乎在學(xué)習(xí)無(wú)數(shù)名字,卻始終難以看清它們之間的聯(lián)系。

      然而,最近有一篇由上海交通大學(xué)與上海期智研究院的博士生 Kun Lei 發(fā)布的博客提出了一個(gè)令人眼前一亮的框架:所有強(qiáng)化學(xué)習(xí)算法,其實(shí)都可以通過(guò)兩個(gè)問(wèn)題來(lái)理解,第一,數(shù)據(jù)從哪里來(lái)?第二,策略更新有多頻繁?

      就是這兩個(gè)看似樸素的問(wèn)題,像兩根主線一樣,把強(qiáng)化學(xué)習(xí)的世界重新梳理清楚。從它們出發(fā),我們可以發(fā)現(xiàn):復(fù)雜的 RL 算法不過(guò)是在這兩根軸上移動(dòng)的不同點(diǎn)位。

      而當(dāng)這一結(jié)構(gòu)被揭示出來(lái),整個(gè)算法邏輯突然變得直觀、有序,也更容易被理解。

      上交博士最新思考:僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

      博客地址:https://lei-kun.github.io/blogs/rl.html

      數(shù)據(jù)從哪里來(lái)

      強(qiáng)化學(xué)習(xí)的過(guò)程,本質(zhì)上是智能體不斷收集經(jīng)驗(yàn)、并用這些經(jīng)驗(yàn)改進(jìn)策略的循環(huán)。不同算法的差異,很大程度上取決于它們依賴什么樣的數(shù)據(jù)。

      最直接的方式是“在策略學(xué)習(xí)”。在這種模式下,智能體一邊與環(huán)境交互,一邊學(xué)習(xí)。每一個(gè)動(dòng)作都帶來(lái)新的數(shù)據(jù),立刻被用于更新模型。這類(lèi)方法像是不斷在現(xiàn)場(chǎng)實(shí)踐的學(xué)生,代表算法包括 PPO、SAC 等。

      在線學(xué)習(xí)的優(yōu)點(diǎn)是靈活、適應(yīng)性強(qiáng),但也意味著代價(jià)高昂,每次試錯(cuò)都可能耗費(fèi)時(shí)間、能量,甚至造成損失。

      相對(duì)保守的是“離策略學(xué)習(xí)”。它允許智能體反復(fù)使用過(guò)去的經(jīng)驗(yàn),而不必每次都重新與環(huán)境交互。算法會(huì)把這些經(jīng)驗(yàn)保存下來(lái),在需要時(shí)反復(fù)采樣學(xué)習(xí)。DQN、TD3、DDPG 都屬于這一類(lèi)。

      離策略學(xué)習(xí)提高了樣本利用率,也讓學(xué)習(xí)過(guò)程更穩(wěn)定,是許多實(shí)際應(yīng)用中的主流方案。

      還有一種方式更極端,叫做“離線學(xué)習(xí)”。這里,智能體完全依賴一個(gè)固定的數(shù)據(jù)集進(jìn)行訓(xùn)練,不能再與環(huán)境交互。這種方法看似受限,但在高風(fēng)險(xiǎn)場(chǎng)景中卻尤為重要,比如醫(yī)療、自動(dòng)駕駛或機(jī)器人控制。

      算法必須在不試錯(cuò)的情況下,從既有數(shù)據(jù)中學(xué)會(huì)盡可能好的決策,CQL、IQL 就是這類(lèi)方法的代表。

      從在線到離線,數(shù)據(jù)的獲取方式逐漸從主動(dòng)探索轉(zhuǎn)向被動(dòng)利用。算法的選擇往往反映了任務(wù)的現(xiàn)實(shí)約束:能否安全地試錯(cuò)?能否持續(xù)獲得新數(shù)據(jù)?試錯(cuò)的代價(jià)是否可承受?這便是強(qiáng)化學(xué)習(xí)的第一個(gè)維度:數(shù)據(jù)從哪里來(lái)。

      上交博士最新思考:僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

      學(xué)習(xí)更新的節(jié)奏

      而強(qiáng)化學(xué)習(xí)的第二個(gè)維度,是學(xué)習(xí)更新的節(jié)奏。簡(jiǎn)單來(lái)說(shuō),就是智能體多久評(píng)估一次策略,又多久調(diào)整一次行為。

      最簡(jiǎn)單的方式是一種“一步式學(xué)習(xí)”。智能體在一個(gè)固定的數(shù)據(jù)集上訓(xùn)練一次,學(xué)到一個(gè)策略后就不再改進(jìn)。模仿學(xué)習(xí)就是典型例子。它速度快、風(fēng)險(xiǎn)低,適合那些對(duì)安全性要求高或數(shù)據(jù)有限的任務(wù)。

      另一種方式是“多步式學(xué)習(xí)”。算法在一批數(shù)據(jù)上多次更新,直到性能收斂,再重新收集新的數(shù)據(jù)。這是一種折中策略,既避免了頻繁交互的高成本,又能比一次性訓(xùn)練獲得更好的表現(xiàn)。

      最具代表性的是“迭代式學(xué)習(xí)”。這類(lèi)算法不斷在“收集數(shù)據(jù)—更新模型—再收集數(shù)據(jù)”的循環(huán)中進(jìn)化,每一次交互都推動(dòng)性能提升。它們像一個(gè)永不停歇的學(xué)習(xí)者,不斷探索未知、修正自身。PPO 和 SAC 就是這種方式的代表。

      從一步到多步,再到迭代,算法的更新節(jié)奏越來(lái)越密集,也意味著從靜態(tài)到動(dòng)態(tài)的轉(zhuǎn)變。不同節(jié)奏之間,其實(shí)反映的是對(duì)穩(wěn)定性和適應(yīng)性的權(quán)衡。

      上交博士最新思考:僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

      一個(gè)更底層的統(tǒng)一框架

      在講清楚“數(shù)據(jù)從哪來(lái)”和“學(xué)習(xí)更新的節(jié)奏”這兩條主線之后,博客提出了一個(gè)更底層的統(tǒng)一視角:無(wú)論算法形式如何變化,所有強(qiáng)化學(xué)習(xí)方法其實(shí)都在做兩件事:評(píng)估當(dāng)前策略、然后改進(jìn)它。

      簡(jiǎn)單來(lái)說(shuō),強(qiáng)化學(xué)習(xí)就像一個(gè)反復(fù)自我練習(xí)的過(guò)程:

      先評(píng)估,看看自己目前的策略表現(xiàn)得怎樣,哪些動(dòng)作好、哪些不好;

      再改進(jìn),根據(jù)評(píng)估結(jié)果,調(diào)整策略,讓下一次決策更聰明一點(diǎn)。

      Q-learning、PPO、SAC……看起來(lái)名字各不相同,其實(shí)都在重復(fù)這兩個(gè)動(dòng)作。唯一的區(qū)別,只是它們?cè)u(píng)估得方式不同、改進(jìn)的速度不同、或者用到的數(shù)據(jù)不同。雷峰網(wǎng)

      在博客中,作者用一組公式,把這兩步統(tǒng)一地寫(xiě)了出來(lái):

      評(píng)估階段(Policy Evaluation) 就是去衡量“這套策略到底值不值”。算法會(huì)讓模型預(yù)測(cè)某個(gè)狀態(tài)下采取某個(gè)動(dòng)作能得到多大的回報(bào),然后和實(shí)際反饋進(jìn)行比較。如果誤差太大,就調(diào)整模型,讓它的預(yù)期更接近現(xiàn)實(shí)。在線算法直接用新數(shù)據(jù)計(jì)算,離線或離策略算法則要通過(guò)重要性采樣、加權(quán)平均等方式修正舊數(shù)據(jù)的偏差。

      改進(jìn)階段(Policy Improvement) 是在得到新的評(píng)估結(jié)果后,優(yōu)化策略本身。模型會(huì)傾向于選擇那些帶來(lái)更高期望回報(bào)的動(dòng)作。但為了避免一下子“改過(guò)頭”,很多算法會(huì)加上約束或正則項(xiàng),比如讓新策略不能偏離舊策略太多(這就是 PPO 的思想),或者在策略里保留一定的探索性(這就是 SAC 中熵正則的作用)。

      上交博士最新思考:僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

      從這個(gè)角度看,所謂不同的強(qiáng)化學(xué)習(xí)算法,其實(shí)只是這兩個(gè)過(guò)程的不同實(shí)現(xiàn)。有的算法更注重評(píng)估的準(zhǔn)確性,有的更強(qiáng)調(diào)改進(jìn)的穩(wěn)定性,有的頻繁更新、快速迭代,有的則保守謹(jǐn)慎、慢慢優(yōu)化。

      當(dāng)我們用“評(píng)估 + 改進(jìn)”去看強(qiáng)化學(xué)習(xí)時(shí),整個(gè)算法體系就像被抽絲剝繭地展現(xiàn)在眼前,所有方法都不再是孤立的技巧,而是這兩個(gè)動(dòng)作的不同組合。

      在講清這兩條主線后,博客還進(jìn)一步將視角延伸到了現(xiàn)實(shí)世界的智能系統(tǒng),尤其是當(dāng)下正在快速發(fā)展的機(jī)器人基礎(chǔ)模型。

      Kun Lei 指出這種以訓(xùn)練節(jié)奏為核心的思考方式,與現(xiàn)代機(jī)器人基礎(chǔ)模型的訓(xùn)練實(shí)踐高度契合。例如 Generalist 團(tuán)隊(duì)的 GEN-0 與 Pi 的 pi_0.5,它們的成長(zhǎng)過(guò)程就像一臺(tái)不斷運(yùn)轉(zhuǎn)的數(shù)據(jù)飛輪。系統(tǒng)會(huì)持續(xù)吸收新的任務(wù)與場(chǎng)景,將它們整合進(jìn)統(tǒng)一的語(yǔ)料庫(kù),然后周期性地進(jìn)行再訓(xùn)練或微調(diào)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

      在這樣的機(jī)制下,多步式更新成為一種自然選擇。每一次訓(xùn)練循環(huán)都帶來(lái)小幅、受控的改進(jìn),既保守到能避免分布坍塌的風(fēng)險(xiǎn),又留下足夠的探索空間,使模型能夠在不斷擴(kuò)展的數(shù)據(jù)語(yǔ)料中穩(wěn)步成長(zhǎng)。

      并且當(dāng)模型逐漸接近能力瓶頸,無(wú)論是為了超越人類(lèi)在特定任務(wù)上的上限,還是為了更精準(zhǔn)地對(duì)齊人類(lèi)表現(xiàn),研究者通常會(huì)轉(zhuǎn)向迭代式的在線強(qiáng)化學(xué)習(xí),針對(duì)特定目標(biāo)進(jìn)行更高頻、更精細(xì)的評(píng)估與改進(jìn)。

      這種從多步更新向在線迭代過(guò)渡的訓(xùn)練策略,已在實(shí)踐中被多次驗(yàn)證有效,例如在 rl-100 等典型設(shè)定中,多步更新已經(jīng)能夠在有限數(shù)據(jù)下取得穩(wěn)定進(jìn)步,而適量的在線 RL 則能在保持安全與穩(wěn)定的前提下,將模型性能進(jìn)一步推高。

      走在 RL 前沿的年輕研究者

      上交博士最新思考:僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

      作者主頁(yè):https://lei-kun.github.io/?utm

      這篇博客的作者 Kun Lei 目前是上海交通大學(xué)與上海期智研究院的博士生,師從清華大學(xué)許華哲教授。

      Kun Lei 畢業(yè)于西南交通大學(xué),在本科階段就開(kāi)始從事人工智能與優(yōu)化相關(guān)的研究,并曾與西南交通大學(xué)的郭鵬教授以及美國(guó)奧本大學(xué)的王毅教授合作開(kāi)展科研工作。

      在讀博之前,他曾在上海期智研究院擔(dān)任研究助理,與許華哲教授共同進(jìn)行強(qiáng)化學(xué)習(xí)和機(jī)器人智能方向的研究,后來(lái)又在西湖大學(xué)進(jìn)行了為期四個(gè)月的科研實(shí)習(xí),主要探索具身智能與強(qiáng)化學(xué)習(xí)算法在真實(shí)環(huán)境中的應(yīng)用。

      Kun Lei 的研究方向涵蓋深度強(qiáng)化學(xué)習(xí)、具身智能與機(jī)器人學(xué)習(xí)。相比單純追求算法指標(biāo),他更關(guān)心這些算法如何真正落地,怎樣讓強(qiáng)化學(xué)習(xí)不僅在仿真環(huán)境中有效,也能在真實(shí)的機(jī)器人系統(tǒng)中穩(wěn)定工作,怎樣讓智能體在有限的數(shù)據(jù)下快速學(xué)習(xí)、靈活適應(yīng)。

      同時(shí)從他的博客也能看出,Kun Lei 的研究風(fēng)格兼具工程實(shí)踐與直覺(jué)思考,他追求的不是更復(fù)雜的模型,而是更清晰的理解。這篇關(guān)于強(qiáng)化學(xué)習(xí)的文章正體現(xiàn)了這種思路,他沒(méi)有堆疊晦澀的公式,而是用兩個(gè)最本質(zhì)的問(wèn)題,理出強(qiáng)化學(xué)習(xí)背后的邏輯主線。

      而強(qiáng)化學(xué)習(xí)之所以讓人望而卻步,是因?yàn)樗睦碚擉w系龐大、公式繁復(fù)。初學(xué)者常常被各種貝爾曼方程、策略梯度、折扣回報(bào)等概念包圍,每一個(gè)術(shù)語(yǔ)都能展開(kāi)成幾頁(yè)推導(dǎo),但卻難以抓住核心。

      這篇博客的價(jià)值就在于,它把這一切重新拉回了原點(diǎn)。作者沒(méi)有從復(fù)雜的數(shù)學(xué)出發(fā),而是提出兩個(gè)最簡(jiǎn)單的問(wèn)題:數(shù)據(jù)從哪里來(lái)?策略更新有多頻繁?

      這看似樸素的提問(wèn),其實(shí)觸及了強(qiáng)化學(xué)習(xí)的根。它幫助讀者重新看見(jiàn)算法的結(jié)構(gòu),不同方法之間不再是孤立的技巧,而是圍繞這兩個(gè)維度的不同取舍。通過(guò)這樣的視角,強(qiáng)化學(xué)習(xí)那片看似混亂的森林,突然變得有路可循。

      更重要的是,這種思路不僅僅是一種講解方式,更是一種思考問(wèn)題的習(xí)慣。它提醒我們,復(fù)雜系統(tǒng)的背后往往隱藏著最簡(jiǎn)單的規(guī)律,只是被層層公式和術(shù)語(yǔ)掩蓋。當(dāng)我們回到原理本身,用結(jié)構(gòu)化的方式去理解問(wèn)題,復(fù)雜性就不再是障礙。

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

      上交博士最新思考:僅用兩個(gè)問(wèn)題講清強(qiáng)化學(xué)習(xí)

      分享:
      相關(guān)文章
      最新文章
      請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說(shuō)
      主站蜘蛛池模板: 波多野结衣久久一区二区| 亚洲一卡2卡三卡四卡精品| 一区二区三区精品| 亚洲av国产成人精品区| 久久av高潮av无码av喷吹| 亚洲AV熟女| 欧美?级毛片一进一出夜本色| 18av千部影片| 青草午夜精品视频在线观看| 97精品国产一区二区三区| 久艹视频在线观看| 无码人妻一区二区三区四区老鸭窝 | 久久熟| 丰满人妻一区二区三区无码AV| 潮喷失禁大喷水aⅴ无码| 久久久天堂国产精品女人| 中文字幕+乱码+日韩| 精品久久久久久中文字幕| 91丝袜高潮流白浆潮喷在线观看| 中文字幕乱码中文乱码51精品| 一区二区AV| 国产人成无码视频在线| 午夜在线不卡| 久久天天躁狠狠躁夜夜av浪潮| 成年午夜无码av片在线观看| 中文字幕日韩精品有码视频| 日韩熟女精品一区二区三区| 伊人网狼人| 亚洲成人人妻| 国产XXX| 亚洲熟妇无码av在线播放| 国产愉拍91九色国产愉拍| 日韩在线一区二区三区免费视频| 国产精品久久精品第一页| 秭归县| 国产精品久久久久免费观看| 欧美A√| 成在线人免费| 3Pav图| 亚洲无码综合网| 一二三四中文字幕日韩乱码|