<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給鄭佳美
      發送

      0

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      本文作者: 鄭佳美   2025-02-27 14:22
      導語:在月亮的暗面,閃閃發光。

      2025 年 1 月 20 日 Kimi k1.5 正式發布,伴隨著技術報告的公布,有網友表示:“這應該是全球范圍內,除 OpenAI 之外的公司首次實現 o1 正式版的多模態推理性能了吧!”

      一時間,Kimi k1.5 成了話題王者。

      但在一個月后的 2 月 24 日,X 上出現了一篇關于 Kimi k1.5 的技術爆料帖,博主直言 k1.5 所用到的強化學習算法,其實是借鑒了自己在 24 年 5 月提出的一種名為 SPPO 的技術。

      消息一出,瞬間吸引了數萬人關注。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      Kimi k1.5 背后的 SPPO 技術

      在這則爆料中,博主 Yue Wu 先是對 SPPO 進行了簡單解釋,并且附上了相關論文(https://arxiv.org/abs/2405.00675),簡單來說,SPPO是一種自博弈算法,最初的動機來源于刻畫廣泛意義上的人類偏好,并且使用了如下圖所示的平方損失函數:

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      值得一提的是,點開論文鏈接,你會發現原來 Yue Wu  和 Zhiqing Sun 同為這篇文章的第一作者。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      緊接著,他開始對 SPPO 技術進行解析:

      通過迭代求解上式中的 theta_t,我們可以得到一個與人類偏好對齊良好的語言模型。SPPO 使用勝率(紅色部分)作為獎勵,并用常數近似基線(藍色部分)。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      讓我們感興趣的是,我們發現它與 RLHF 目標的策略梯度有著深層的聯系:如果我們直接用普通的策略梯度優化 RLHF (人類反饋強化學習)目標會怎樣?根據策略梯度定理,策略梯度實際上也具有平方損失形式(藍色項是策略梯度中的基線):

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      從數學上,我們證明了 SPPO 的平方損失等價于普通策略梯度的一種半在線變體:

      SPPO 中的勝率充當獎勵函數(紅色部分)。

      分區函數項自然地成為(軟)值函數(藍色部分)。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      那么這到底意味著什么呢?

      標準策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循當前策略的樣本。

      SPPO 在每次迭代開始時只采樣一次,然后通過平方損失進行優化。

      這使得 SPPO 成為一種輕量級的 RLHF 方法——無需即時生成!

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      上述分析揭示了大型語言模型(LLM)后訓練階段一個有趣的發展趨勢:

      離線 DPO(IPO、KTO 等)取代 RLHF(獎勵模型 + 強化學習)

      迭代 DPO、SPPO 等方法將離線方法轉化為在線對齊方法

      更加精細的迭代 → 回歸到在線強化學習

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      鑒于 GRPO(Deepseek-R1)和平方損失(Kimi k1.5)的成功,端到端強化學習的強大作用愈發凸顯,或許在大型語言模型(LLM)后訓練階段無需額外技巧——價值函數、廣義優勢估計(GAE),甚至梯度裁剪都無需使用。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      另一個簡單但有趣的發現是,他們發現 SPPO 暗中在詞匯級別優化最優最大熵策略。其平方損失隱含地最小化了學習到的策略與最優詞匯級別策略之間的 KL 散度。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      在我們后續的研究 GPO 中,我們直接最小化相對獎勵與對數比率之間的平方損失。這兩項工作中的平方損失等價于策略梯度,但它是以迭代的方式進行的。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      SPPO 技術背后的科研大牛

      除了提出助力 Kimi k1.5 大獲成功的 SPPO 技術外,Wu Yue 也是一個學術背景很強的科研大牛。他本科期間師從北京大學的王立威教授,博士期間師從加利福尼亞大學洛杉磯分校的顧全全教授,目前以博士后研究員的身份在普林斯頓大學人工智能實驗室繼續著自己的科研之路。推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      除此之外,2023 年至今他一共參與發布了 9 篇 Paper,其中 3 篇均為第一作者。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      強大的學術背景之外,Wu Yue 的實習經歷也非常加分。2022 年至 2024 年,他分別在 NEC 美研院、字節美國 AI lab和 Meta 工作實習。在 NEC 美研院期間,Wu Yue 從事個性化聯邦學習研究,并開發了一種基于混合模型的方法,該方法被 ICML 2023 接受發表;在字節美國 AI lab 時,他專注于藥物發現領域的多構象生成,將分子動力學的物理先驗納入基于擴散的生成模型,相關成果被 ICML 2024 接受;來到 Meta 后,Wu Yue 又致力于詞匯級別獎勵建模和新架構設計,用于一般人類偏好和一般偏好優化,為生成式人工智能的發展做出了貢獻。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術雷峰網(公眾號:雷峰網)還了解到,與他同為第一作者的 Zhiqing Sun ,目前已經從 CMU 畢業,并在今年 2 月加入 OpenAI。

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      推特熱帖:k1.5 很牛,因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 欧美人与动zozo| 西西4444www大胆无码| 国产ssss在线观看极品| 妇女性内射冈站hdwww000| 中文字幕在线网址| 免费午夜无码片在线观看影院| 毛片免费观看天天干天天爽| 国产精品兄妹在线观看麻豆| 亚洲成a人v在线蜜臀| 久久成人18免费| 中文无码伦av中文字幕在线| 在线 国产 精品 蜜芽| 精品人妻无码一区二区三区性| 国产成人午夜高潮毛片| 海角社区91熟女丝袜脚国产| 日韩精品在线观看首页| 日本三级欧美三级人妇视频黑白配| 辉县市| 性生交片免费无码看人| 亚洲高清中文字幕| 国产大屁股视频免费区| 国产绿帽在线视频看| 精品免费在线视频| 亚洲国产精品久久久久4婷婷| 国模吧双双大尺度炮交gogo| 亚洲一本之道高清乱码| 偷拍专区一区二区三区| 久久久久久久久久久国产| 亚洲成人黄色| 国内精品久久人妻互换| 国产熟女精品视频| 天天躁日日躁狠狠躁欧美老妇小说| 青娱乐av| 日韩无码人妻中文| 中文字幕 日韩 人妻 无码| 色欲色香天天天综合网站免费| 91精品91久久久久久| 美女视频黄的全免费视频| 国模小黎自慰gogo人体| 亚洲国产精品一区二区WWW| 亚洲国产精品无码久久一区二区|