<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給王悅
      發送

      0

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      本文作者: 王悅   2024-11-22 10:39
      導語:LiveBench 榜單比拼,只有一家中國大模型進入前十。


      在大模型技術圈里,有一個獲得不少認同的說法:階躍星辰的底層基礎模型能力很強,甚至是幾家大模型公司中數一數二的。但其實,擁有這種看法的大多是足夠了解國內大模型能力現狀的人,對于圈子之外的人,無法直觀感受到這種潛移默化的底層硬實力。

      然而,在被譽為「世界上第一個不可玩弄的 LLM 基準測試」的 LiveBench 榜單中,階躍星辰給了行業一次強有力的沖擊。

      國際權威榜單 LiveBench 官網發布最新的榜單成績顯示,階躍星辰自研的萬億參數語言大模型 Step-2 在榜單中位列國產基座大模型第一,成績逼近 OpenAI 的 o1-mini-2024-09-12,超越GPT-4o-2024-08-06 、gemini-1.5-pro-002等國際主流模型,目前排在階躍前面的只有OpenAI 和 Anthropic。


      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      榜單鏈接:https://livebench.ai/

      本次榜單里,階躍是唯一進入榜單前十名的中國大語言模型,位列全球第五。同樣上榜的大模型公司還有通義千問和深度求索,均沒有沖進前十,分別位列第十三和第二十三名。

      在榜單中的多項測評標準中,Step-2 在 IF Average(指令跟隨)的表現上以 86.57 的分數排在第一,超越包括 o1-preview-2024-09-12 在內的所有國內外語言大模型。

      從 2024年3月發布國內首個由創業公司研發的萬億參數語言大模型預覽版 Step-2 ,到在中文大模型基準測評機構SuperCLUE 上登頂國內多模態大模型榜首,到本次在LiveBench 上獲得中國大模型第一,可以說,階躍星辰正在全力提升自身底層實力并且成效顯著。

      基于 Step-2 萬億參數大模型和 Step-1.5V 多模態模型能力,其 C 端產品躍問也隨之迭代,推出的通過圖像交互“即拍即問”功能“拍照問”,解決了文字和語音交互中難以準確描述的痛點,獲得用戶好評。目前,Step-2 已經接入躍問 APP 和網頁端(https://yuewen.cn),開發者可以在階躍星辰開放平臺,通過 API 接入使用 Step-2。


      一、LiveBench 測出的第一:含金量仍在上升

      Step-2 取得 LiveBench 國產大模型第一名——之所以這件事能證明階躍星辰的模型實力,是因為 LiveBench 本身具有含金量,不同于針對特定數據集進行訓練從而拿高分的定向考試。

      LiveBench 是由 AI 科學家楊立昆(Yann LeCun)聯合 Abacus.AI、紐約大學等機構聯合推出,提出了一種創新的基準測試方法,其中包含6大類18項任務,一向以權威性、客觀公正、全面評估而獲得業界認可。甚至把 “A Challenging, Contamination-Free LLM Benchmark” 放在官網最醒目的位置。

      并且為了避免大模型“作弊”,LiveBench 每月發布新問題,并根據最近發布的數據集、arXiv論文、新聞文章和 IMDb 電影簡介設計問題,以限制潛在的數據污染。LiveBench 也已評估全面著稱,可以從包括數學、推理、編程、語言理解、指令遵循和數據分析在內的多個復雜維度對模型進行評估,還能設計中立的評價體系以避免人類評價者受格式偏好和文風影響。

      根據過往的榜單情況來看,上榜者多為國外的科技巨頭,極少有國內的大模型能沖到排行榜前十,甚至大多難以上榜。2024 年到目前為止的每個月排名中,只有通義千問的開源大模型 Qwen2-72B 在 6月14 日發布的 LiveBench 的測評中上榜,排名位列第八。

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      令人驚艷的是, Step-2 的 IF Average(指令跟隨得分的平均值)指標碾壓所有在榜模型。指令跟隨衡量的是模型對語言生成細節的控制力,通常模型滿足限定要求,諸如必須遵守一項或多項指令,例如字數限制或在回答中納入特定元素。

      指令跟隨在文字創作上的表現會更加顯著,在生成高質量、有創意的文字內容的同時,Step-2模型能夠根據用戶的指令對文本進行精確地調整和優化,比如在創作古詩詞時,對字數、格律、押韻、意境都可以做到精準把握。

      例如,在躍問中輸入:寫一首主題為“愛而不得”的七言律詩,表達出相愛的人因為不能相互理解而走散,充滿對愛情無力、灰心的意境,得出的回答是:

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      這一段 prompt 明確要求輸出中國的古詩體、有規定字數、需要理解其背后的意境,輸出的結果符合要求,并且能主動做到押韻。

      不僅文學創作能考察指令跟隨能力,是否能夠一一應對一個復雜 prompt 的多項細節指令,也是衡量指令跟隨能力的較好方式。

      比如,向躍問提問:設計一個為期一周的社區環保活動計劃。活動計劃應包括每天的具體活動安排;確定至少三個不同的環保主題,如減少塑料使用、節約能源和垃圾分類;為每個主題設計一個互動環節,鼓勵社區居民參與,列出所需物資清單,并估算活動預算;描述如何通過社交媒體和社區公告板宣傳這次活動;考慮到不同年齡層的居民,設計適合兒童、成人和老年人的活動;確保活動計劃中包含安全措施和應對突發情況的預案。

      得到的回答是:

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      在這一大問題中,包含了八個子問題,躍問一個都沒有漏掉,足見其較強的指令跟隨程度。

      出眾的指令跟隨能力背后,必然是模型更強大的理解和推理能力在支撐。Step-2 具備出色的理解能力,能夠從上下文中推斷出用戶需求,精準捕捉用戶在模糊指令中的真實意圖,提供更準確、個性化的響應,把模糊指令讀得更清晰。

      除此之外,數據量也是 Step-2 能力強悍的關鍵因素。其知識覆蓋范圍和深度都取得顯著突破,不僅能夠處理常見領域知識,還能深入理解和回答在特定領域或邊緣分布中的復雜問題。


      二、階躍不止于萬億參數大模型

      開發出萬億參數模型,是各家大模型發展之路的一個里程碑。一年左右的時間內,號稱要發布萬億參數大模型的公司不下五家,但最終能真正發出來的卻寥寥無幾。

      今年 3 月,階躍星辰發布了 Step-2  語言大模型預覽版,這是國內首個由創業公司發布的萬億參數模型,很多成立時間更早、融資體量更大的公司都沒有成功發布。

      Step-2 萬億參數語言大模型采用 MoE 架構。可以說, MoE 架構是萬億參數模型現階段不可繞開的路,但階躍星辰在開發 Step-2  MoE 架構時候沒有采用相對成熟的 upcycle(向上復用)方案,走出對算力的需求低、訓練效率高的舒適區,轉而完全自主研發從頭開始訓練。

      通過部分專家共享參數、異構化專家設計等創新 MoE 架構設計, Step-2 中的每個“專家模型”都得到充分訓練,不僅總參數量達到了萬億級別,每次訓練或推理所激活的參數量也超過了市面上的大部分 Dense 模型。基于創新算法架構的 Step-2 萬億參數大模型,在數學、邏輯、編程、知識、創作、多輪對話體感全面逼近 GPT-4。

      在 Step-2 訓練過程中,階躍星辰系統團隊更是突破了 6D 并行、極致顯存管理、完全自動化運維等關鍵技術,具備領先的系統能力以支持高效訓練。

      然而,階躍的「星辰大海」遠不止于萬億參數的大語言模型。

      Step-1.5V 是階躍星辰 Step 系列里的多模態大模型,其視頻理解能力不僅能夠準確識別視頻中的物體、人物和環境,還能夠理解視頻的整體氛圍和人物情緒,因此被應用于各種視頻分析和處理任務,如視頻內容理解、視頻問答等。

      除此之外,Step-1.5V 也具有超強感知能力。通過創新的圖文混排訓練方法,Step-1.5V 能夠準確理解各類圖像、圖表、復雜圖文混排的長上下文內容及其邏輯關系,也能夠精準感知圖像中物體的復雜空間關系,甚至能夠處理高分辨率和極限長寬比的圖像。

      Step 系列中包括 Step-1X 圖像生成大模型。和大語言模型一脈相承,Step-1X 也具備了更強的深度語義對齊能力和細節生成能力與創新力。通過 Step-1V 大模型對高標準訓練圖像實施精細化標簽處理,可獲得高精度圖文配對數據,極大提升了語義匹配的準確度與深度,即使面對包含多個對象、詳細屬性、復雜邏輯關系的文本指令時,也能確保生成圖像與描述相符和。

      Step-1X 生成的圖像不僅具備豐富的細節和逼真的質感,還針對中國文化的深度優化,使得該模型在處理富含中國元素的內容時展現出獨特優勢,無論是傳統美學還是現代風尚,更能滿足國人獨特的審美需求。

      有了扎實的底層模型后,階躍星辰的產品開發應更加有底氣。在定位為智能助手的躍問中,加入了智能視覺搜索功能「拍照問」。「拍照問」能夠解決難以用語音和文字準確描述的問題,比如,拍一張今日晚餐,躍問就可以計算卡路里攝入;隨手拍各種物體圖片,躍問就能反饋正確的發音、例句。

      階躍星辰,贊71

      基礎模型加持下,階躍星辰的產品能力的想象力還會進一步延展。


      三、寫在最后

      階躍星辰創始人姜大昕曾表示,他期待的 AI 下一個里程碑有二:一是強化學習模型泛化能力的提升;二是視覺領域理解和生成的一體化。

      而今看來,階躍星辰距離里程碑的路程就在不遠處。登榜LiveBench 的首個國內萬億參數大模型、全鏈路自研 DiT 架構的Step-1X圖像生成大模型、具備超過行業平均理解能力的Step-1.5V多模態模型,都是腳下一步步朝上邁的臺階。雷峰網雷峰網(公眾號:雷峰網)雷峰網

      以通用大模型為目標,這家公司正在以階躍之力,奔赴星辰大海。



      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 久久99精品久久久大学生| 呼图壁县| 人妻久久精品天天中文字幕| 国产一区二区不卡在线| 亚洲综合成人一区二区三区| 在线观看精品自拍视频| 草草浮力地址线路①屁屁影院| 狠狠干天天撸| 亚洲爆乳精品无码一区二区三区| 国产中文在线| 国产亚欧女人天堂AV在线| 精品亚洲国产成人蜜臀av| 人妻少妇久久中文字幕| 国产丝袜AV| 亚洲最大成人小说网| 综合色一色综合久久网| 精品久久久噜噜噜久久久| 亚洲国产精品一区二区视频| 国产成人高清精品免费5388| 人妻换人妻仑乱| 男人的天堂av一二三区| 制服丝袜中文字幕在线| 国产夫妻自拍网| 精品国产一区二区三区四区| 人人操网| 乱人伦??国语对白| 色婷婷成人| 99国产视频在线观看| 一本无码在线观看| 国产高清国产精品国产专区| 97精品伊人久久久大香线蕉| 成年无码动漫av片在线观看羞羞| 性无码专区无码| 国产成人免费一区二区三区| 国产精品一线二线三线| 亚洲啊啊啊一区二区三区| 亚洲一区二区无码影院| 亚洲av狠狠爱一区二区三区| 色综合久久蜜芽国产精品| 中文字幕av久久波多野结| 成人h动漫精品一区二区无码|