<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      業界 正文
      發私信給小七
      發送

      0

      LongCat-Flash-Omni正式發布并開源:開啟全模態實時交互時代

      本文作者: 小七   2025-11-03 12:27
      導語:LongCat-Flash-Omni開源發布,5600億參數實現全模態低延遲交互。

      11月3日, LongCat-Flash系列再升級,全新家族成員LongCat-Flash-Omni正式發布并開源,LongCat官方App同步上線公測。目前,新App已支持聯網搜索、語音通話等功能,視頻通話等功能會稍后上線;Web端則增加圖片、文件上傳和語音通話等功能。

      LongCat-Flash-Omni正式發布并開源:開啟全模態實時交互時代

      據介紹,LongCat-Flash-Omni以LongCat-Flash系列的高效架構設計為基礎(Shortcut-Connected MoE,含零計算專家),集成了高效多模態感知模塊與語音重建模塊,在總參數 5600 億(激活參數 270 億)的龐大參數規模下,仍實現低延遲的實時音視頻交互能力,為開發者的多模態應用場景提供了更高效的技術選擇。

      新模型也是業界首個實現“全模態覆蓋、端到端架構、大參數量高效推理”于一體的開源大語言模型,首次在開源范疇內實現了對標閉源模型的全模態能力,并憑借創新的架構設計與工程優化,讓大參數模型在多模態任務中能實現毫秒級響應,解決行業內推理延遲的痛點。

      具體來看,LongCat-Flash-Omni在一體化框架中整合了離線多模態理解與實時音視頻交互能力,并采用完全端到端的設計,以視覺與音頻編碼器作為多模態感知器,由 LLM 直接處理輸入并生成文本與語音token,再通過輕量級音頻解碼器重建為自然語音波形,從而實現低延遲的實時交互。所有模塊均基于高效流式推理設計,視覺編碼器、音頻編解碼器均為輕量級組件,參數量均約為6億,延續了 LongCat-Flash 系列的創新型高效架構設計,實現了性能與推理效率間的最優平衡。

      LongCat-Flash-Omni正式發布并開源:開啟全模態實時交互時代

      ▲LongCat-Flash-Omni模型架構

      與此同時,新模型突破“大參數規模與低延遲交互難以兼顧”的瓶頸,在大規模架構基礎上實現高效實時音視頻交互:模型總參數達 5600 億(激活參數 270 億),卻依托 LongCat-Flash 系列創新的 ScMoE 架構(含零計算專家)作為 LLM 骨干,結合高效多模態編解碼器和“分塊式音視頻特征交織機制”,最終實現低延遲、高質量的音視頻處理與流式語音生成。模型可支持128K tokens上下文窗口及超 8 分鐘音視頻交互,在多模態長時記憶、多輪對話、時序推理等能力上具有優勢。

      全模態模型訓練的核心挑戰之一是 “不同模態的數據分布存在顯著異質性”,LongCat-Flash-Omni采用漸進式早期多模融合訓練策略,在平衡數據策略與早期融合訓練范式下,逐步融入文本、音頻、視頻等模態,確保全模態性能強勁且無任何單模態性能退化。

      LongCat-Flash-Omni正式發布并開源:開啟全模態實時交互時代

      綜合評估結果表明,LongCat-Flash-Omni在綜合性的全模態基準測試(如Omni-Bench, WorldSense)上達到了開源最先進水平(SOTA),并在文本、圖像、音頻、視頻等各項模態的能力位居開源模型前列,實現“全模態不降智”的結果:

      LongCat-Flash-Omni正式發布并開源:開啟全模態實時交互時代

      ·       ▲LongCat-Flash-Omni 的基準測試性能

      • 文本:LongCat-Flash-Omni 延續了該系列卓越的文本基礎能力,且在多領域均呈現領先性能。相較于 LongCat-Flash 系列早期版本,該模型不僅未出現文本能力的衰減,反而在部分領域實現了性能提升。這一結果不僅印證了該團隊訓練策略的有效性,更凸顯出全模態模型訓練中不同模態間的潛在協同價值。

      •  圖像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)與閉源全模態模型 Gemini-2.5-Pro 相當,且優于開源模型 Qwen3-Omni;多圖像任務優勢尤為顯著,核心得益于高質量交織圖文、多圖像及視頻數據集上的訓練成果。

      • 音頻能力:從自動語音識別(ASR)、文本到語音(TTS)、語音續寫維度進行評估,Instruct Model 層面表現突出:ASR 在 LibriSpeech、AISHELL-1 等數據集上優于 Gemini-2.5-Pro;語音到文本翻譯(S2TT)在 CoVost2 表現強勁;音頻理解在 TUT2017、Nonspeech7k 等任務達當前最優;音頻到文本對話在 OpenAudioBench、VoiceBench 表現優異,實時音視頻交互評分接近閉源模型,類人性指標優于 GPT-4o,實現基礎能力到實用交互的高效轉化。

      • 視頻理解:LongCat-Flash-Omni 視頻到文本任務性能達當前最優,短視頻理解大幅優于現有參評模型,長視頻理解比肩 Gemini-2.5-Pro 與 Qwen3-VL,這得益于動態幀采樣、分層令牌聚合的視頻處理策略,及高效骨干網絡對長上下文的支持。

      • 跨模態理解:性能優于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真實世界音視頻理解WorldSense 基準測試上,相較其他開源全模態模型展現出顯著的性能優勢,印證其高效的多模態融合能力,是當前綜合能力領先的開源全模態模型。

      LongCat-Flash-Omni正式發布并開源:開啟全模態實時交互時代

      • 端到端交互:由于目前行業內尚未有成熟的實時多模態交互評估體系,LongCat團隊構建了一套專屬的端到端評測方案,該方案由定量用戶評分(250 名用戶評分)與定性專家分析(10 名專家,200 個對話樣本)組成。定量結果顯示:圍繞端到端交互的自然度與流暢度,LongCat-Flash-Omni 在開源模型中展現出顯著優勢 —— 其評分比當前最優開源模型 Qwen3-Omni 高出 0.56 分;定性結果顯示:LongCat-Flash-Omni 在副語言理解、相關性與記憶能力三個維度與頂級模型持平,但是在實時性、類人性與準確性三個維度仍存在差距,也將在未來工作中進一步優化。

       


      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 日韩精品一区二区蜜臀av| 老太婆性杂交视频| 大同市| 依依成人精品视频在线观看| 懂色av,蜜臀AV粉嫩av| 亚洲欧洲精品成人久久av| 精品亚洲麻豆1区2区3区| 皋兰县| 欧美va天堂在线电影| www.大熟女| 蝴蝶谷成人网| AV最新高清无码专区| 久久人妻少妇精品系列| 成人做爰A片免费看网站找不到了| 天堂亚洲国产中文在线| 三男一女吃奶添下面视频| 国产精品久久久久三级| 一本无码中文字幕| 美女一区二区三区在线观看视频 | 男人的天堂在线视频| 一区二区丝袜美腿视频| 成人在线观看一区| 国产欧美日韩亚洲一区二区三区 | 亚洲va综合va国产va中文| japanese边做边乳喷| 国产成人亚洲综合网站小说| 国产福利微视频一区二区| 亚洲精品久久区二区三区蜜桃臀| 欧美成人秋霞久久aa片| 另类专区一区二区三区| 国产又色又爽又黄刺激视频| 贺州市| 97人人模人人爽人人少妇| 亚洲第一av网站| 日本无遮挡吸乳呻吟视频| 欧美第3页| 精品久久8x国产免费观看| 久久精品熟妇丰满人妻99| 大香蕉一区二区三区| 国产激情综合五月久久| 色吊丝av中文字幕亚洲?熟女|