核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

本文作者：余快

2024-04-25 22:52

導語：多模態大模型競爭，新添好戲。

大模型，不再僅僅是娛樂的工具，它正在變成解決日常問題的生產工具。

這是AI掘金志看完商湯最新發布的日日新5.0后的感慨。

在商湯最新推出的日日新5.0版本中，在語言、知識、推理、數學、代碼等領域的能力有明顯提升，在主流客觀評測上達到或超越GPT-4 Turbo。

作為文科生，日日新5.0在開放問答場景做了重點優化，在聊天、多輪對話、信息提取、寫作等場景達到業內領先水平。

作為理科生，日日新5.0的知識、數學、推理、代碼能力，與GPT-4 Turbo不相上下。

我們能直觀感覺到，多模態大模型在急劇變化。

行業和打工人的福音，要來了？

一、日日新·商量多模態5.0，開箱

商湯日日新多模態5.0，不僅能理解文本，還能處理文檔、圖表、截圖和照片中的內容。

既能跟你談詩詞歌賦，也能聊聊數理化，還能嘮嘮生活應用，有文科生的才華，也有理科生的縝密。

穿搭建議、食品分析、文案創作、烹飪建議等，在諸多日常場景下，它已經是一個“懂事”的日常助手。

文案創作（寫詩、寫作文、寫好評）是在行的

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

解釋表情包，它也懂梗圖

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

幫助辨別食物是否適用（健身減肥人士最愛）

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

圖片內容理解準確，還能根據環境判斷這是商業區

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

馬桶水箱醒花，花藝也略懂一些啦（花藝小白新的知識增加了）

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

廚藝好像也不錯

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

截圖內容理解準確且極為詳細

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

商湯日日新5.0的文生圖和文生視頻也不賴。比如文生大象中，商湯秒畫生成老象的效果更為自然，而友商中有出現三條腿的大象。

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

現場播放的三段視頻完全由大模型生成，效果逼真視頻，其實文生視頻中的人物、動作和場景的可控性非常難把握，但商湯文生視頻平臺依然保持視頻內容的連貫性和一致性。

二、多模態大模型「驚艷」的底氣

這一次，商湯的確讓人驚艷。

一切似乎在眨眼間，中國的大模型是從哪個步驟開始變得智能的？

上文都是多模態任務，多模態能力是AGI決勝之戰，也是中國彎道超車的關鍵一役，但這道城門頗為難攻。

多模態最大的挑戰，是不同模態之間存在語義鴻溝，這種語言理解的鴻溝，會讓一些重要的視覺信息缺失，例如物體形狀、空間關系、情感表征能力以及重合等。

比如，文生圖模型畫一個熊貓，難點在于，文字信號指示詞語，而視覺信號是像素點，而這層次結構不同，很難對齊，匹配要局部細節。此外，還有計算的效能、存儲等系列問題。

了解了這些，方能理解上文中展示的商湯多模態大模型的實力。

商湯為什么能在多模態大模型上跑得如此快？其實一直都有跡可循。

強大的算力供應、算法和數據

AI三要素，算力、算法、數據依然是入場券。

首先，強大的算力供應，是如今最稀缺，也最有競爭力的要素。

短短2年內，中國的大模型百家爭鳴，但作為一項強技術、強資源、強投入導向的技術，本質上是大廠的游戲。

具備強大的算力基礎設施的計算硬件集群、資源調度等能力，能夠更高效的利用計算資源、降低模型的邊際成本的企業，才有資格站在高處。

商湯是業內少有的算力供應大戶。

商湯從2017年、2018年起一直在AI基礎設施上進行了大手筆投入，這讓商湯AI大裝置SenseCore成為業內稀缺的大模型專用基礎設施，總算力規模達12000P。

其中，上海臨港AIDC全新升級后可輸出8400P算力，是國內最大的人工智能計算平臺。

擁有45000張GPU對外提供大模型訓練與推理服務，具備從“千卡千參”到“萬卡萬參”的大規模并行訓練的能力。此外，商湯AI大裝置SenseCore已完成58款國產芯片的適配與應用，國產化算力達1500P。

天下武功，為快不破，誰能更快優化技術，誰就能先一批找到商業化落地的大道。

模型迭代也取決于算力的供應。在訓練的階段，算力越大，可做出的模型就越大，更新迭代的速度就越快。

商湯在如此強大的算力供應下，能夠在7B、20B、100B各個模型檔位上都能以最快的速度迭代。

日日新沒有辜負這個名字。自2023年4月發布“日日新”以來，商湯大模型以2個月至3個月一個版本的速度快速迭代，在短短1年，就迭代了5個版本。

再看算法。

前文提到，多模態最大的挑戰是不同模態之間的語義鴻溝。

不同模態的布局和對齊，不是每個模態的數據清洗完，輸入進入就能運行。

模態越多，對齊就越難做。每個環節都需要對每個模態的數據充分的理解和大量的積累。

因此商湯在算法模型設計下足了功夫。

業內規模最大的視覺基礎模型，是谷歌220億參數大模型，用的是內部JFT數據，這個超大的內部積累的圖片數據量，業內難以匹敵。

商湯2023年下半年發布了一個60億大模型，僅用了四分之一的參數，就在典型的檢測分割等能力上與之看齊。

以大分辨率長圖為例，給到一些多模態窗口，因圖像分辨率太大，窗口無法識別，但商湯的模型給出了非常大的分辨率接口，能識別2K??1萬分辨率的圖片，這成為商湯多模態區別于與友商的核心。

能支持這么高的分辨率，是算法模型設計的功勞。

過去的路線，需要基于語言大模型基座，做視覺等多模態的整合訓練，把結果轉化成更高的維度，比如文本，再給到語言模型，所以也需要語言大模型有更強的認知理解能力。

過去的大語言模型只需要關注文本，多模態的數據分布、表達形式都不一樣，因此需要在模型設計上給更多的交互信息，這需要很精巧設計。

去年，商湯巧妙地設計預訓練模型來讓模型挖掘不同模態之間的關聯，將每一層信息帶入，并且做映射對齊，能力的提升直接體現在原生多模態大模型，能做到圖文、音頻、視覺抽取理解，得到了更強的提升和突破。

商湯算法模型設計精密相連的交互能力也很強。

商湯的一大優勢是底層互通，整個模型設計是一體的。

“不少公司的產品是單一的，圖文理解、文生視頻都分屬不同的團隊，互相之間沒有連通，可能最多調用了同一個工具，只是把這個文檔拷貝到另外一個工具里，交互性很弱。”

商湯科技研發高級總監盧樂煒表示，商湯的日日新商量5.0，同一個團隊，模型設計是一體的，交互能力有極大提升，能夠動態理解輸入的需求，理解圖片，并給到非常詳細的解釋。

再看數據。

AI領域十年，商湯落地了眾多行業，城市智能、商業、醫療、金融、自動駕駛，甚至在鋼鐵、煤礦、電力等工業場景，商湯在各個行業積累了大量的多模態數據。

「量」有了，「質」也要保證。

日日新5.0最重要的提升除了模型采用混合專家（MoE）之外，解決了數據質量的瓶頸。商湯在知識層面上采用超過10T的Tokens，使得高質量數據的完備性能夠得以保持。

除此之外，商湯還合成構造了思維鏈數據，這是真正意義上保障模型能力提升的關鍵。如果每一個行業思維鏈數據都能夠被輕松構造的話，推理能力就會大幅度提升，在這個過程中構造數千億的知識鏈數據，從而使得模型能力可以對標GPT-4 Turbo。

去年開始，商湯也建立了一個非常強大的數據處理引擎，每天可以處理超過兩萬億個token的數據清洗和蒸餾任務，這也讓大模型數據供應進行不斷地迭代，結合商湯獨特的算法設計去完成人工智能大模型算法、數據、算力三位一體的閉環。

多模態感知積淀

感知能力是多模態能力核心中的核心。

廢話不多說，直接上數據。

核心指標超越GPT-4 Turbo！商湯多模態大模型「開箱」

這個擁有超過千億參數的多模態大模型的圖文感知能力達到全球領先水平，具有全面知識系統，對現實世界的理解大幅提升。

不僅在多模態大模型權威綜合基準測試MMBench中綜合得分排名首位，82.3（超過GPT-4V的77），在多個知名多模態榜單MathVista，AI2D，ChartQA，TextVQA，DocVQA，MMMU也取得領先成績。

這不是一日之功。

多年前手機相冊的“去年今日”、“歡樂時光”功能，根據某一時段的一些照片設定一個主題，自動配樂生成一段專屬MV，這可能是“自動化生成視頻”最初的樣式。

而商湯科技創始人湯曉鷗可能是最早一批探索視頻生成的人之一。

2012年，在那個互聯網主要流行媒體還是音樂和圖像的年代，湯曉鷗以第一作者就創新性提出論文《自動音樂視頻生成：音樂和圖像的交叉匹配》，該論文也入選2012年的ACM Multimedia（世界多媒體領域最重要的頂級會議）。

當時的挑戰在于如何找到適配的圖像讓他們與歌曲對齊，團隊提出一個自動為給定歌曲生成音樂視頻的系統，以歌詞關鍵字作為查詢檢索互聯網中的相關圖像，并使用基于學習的方法來估計圖像和音樂片段之間的語義分數，自然語言處理技術在生成視頻中的作用開始顯露。

2014-2015年，商湯發布數據集CelebA，包含表情、情緒、長相、頭發等。這是引領生成模型發展的標桿數據集，催生了第一代GAN對抗生成網絡發展。

2019-2020年，商湯將視覺算法積累和GAN技術結合，啟動如影數字人研究，并推動文生圖的相關研究。

多模態需要數據組織理解能力，有多視覺信息、音頻、視頻的理解。其實，作為以計算機視覺智能起家，曾經的商湯有太多的光環和積累。

文生視頻和文生圖一脈相承，如今商湯的生成式AI領域持續迸發，得益于此前多年持續不斷地探索與積累。

商湯具備高清長圖的解析和理解以及文生圖交互式生成，還可以實現復雜的跨文檔知識抽取及總結問答展示，還具備豐富的多模態交互能力也不足為奇了。

完善的服務

此外，商湯的知識庫、知識融合、微調等服務能力也更一步完善。

多模態大模型5.0新增知識融合接口，可基于知識庫能力優化，大幅降低模型幻覺的出現。

商湯對行業知識進行系統的整理，每個行業大模型都會結合客戶知識、政策法規、前沿論文等梳理知識圖譜，形成豐富的、高時效性行業知識儲備。

在模型維度，研究團隊基于海量的圖文數據采用預訓練和監督微調的方式，可以處理多種類型的任務，包括常規的圖文任務和開放式的長尾任務。

此外，多模態大模型5.0還搭建了完善的服務流程，支持QA和純文本數據的知識庫外掛，并可實現PDF、Word文檔等格式輸入；外接多個embedding模型，可提供知識融合服務，并支持Prompt、SFT、Lora多種模型微調方法。

理論上，當一個人同時具備數個維度的能力，有戰斗力儲備，有高智力和成熟的思考能力、邏輯、擴展能力，如果他還懂各行業各業的知識，服務還強，他能做到“上知天文下知地理”。

一個頂級高手，背后是各種單點技能和底層實力的環環相扣。

三、通用AI和生成式AI的商湯路徑

當下的百模大戰，有一種混亂的激烈。

業內有大牛專家所言，目前的國產大模型有三類：原創大模型、套殼國外的開源大模型、拼裝大模型，即把過去的小模型們拼在一起，變成參數量看起來很大的“大模型”。

業內多數公司，都是后兩者，要么只有模型，沒有算力，要么有算力，但算力缺乏運營，大模型缺乏差異化。

進入大模型的商業化落地競爭年，明面上的白熱化大模型戰場，其實是原創大模型之爭。

沒有足夠強的技術積累、持續的高投入和工程化能力，商業化落地就是裸泳。

商湯似乎走出一條通用大模型的產業化路徑。不但有“大模型+大算力”的雙輪驅動下的大模型即服務，還有大模型的云、端、邊全棧布局。

2024年，百模大戰下半場，大參數、多模態、長文本百舸爭流，多模態的競爭更是按下了加速鍵。

也許在不久的將來，你可以打開電腦，輸入需求，大模型直接生成了PPT和文檔，如果你覺得不夠，你只需要說出需求，它就能不斷修改，比如某個圖表，怎么能畫得更好看。

生成PPT、生成影視作品分鏡頭、根據用戶需求直接寫代碼、生成程序......這些，是大模型研究團隊一直在努力的方向。

這份福利，未來日日新能帶給我們嗎，我們萬分期待。雷峰網雷峰網雷峰網(公眾號：雷峰網)

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

余快

創新3C主編

關注消費機器人和創新3C的一切，歡迎交流 | 微信：Yukuaikuaier

發私信

當月熱門文章

獨家 | 瑞沃微半導體完成數千萬元A輪融資