0
12月12日,中國權威的大模型評測平臺OpenCompass日前更新了榜單,阿里云通義千問登上開源基座大模型榜首,并在中文數據集評測中包攬前二。
圖說:通義千問72B登頂OpenCompass基座大模型榜
OpenCompass是上海人工智能實驗室開源的大模型評測平臺,涵蓋學科、語言、知識、理解、推理等五大評測維度,支持50余個數據集的評測,Qwen、LLaMA2等開源模型及GPT-4、ChatGPT等主流模型均參與評測,可全面評估大模型能力,是業界公認最權威的中文能力評測榜單之一。
通義千問72B開源模型(Qwen-72B),以67.1的綜合得分奪得OpenCompass基座大模型榜單冠軍,并在學科能力、理解能力兩大維度評測中超越標桿GPT-4,創下開源大模型的新紀錄。而在OpenCompass中文數據集評測中,通義千問72B基座大模型和對話大模型(Qwen-72B-Chat)包攬前二,與其他模型拉開差距。
圖說:通義千問72B基座大模型及對話大模型包攬中文數據集測試前二
據了解,自12月1日開源,通義千問72B即在10個權威基準評測中創下開源模型最優成績,幾天前力壓Llama2登頂全球最具權威性的HuggingFace排行榜,此次又登上OpenCompass榜首,通義千問72B已成為國內外公認的性能最強的開源大模型,完全可滿足企業級、科研級應用對大模型性能的高要求。
截至目前,阿里云已開源通義千問18億、70億、140億、720億參數的4款大語言模型,以及視覺理解Qwen-VL、音頻理解Qwen-Audio的 2款多模態大模型,開源模型系列總下載量超150萬,并涌現出150余款新模型和新應用。
為打造“AI時代最開放的大模型”,通義千問將持續投入開源,并為中小企業及全球開發者提供更便利的大模型服務:開發者可在阿里云魔搭社區直接體驗系列模型效果,也可通過阿里云靈積平臺調用模型API,或基于阿里云百煉平臺定制大模型應用;阿里云人工智能平臺PAI還針對通義千問全系列模型進行深度適配,推出輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務部署等服務。
雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。