<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給賴文昕
      發送

      0

      蘋果發布多模態模型 Ferret-UI,部分手機 UI 任務超越 GPT-4V

      本文作者: 賴文昕 2024-04-10 14:31
      導語:導語:手機廠商自研的端側模型功能,會超越純正的大模型團隊嗎?


      編譯 | 賴文昕

      編輯 | 陳彩嫻


      大模型的誕生,讓科技巨頭與創業公司們在新一輪的競賽中再次鳴槍出發,OpenAI、Anthropic、Mistral等創業之星的升起更是證明了在新技術的影響下,大廠并不存在絕對的優勢。

      不久前,蘋果叫停了啟動十多年且投入數十億美元的自動駕駛電動汽車項目,美國總部裁員了600多人,另有近2000名員工轉到AI部門。

      然而,在目前市場上的主流智能手機品牌中,蘋果幾乎是唯一一家尚未正式推出大模型的廠商。長期處在領頭羊地位的蘋果,似乎在大模型這一局中罕見地落后了。

      4月8日,蘋果發表了一個名為“Ferret-UI”的新工作,這是一個能“看懂”手機屏幕上并能執行任務的多模態模型,專為增強對移動端 UI 屏幕的理解而定制,配備了引用(referring)、定位(grounding)和推理(reasoning)功能。


      蘋果發布多模態模型 Ferret-UI,部分手機 UI 任務超越 GPT-4V

      論文鏈接:https://arxiv.org/pdf/2404.05719.pdf

      半年前,蘋果和哥倫比亞大學研究團隊聯合發布的多模態大模型“Ferret”就已具有較高的圖文關聯能力,而“Ferret-UI”則是更聚焦移動端、關注用戶交互。

      研究團隊認為,Ferret-UI 具備了解決現有大部分通用多模態大模型所缺乏的理解用戶界面 (UI) 屏幕并與其有效交互的能力。


      UI 任務表現超越GPT-4V

      將重點放在 UI 后,Ferret-UI 有何亮點呢?

      蘋果的團隊比較了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任務上的性能,并在高級任務上將開源的 UI 多模態模型 Fuyu 和 CogAgent 也納入對比之中。

      首先是基礎的 UI 任務性能測試。

      Ferret-UI 在大多數基礎 UI 任務上都展現出了優越的性能,尤其是在與iPhone相關的任務上,除了“查找文本”任務外,它在所有任務上都超過了Ferret和GPT-4V。

      蘋果發布多模態模型 Ferret-UI,部分手機 UI 任務超越 GPT-4V

      在OCR(光學字符識別)、圖標識別和控件分類等基礎 UI 任務上,Ferret-UI 的平均準確率分別為72.9%、82.4%和81.4%,遠超 GPT-4V 的平均準確率,后者分別為47.6%、61.3%和37.7%。

      在安卓任務上,GPT-4V 的性能顯著下降,特別是在定位任務上,這可能是因為安卓屏幕上的小部件更多且更小,使得定位任務更具挑戰性。

      值得一提的是,在OCR任務中,模型預測的是目標區域旁邊的文本,而不是目標區域內的文本。這對于較小的文本和非常靠近其他內容的文本來說很常見。

      而 Ferret-UI 卻能夠準確預測部分被切斷的文本,即使在OCR模型返回錯誤文本的情況下也是如此。

      蘋果發布多模態模型 Ferret-UI,部分手機 UI 任務超越 GPT-4V

      在查找文本、查找圖標和查找控件等定位任務上,Ferret-UI也展現出了優越的性能。

      而在高級 UI 任務性能的比拼中,Ferret-UI 同樣表現優秀。在詳細描述(DetDes)、感知對話(ConvP)、交互對話(ConvI)和功能推斷(FuncIn)等高級任務上,Ferret-UI 展現了與 GPT-4V 相當的性能,并且在某些任務上超過了GPT-4V。

      而與開源UI多模態模型 Fuyu 和 CogAgent 相比,Ferret-UI 在大多數任務上均實現超過。特別是在 iPhone 平臺上,Ferret-UI 的性能得分顯著高于 Fuyu 和 CogAgent。

      而且,盡管 Ferret-UI 的訓練數據集沒有包含特定的安卓數據,但它在安卓平臺的高級任務上仍表現出了可觀的性能,表明了模型具有在不同操作系統間的 UI 知識遷移能力。


      Anyres 技術解決屏幕長寬比各異難題

      那么,Ferret-UI 是如何做到在多項 UI 任務中表現出色的呢?

      Ferret-UI 的一個關鍵創新是在 Ferret 的基礎上引入了“任何分辨率”(any resolution,簡稱anyres)技術。這項技術是為了解決移動設備 UI 屏幕長寬比多樣化的問題而提出的。

      雖然 Ferret-UI-base 緊密遵循 Ferret 的架構,但 Ferret-UI-anyres 加入了額外的細粒度圖像特征,尤其是一個預訓練的圖像編碼器和投影層為整個屏幕生成圖像特征。

      對于根據原始圖像長寬比獲得的每個子圖像,都會生成額外的圖像特征;對于具有區域引用的文本,一個視覺采樣器會生成相應的區域連續特征。

      大型語言模型(LLM)則使用全圖表示、子圖表示、區域特征和文本嵌入來生成響應。

      蘋果發布多模態模型 Ferret-UI,部分手機 UI 任務超越 GPT-4V

      Ferret-UI-anyres架構

      不過,Anyres 技術有何特別之處?

      傳統的模型可能需要固定大小的輸入,但手機等移動設備的屏幕大小和長寬比各異,顯然給模型的輸入帶來了挑戰。

      為了適應這一點,Ferret-UI 將屏幕分割成多個子圖像,這樣可以對每個子圖像進行放大,從而捕捉到更多的細節。

      具體來說,對于每個基于原始圖像長寬比獲得的子圖像,都會生成額外的圖像特征。對于具有區域引用的文本,視覺采樣器會生成相應的區域連續特征。

      這種方法不僅適用于不同長寬比的屏幕,還提高了模型對UI元素的細節識別能力,能夠突出顯示屏幕上的小型對象,如圖標和文本,對于提高模型的識別和定位精度至關重要。

      另外,蘋果研究團隊還設計了一個分層次的實驗方法,從簡單到復雜,以逐步提升 Ferret-UI 模型的能力。

      從基礎的識別和分類任務開始,Ferret-UI 模型建立了對 UI 元素的基本理解,學會了識別和分類 UI 元素,為處理更復雜的任務打下基礎。

      接著逐步過渡到需要更高層次理解的對話和推斷任務。隨著模型能力的提高,任務變得更加復雜,要求模型不僅要識別 UI 元素,還要理解它們的功能和上下文。高級任務的設計為模型提供了必要的背景知識和理解能力,使其能夠處理復雜的UI交互。

      分層次的任務設計不僅有助于模型逐步學習,還能夠確保模型在面對更復雜的 UI 交互時具有足夠的背景知識和理解能力。通過這種方式,Ferret-UI 能夠更好地理解和響應用戶的指令,提供更加準確和有用的交互。

      從基礎的識別和分類到高級的描述和推斷,Ferret-UI 在面對真實世界中的UI交互時,能夠提供準確和有用的響應。再結合 anyres 技術處理不同分辨率的屏幕,進一步增強了其在實際應用中的有效性和用戶體驗。


      結語

      面對當下激烈的大模型“廝殺”,科技巨頭們亟需思考如何對市場戰略和產品進行與時俱進的布局,蘋果自然也不例外。

      無論是Ferret-UI、Ferret-UI的前身 Ferret 還是旨在改善與語音助手交互的ReALM,蘋果正一步步推進著能夠讀取屏幕信息的模型研究。

      Ferret-UI 能夠在移動設備上提供高質量的UI理解和交互,但它能否成為一個強大的工具,促使 iPhone 引入 AI,讓蘋果從稍顯落后的境地反超呢?

      讓我們拭目以待。


      雷峰網(公眾號:雷峰網)本文作者 anna042023 將持續關注AI大模型領域的人事、企業、商業應用以及行業發展趨勢,歡迎添加交流,互通有無。


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      蘋果發布多模態模型 Ferret-UI,部分手機 UI 任務超越 GPT-4V

      分享:
      相關文章

      資深編輯

      關注具身智能。
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产精品国产三级在线专区| 久久久久成人精品无码中文字幕| 鹤峰县| 五月花激情网| 中西区| 精品成人毛片一区二区| 高清美女视频一区二区三区| 男人的天堂av社区在线| 无码人妻精| 天堂色综合| 亚洲无av码一区二区三区| 久久久www影院人成_免费 | 少妇伦子伦精品无吗| 日本人妻伦在线中文字幕| 亚洲欧洲日产国码高潮αv| a级亚洲片精品久久久久久久| 熟女丝袜国产| 2021在线精品自偷自拍无码| 亚洲午夜无码极品久久| 精品成人中文无码专区| 成人麻豆日韩在无码视频| 亚洲精品久久久久久下一站| 99色色网| 国产精品一品二区三四区| 免费啪视频在线观看视频| 人妻中文一区| 日本毛茸茸的丰满熟妇| 久久99国内精品自在现线| 日韩激情成人| 女人天堂av| 运城市| 亚洲精品动漫免费二区| 一卡二卡三卡无码| 人妻激情偷乱一区二区三区| 少妇裸交aa大片| 99在线国内在线视频22| 18禁亚洲一区二区三区| 夜夜夜操| 国色天香中文字幕在线视频| 激情内射人妻一区二区| 一本色道无码DvD免费视频|