蘋果發布多模態模型 Ferret-UI，部分手機 UI 任務超越 GPT-4V

本文作者：賴文昕

2024-04-10 14:31

導語：導語：手機廠商自研的端側模型功能，會超越純正的大模型團隊嗎？

編譯 | 賴文昕

編輯 | 陳彩嫻

大模型的誕生，讓科技巨頭與創業公司們在新一輪的競賽中再次鳴槍出發，OpenAI、Anthropic、Mistral等創業之星的升起更是證明了在新技術的影響下，大廠并不存在絕對的優勢。

不久前，蘋果叫停了啟動十多年且投入數十億美元的自動駕駛電動汽車項目，美國總部裁員了600多人，另有近2000名員工轉到AI部門。

然而，在目前市場上的主流智能手機品牌中，蘋果幾乎是唯一一家尚未正式推出大模型的廠商。長期處在領頭羊地位的蘋果，似乎在大模型這一局中罕見地落后了。

4月8日，蘋果發表了一個名為“Ferret-UI”的新工作，這是一個能“看懂”手機屏幕上并能執行任務的多模態模型，專為增強對移動端 UI 屏幕的理解而定制，配備了引用（referring）、定位（grounding）和推理（reasoning）功能。

蘋果發布多模態模型 Ferret-UI，部分手機 UI 任務超越 GPT-4V

論文鏈接：https://arxiv.org/pdf/2404.05719.pdf

半年前，蘋果和哥倫比亞大學研究團隊聯合發布的多模態大模型“Ferret”就已具有較高的圖文關聯能力，而“Ferret-UI”則是更聚焦移動端、關注用戶交互。

研究團隊認為，Ferret-UI 具備了解決現有大部分通用多模態大模型所缺乏的理解用戶界面 (UI) 屏幕并與其有效交互的能力。

UI 任務表現超越GPT-4V

將重點放在 UI 后，Ferret-UI 有何亮點呢？

蘋果的團隊比較了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任務上的性能，并在高級任務上將開源的 UI 多模態模型 Fuyu 和 CogAgent 也納入對比之中。

首先是基礎的 UI 任務性能測試。

Ferret-UI 在大多數基礎 UI 任務上都展現出了優越的性能，尤其是在與iPhone相關的任務上，除了“查找文本”任務外，它在所有任務上都超過了Ferret和GPT-4V。

蘋果發布多模態模型 Ferret-UI，部分手機 UI 任務超越 GPT-4V

在OCR（光學字符識別）、圖標識別和控件分類等基礎 UI 任務上，Ferret-UI 的平均準確率分別為72.9%、82.4%和81.4%，遠超 GPT-4V 的平均準確率，后者分別為47.6%、61.3%和37.7%。

在安卓任務上，GPT-4V 的性能顯著下降，特別是在定位任務上，這可能是因為安卓屏幕上的小部件更多且更小，使得定位任務更具挑戰性。

值得一提的是，在OCR任務中，模型預測的是目標區域旁邊的文本，而不是目標區域內的文本。這對于較小的文本和非常靠近其他內容的文本來說很常見。

而 Ferret-UI 卻能夠準確預測部分被切斷的文本，即使在OCR模型返回錯誤文本的情況下也是如此。

蘋果發布多模態模型 Ferret-UI，部分手機 UI 任務超越 GPT-4V

在查找文本、查找圖標和查找控件等定位任務上，Ferret-UI也展現出了優越的性能。

而在高級 UI 任務性能的比拼中，Ferret-UI 同樣表現優秀。在詳細描述（DetDes）、感知對話（ConvP）、交互對話（ConvI）和功能推斷（FuncIn）等高級任務上，Ferret-UI 展現了與 GPT-4V 相當的性能，并且在某些任務上超過了GPT-4V。

而與開源UI多模態模型 Fuyu 和 CogAgent 相比，Ferret-UI 在大多數任務上均實現超過。特別是在 iPhone 平臺上，Ferret-UI 的性能得分顯著高于 Fuyu 和 CogAgent。

而且，盡管 Ferret-UI 的訓練數據集沒有包含特定的安卓數據，但它在安卓平臺的高級任務上仍表現出了可觀的性能，表明了模型具有在不同操作系統間的 UI 知識遷移能力。

Anyres 技術解決屏幕長寬比各異難題

那么，Ferret-UI 是如何做到在多項 UI 任務中表現出色的呢？

Ferret-UI 的一個關鍵創新是在 Ferret 的基礎上引入了“任何分辨率”（any resolution，簡稱anyres）技術。這項技術是為了解決移動設備 UI 屏幕長寬比多樣化的問題而提出的。

雖然 Ferret-UI-base 緊密遵循 Ferret 的架構，但 Ferret-UI-anyres 加入了額外的細粒度圖像特征，尤其是一個預訓練的圖像編碼器和投影層為整個屏幕生成圖像特征。

對于根據原始圖像長寬比獲得的每個子圖像，都會生成額外的圖像特征；對于具有區域引用的文本，一個視覺采樣器會生成相應的區域連續特征。

大型語言模型（LLM）則使用全圖表示、子圖表示、區域特征和文本嵌入來生成響應。

蘋果發布多模態模型 Ferret-UI，部分手機 UI 任務超越 GPT-4V

Ferret-UI-anyres架構

不過，Anyres 技術有何特別之處？

傳統的模型可能需要固定大小的輸入，但手機等移動設備的屏幕大小和長寬比各異，顯然給模型的輸入帶來了挑戰。

為了適應這一點，Ferret-UI 將屏幕分割成多個子圖像，這樣可以對每個子圖像進行放大，從而捕捉到更多的細節。

具體來說，對于每個基于原始圖像長寬比獲得的子圖像，都會生成額外的圖像特征。對于具有區域引用的文本，視覺采樣器會生成相應的區域連續特征。

這種方法不僅適用于不同長寬比的屏幕，還提高了模型對UI元素的細節識別能力，能夠突出顯示屏幕上的小型對象，如圖標和文本，對于提高模型的識別和定位精度至關重要。

另外，蘋果研究團隊還設計了一個分層次的實驗方法，從簡單到復雜，以逐步提升 Ferret-UI 模型的能力。

從基礎的識別和分類任務開始，Ferret-UI 模型建立了對 UI 元素的基本理解，學會了識別和分類 UI 元素，為處理更復雜的任務打下基礎。

接著逐步過渡到需要更高層次理解的對話和推斷任務。隨著模型能力的提高，任務變得更加復雜，要求模型不僅要識別 UI 元素，還要理解它們的功能和上下文。高級任務的設計為模型提供了必要的背景知識和理解能力，使其能夠處理復雜的UI交互。

分層次的任務設計不僅有助于模型逐步學習，還能夠確保模型在面對更復雜的 UI 交互時具有足夠的背景知識和理解能力。通過這種方式，Ferret-UI 能夠更好地理解和響應用戶的指令，提供更加準確和有用的交互。

從基礎的識別和分類到高級的描述和推斷，Ferret-UI 在面對真實世界中的UI交互時，能夠提供準確和有用的響應。再結合 anyres 技術處理不同分辨率的屏幕，進一步增強了其在實際應用中的有效性和用戶體驗。

結語

面對當下激烈的大模型“廝殺”，科技巨頭們亟需思考如何對市場戰略和產品進行與時俱進的布局，蘋果自然也不例外。

無論是Ferret-UI、Ferret-UI的前身 Ferret 還是旨在改善與語音助手交互的ReALM，蘋果正一步步推進著能夠讀取屏幕信息的模型研究。

Ferret-UI 能夠在移動設備上提供高質量的UI理解和交互，但它能否成為一個強大的工具，促使 iPhone 引入 AI，讓蘋果從稍顯落后的境地反超呢？

讓我們拭目以待。

雷峰網(公眾號：雷峰網)本文作者 anna042023 將持續關注AI大模型領域的人事、企業、商業應用以及行業發展趨勢，歡迎添加交流，互通有無。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

賴文昕

資深編輯

關注具身智能。

發私信

當月熱門文章