^{<sub id="jgr5k"></sub>}

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

本文作者：二維馬曉寧

2024-04-15 12:29

導語：Mini-Gemini還提供了2B小杯到34B的超大杯，最強模型在多個指標上相比Google Gemini Pro甚至GPT-4V都不遑多讓。

更高清圖像的精確理解、更高質量的訓練數據、更強的圖像解析推理能力，還能結合圖像推理和生成，香港中文大學終身教授賈佳亞團隊提出的這款多模態模型Mini-Gemini堪稱絕絕子，相當于開源社區的GPT4+DALLE3的王炸組合！

Mini-Gemini還提供了2B小杯到34B的超大杯，最強模型在多個指標上相比Google Gemini Pro甚至GPT-4V都不遑多讓。目前，Mini-Gemini從代碼、模型、到數據已全部開源，登上了PaperWithCode熱榜。

Mini-Gemini線上Demo也已發布，超會玩梗，一起來體驗下！

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

Mini-Gemini Demo放出后受到廣大網友關注，一番“品嘗”后，他們認為Mini-Gemini跟商業模型差不了多少！

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

目前，絕大多數多模態模型僅支持低分辨率圖像輸入和文字輸出，而在實際場景中，許多任務都需要對高清圖像進行解析，并用圖像的形式進行展現。

如上圖所示，Mini-Gemini不僅能夠根據圖片對做面包的過程進行手把手教學，也能夠準確將不同電腦品種根據圖片中的各種參數進行對比。網友表示：媽媽再也不用擔心我的生活了。

更重要的是，Mini-Gemini在保留超強的圖像理解和推理能力的同時，還解鎖了圖像的生成能力，就如同ChatGPT和生成模型的結合。

下面，讓我們通過幾個例子來更直觀地感受這種能力：

案例分析：

還記得Google Gemini的官方演示視頻么？當用戶給出兩個毛線團并問出能用它們做什么時，Gemini可以識別出圖片內容并給出相應的建議。

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

當我們把相似的輸入給到Mini-Gemini，它會怎么回答呢？

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

可以發現，Mini-Gemini也可以識別出圖片中的元素，并且合理地建議，同時生成了一只對應的毛線小熊。

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

通過一些抽象的多模態指令來讓模型給出推理，并生成合適的圖片，這個操作就很像是ChatGPT和DALLE3的聯動了！

接下來讓Mini-Gemini做自己最擅長的推理和圖片理解，看看它表現：比如理解圖片中的矛盾點并舉一反三——輸入冰川中的仙人掌，它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片：

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

圖片呈現了仙人掌的典型棲息地與冰的存在之間的視覺矛盾，因為在沙漠環境中自然不會出現冰。這種矛盾的類似例子可能是一只北極熊出現在熱帶雨林中，因為北極熊適應于寒冷、覆蓋著冰的環境，在炎熱潮濕的氣候中無法生存。這種并置創造了一個引人注目且超現實的視覺效果，挑戰觀眾的期待，并可能引發人們對氣候變化、環境適應或不同生態系統融合的思考。

同時，正如ChatGPT+DALLE3的夢幻結合一樣，Mini-Gemini的“推理生成”功能還可以在多輪對話中通過簡單指令生成連環小故事。

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

比方說，讓它根據用戶輸入講一個貴族小老鼠的故事。Mini-Gemini會根據前文的文字生成結果和用戶輸入進行推理，在保持一致性的情況下對圖片進行修改，使其更符合用戶的要求。

當然，Mini-Gemini對于多模態模型的傳統技能圖片理解也不在話下。比方讓模型理解輸入曲線圖的數學意義（高斯分布），并讓它使用代碼復現這張圖，通過運行生成的代碼，模型可以高質量地還原曲線圖，節省了復現的時間。

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

又或者讓Mini-Gemini理解梗圖，通過其強大的OCR和推理能力，也可以準確指出笑點。

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

高清復雜的多圖表理解和歸納也是小菜一碟，Mini-Gemini直接秒變打工人效率提升的超級外掛。

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合

技術細節：

問題來了，Mini-Gemini是怎樣做到這種驚艷的效果呢？核心在于三點，(1) 用于高清圖像的雙編碼器機制，(2) 更高質量的數據， (3) 訓練階段結合生成模型數據拓展。

大道至簡，Mini-Gemini的整體思路并不復雜。其中的Gemini（雙子座）表達的是使用視覺雙分支的信息挖掘（Mining-Info in Gemini）解決高清圖像理解問題。

詳細來說，Mini-Gemini將傳統所使用的ViT當做低分辨率的Query，而使用卷積網絡(ConvNet) 將高分辨率的圖像編碼成Key和Value。使用Transformer中常用的Attention機制，來挖掘每個低分辨率Query所對應的高分辨率區域。從而在保持最終視覺Token數目不變的情況下去提升對高清圖像的響應，保證了在大語言模型 (LLM) 中對于高清圖像的高效編碼。值得一提的是，由于高分辨率分支卷積網絡的使用，可以根據需要對圖像所需的分辨率自適應調整，能夠遇強則強。對于圖像的生成部分，Mini-Gemini借助了SDXL，使用LLM推理后所生成的文本鏈接兩個模型，類似于DALLE3的流程。

生圖超級外掛！賈佳亞團隊提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸組合