0

作者:郭思
編輯:陳彩嫻
ChatGPT之前,國內最近一次的AI熱潮是以“AI四小龍”的發展為代表,但這些公司燒錢程度與落地產出的不匹配,令市場倍感失望。
時間來到2023年, 在ChatGPT 出來之后,市場再度火熱,視覺大模型公司也如雨后春筍般不斷涌現,據不完全數據統計,市面上現有的視覺大模型公司共有三十余家。淘金者前仆后繼,但相同的問題卻仍然存在。
部分入局者好大喜功,產品未經雕琢就推上市,拉高用戶期待值,結果在真正使用過程中,卻漏洞百出。
要想讓用戶對視覺大模型的聲音從嘆氣變為歡呼,似乎需要一場新的革命。
2023年,10月9日,美圖公司舉辦15周年生日會并發布自研AI視覺大模型MiracleVision(奇想智能)3.0版本。面世100天后,美圖AI視覺大模型MiracleVision3.0將全面應用于美圖旗下影像與設計產品,并將助力電商、廣告、游戲、動漫、影視五大行業。
在生日會現場,美圖CEO吳欣鴻不僅向與會者展示了美圖視覺大模型MiracleVision(奇想智能)3.0版本的效果,也對產品和整個行業給出了自己的思考和見解。
「現如今視覺大模型普遍在生成效果上、結果可控性以及適用范圍上還有很多待解決的問題。比如說對于成熟的大中型企業,他們對效果的精度要求很高。當前,大部分視覺大模型的生成效果與設計師的標準存在一定差距,甚至不少設計師會覺得AI味很重,一看就是生成的,很沒誠意。」
市面上的大部分視覺大模型都在卷數據量和參數量。但美圖認為,衡量能力的標準并非在追求參數指標,而是要抓住應用場景的核心需求,并且在商業模式上得到驗證。
意簡言賅,美圖想做的,是一個離用戶更近的大模型。
大模型熱度毋庸置疑,針對大模型產品發布的評測榜單也五花八門。
甚至有行業人士曾經就表示,現在市面上大家能看到的很多榜單數據背后很有可能是各家公司在前期調整過,刷榜現象是行業共識。
不顧實際效果的刷榜帶來的弊端十分明顯,這就像一個平日在學校只會迎合學校標準,而忽視了自己能力的「好學生」在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。
要想防止這種現象的頻繁發生,或許確得從根源思考,在評判標準上下功夫。
究竟什么樣的視覺大模型才是好用的?以什么樣的標準來評價?
美圖給出的答案是,榜單說的不算,吳欣鴻說的不算,只有設計師和用戶說好用,才是真正好用的大模型。
帶著這樣的理念,美圖視覺大模型最大的不同便是整個研發團隊由設計師主導。
美團視覺大模型負責人是設計師許俊,對于大模型效果的呈現有沒有在領域取得應用,作為設計師的他,標準非常高。
而對于整個美圖團隊而言,一切指令都以設計師的意見為先,當設計師說可以上,美圖視覺大模型就上,設計師說不能上,團隊就會繼續進行調整。加上設計師自己得時刻使用,對于模型實際體驗感肯定是最在意之人。
「他天天用我們的模型,我們的生成架構敢不快嗎?天天催?!?/p>
作為一家以美為基因的公司,美圖在美學上與用戶產生的深厚鏈接,足以讓美圖視覺大模型團隊以用戶體驗作為第一出發,進行大模型的評估,從而反推技術上的研發。
從實際效果上來說,在發布會現場,我們通過各類效果的對比,著實看到了美圖視覺大模型3.0的強大實力。

圖片由MiracleVision3.0生成,關鍵詞:新聞現場,1記者,專注的眼神,城市街道,高清分辨率,科技感,現代,自然光,金屬質地
以應用場景為例,身處傳媒行業或者廣告行業的小伙伴,都有過熬夜拼趕,花費巨大心力的設計稿發給「甲方爸爸」,卻因對方一個NO字,需要重新進行返工重做的經歷。
這其實和傳統的設計工作模式相關,一個設計師,在創意腦暴后,尋找情緒版給甲方參考,確認后再由設計師進行具體設計,中間需要與甲方反復溝通確認,最終交付作品,耗時耗力。
傳統的設計工作流,在創意腦暴后,尋找情緒版給甲方參考,確認后再由設計師進行具體設計,當然這中間需要與甲方反復溝通確認,最終交付作品。
美圖視覺大模型的出現,帶來了AI原生工作流。在創意腦暴后,AI能快速生成各種創意視覺供甲方確認,在確定最終創意后,再交由設計師與AI協同進行創意細化,很快能完成作品交付。

在具體的功能上,美圖將自研AI視覺大模型MiracleVision(奇想智能)的核心能力拆解為“奇思妙想”和“智能創作”兩大特性。
「奇思妙想」主要聚焦于輔助用戶提供創意方面,當用戶輸入關鍵詞,MiracleVision可自動補充相關表述,如光影效果、質感、風格、圖片質量等,讓即使沒有那么多年美術功底的普通用戶也能一鍵生成大片。
當然,如果用戶有更專業的需求,通過MiracleVision的「提示詞精準控制」功能也可以輕松實現「近景」、「遠景」、「順光」、「逆光」等生成效果。
在「智能創作」層面,MiracleVision通過「深化創作」功能,可以進一步豐富作品細節和提升表現力。通過「AI畫面擴展」功能讓作品尺寸更大、細節更豐富。通過「局部修改」功能,對部分畫面進行精準修改與調整。通過「分辨率提升」功能生成高清大圖,讓細節表現、色彩展示、物體辨識更加的精準和生動。

MiracleVision將落地電商、廣告、游戲、動漫、影視五大行業,希望能幫助五大行業「工作流提效」。
算力和數據、算法是大模型行業的三駕馬車。
盡管老生常談,但是這三個方面的基本功,卻決定著大模型能否走得扎實且長遠。
美圖2015年成立了美圖影像研究院(MT Lab),從那時起,便致力于影像技術的研發與探索。在算法方面,美圖影像實驗室擁有在近十年的經驗積累。
在算力方面,美圖聯合廠商合作,擁有雄厚的算力資源。在數據方面,美圖有專業的設計師標準的數據,數據集比較高質量。其次是有標注,除了設計師還有一些美院合作的專業人士幫我們標注,還有藝術家們幫助審核。
在三個月前,MiracleVision繪畫水平在前三個月其實還停留在一個初級階段,如今的3.0版本已經能描繪出真實細膩的畫面細節。

而從6月份美圖視覺大模型1.0發布到如今3.0上新,中間的每一步,美圖都有著自己的考量。
從0到1階段,美圖考慮更多的是如何搭建這個平臺,而在1.0版本發布后。高質量的數據集變成了美圖的關注重點。數據怎么來,質量怎么保證?
美圖的做法是,既然針對的是美學領域的視覺大模型,那集思廣益,采集最專業的數據,邀請外部設計師包括藝術院校的老師和學生一起去構建比較高質量的數據集,從而使得美圖在美學上達到比較好的狀態。
如今美圖視覺大模型3.0發布,如何保證效果的卓越?
第一點便是模型的可控性。不管是在細節的控制還是在局部的編輯都能達到用戶想要的效果,在模型的技術層面能達到一個很好的實現。
通用領域可控,那么一些十分專業的垂直領域,是否也同樣可控呢?
這一點也是美圖花費了大量心力去完善的地方,美圖視覺大模型3.0十分注重垂直領域的效果精致度。
美圖在發布會上坦言,如果做通用視覺大模型,把全網的各種圖片進行訓練,然后生成圖片,這個事情很好做。
但難的是細分到各個場景里,這些圖片不一定能用,比如電商細分下去分為特別多的品類,鞋子分運動鞋、帆布鞋、拖鞋。美圖技術團隊對各個垂直領域效果進行訓練、生成、調試,最后才得以在各個領域產生生產力。
擁有深厚美學功底的美圖呈現給大家的是非常文藝的文科生形象,但對產品精雕細琢,不斷內省的理科生思維,夯實了美圖的技術底座,也讓美圖的視覺大模型之路走得更加長遠。
視覺模型新一輪增長飛輪背后
新一輪AI大模型浪潮中,每個公司都想分一份羹,但對于視覺這個專精深領域,卻并不是所有公司都可以hold得住 。
什么樣的公司做視覺大模型會有優勢?
對于這個問題的答案,很多人第一反應很可能是擁有深厚學術背景的技術團隊。
但在美圖發布會現場,我們得到了一個全新的答案。
最懂視覺,與用戶打交道的公司做視覺大模型的優勢不可忽視。
大模型創業九死一生,巨大的成本投入是一方面,另一方面,沒有實際的應用場景也是創業成功道路上的攔路虎。再好的技術也得先活下來才有話語權。
大半年過去了,大模型浪潮大浪淘沙之下,存活下來的模型創意公司非常之少。最后只剩下比較成熟或者中型的公司存在,因為創業很關鍵的一點是做模型給誰用,給別人用的前提是中間要有一個應用層作為輔助和支撐。沒有這些,那么創業團隊需要從0開始推廣應用,如果無法短時間獲得成效,風險巨大。
而對于美圖而言,這個問題并不存在。
擁有強大用戶規模的美圖已經擁有了現成的應用場景。模型研發-發布-應用-用戶反饋-調整,閉環已經形成。
「我們所謂的增長飛輪,能夠越推越好,這個是非常關鍵的,也是美圖過去15年的厚積薄發在大模型時代的體現。」
對于美圖視覺大模型3.0,美圖團隊給予它的期待是在可控性上持續發力。

而看向更長遠的未來,在吳欣鴻看來,視覺大模型應用普及將經歷三個階段:2024年之前為探索期,2024-2025年為高速發展期,2026-2030年為成熟期,隨著視覺大模型在生產端的應用走向成熟,視覺大模型將助力千萬設計場景,引領美學的升級與社會經濟增長。
在這股競爭之潮中,當被問及深耕視覺領域的美圖對自己的角色定位是什么時,吳欣鴻面帶微笑,目光一如15年創立美圖之初那般堅定,緩緩答道:
「相比起在同業競爭里面獲得多大的地位,我們更加注重用戶體驗,以及自身能力的不斷提升,即使是對標也是去對標我們認為全球最領先的產品,我們要一點點去接近乃至超越,因為對我們來說,視覺大模型的競爭才剛開始,做,是第一要義。」
雷峰網 雷峰網 雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。