<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      業界 正文
      發私信給梁丙鑒
      發送

      0

      AIGCode 宿文:我就是要自訓練大模型,直接做“L5 ”| AI產品十人談

      本文作者: 梁丙鑒   2025-05-16 16:40
      導語:Coding 是培育大模型最好的場景。

      雷峰網(公眾號:雷峰網)訊 為甲方提供標準的產品,在使用過程中不斷迭代,如此循環往復,是軟件行業一種看起來可行的商業模式。但一項功能的迭代動輒兩三個月,隨著各種長尾的、定制化的需求不斷提出,代碼供給速度最終會成為飛輪上一把甩不掉的鎖。怎么砸開這把鎖,兩年前,這個問題成為了宿文的心病。

       

      上世紀 80 年代,以提升代碼供給效率為目標的低代碼和零代碼概念出現,可以說自從有 IT 產業以來,就有了取代程序員的訴求。宿文不是第一個這么想的人,不同的是,這一次大模型來了。

       

      人力是造成代碼供給效率、成本和質量不可能三角的源頭,但如果代之以算力,就有可能兼顧多快好省?!拔覀兊慕K極目標,就是在二進制的世界里做代碼供給。"宿文稱。大模型讓他看到了 Autopilot 的希望,決定把這件上一代沒完成的歷史使命,接到 AIGCode 的手中。

       

      產品之下,潛藏著宿文對于商業和技術閉環的思考。Coding 有著相對短平快的商業閉環,代碼數據又是高質量的訓練樣本,在 Coding 的場景下訓練自己的大模型,走向 AGI,然后讓用戶像 3D 打印那樣隨用隨取自己的 Personal App,這個故事讓他嚇走了不少投資人。

       

      宿文相信 Autocoding 就是 AGI。

       

      這家成立于 2024 年的公司,已經訓練出了一個 33B 的基礎模型,并基于該模型提供 AI Coding 產品。2024 年 7 月 5 日,其自訓練的錫月大模型正式發布。同年 11 月,AIGCode 開啟了全球代碼生成領域首個 LLM-native "autopilot" 自動編程產品 AutoCoder 的內測,該產品旨在幫助產品經理在零代碼條件下實現創意。

       

      要自己去做大模型的預訓練,他也必然面臨這些問題:技術上能否實現?訓練成本怎么解決?以及最重要的,會不會被 ChatGPT 這樣的通用大模型碾壓?

       

      宿文的回答很直接,也很誠懇。他不是什么產品天才,但是他堅信,AI 時代產品的迭代不再是簡單地改變一下 UI 和功能,AI 產品最終比拼的還是誰的“大腦”更聰明。

       

      以下是 AI 科技評論與宿文的對話全文,為方便閱讀,進行了不改變原意的文字調整。

       AIGCode 宿文:我就是要自訓練大模型,直接做“L5 ”| AI產品十人談

      Coding 就是實現 AGI 的最佳場景

       

      AI 科技評論:你之前做過程序員嗎?為什么想要做 AI Coding 類型的產品?


      宿文:我沒有做過程序員,但是我工科背景出身,學的就是工業信息化,在清華讀到博士,畢業后我在華創資本做了三年投資人,之后獨立創業,做了一家 SaaS 公司,幫助制造業企業實現數字化轉型。


      想做 AI Coding 類型的產品,起因是我在上一家公司的時候,發現了一個很難解的現象。作為一家 2B 的公司,我們為甲方工廠提供了很標準的 SaaS 產品,我們的原意是,他們可以在標準產品的基礎上去做迭代和場景化適配。但在實際工作過程中,我發現,這是個一廂情愿的想法。


      B 端的工廠也好,公司也好,他們有個性化的、長尾的、定制的、不斷迭代的需求,我們就要給他們不斷地提供售后服務,他們提出一個功能的需求,改幾周算少的,兩三個月都很正常,那改還是不改?不改,你失去這個客戶了,改了,你花的時間成本、人力成本怎么算?怎么在成本壓力下保證代碼質量?


      那時我就在想,有什么樣的辦法讓產品迭代變得又快又好?之前很難,大模型出現之后,我覺得,AI才是解決代碼供給不足最好的辦法。

       

      AI 科技評論:創業的想法是什么時候有的?


      宿文:23 年 7 月份開始有這個想法,開始和別人討論,10 月份這個想法大體上就定型了。24年1月底我與我們的 CTO 共同創辦了 AIGCode。那幾個月我想清楚了,我們這次要做的事情,本質就是找一個場景去做大模型。


      AI科技評論:我一直以為,AIGCode 是一家 AI Coding 的公司。難道你們是一家大模型公司嗎?


      宿文:我們的確是一家 AI Coding 的公司,做大模型是我們的最終追求。


      首先是在這次創業的思考中,我的第一個落足點在于,什么樣的場景可以通往 AGI。在我看來,陪伴聊天一定不是,聊天的語料數據,基本上對于提升模型智力沒有幫助。那個場景能沉淀下來啥?


      我也考察過其他的場景,法律、稅務、游戲、營銷,那個時間點上,大模型太熱了,各個行業都要垂直大模型,我們看到的是,不論是行業語料也好,還是成熟度也好,都遠遠達不到我內心中對于實現 AGI 的條件。你要知道,那時候還在 16 個月之前,當時的產品成熟度比現在差多了,國內用戶是很難接受的,商業上根本無法閉環。


      最后我們回歸到代碼上。從技術上來說,代碼是一個高質量的樣本,也是最主要的核算數據,從商業上來說,它也能實現短平快的閉環。程序員的優點是不罵街。Cursor 為什么能起來?程序員可能覺得現在的補齊率很低、采納率很低,但是他們還是會用,這就會形成一個比較健康的商業模式。


      所以我們選擇了代碼,通過代碼來做大模型。但是我們現在并不追求泛化能力,那是后半程才會去做的事情。

       

      AI 科技評論:國外的 Coding 公司里你最喜歡哪家?


      宿文:Cursor,他們對整個賽道的布局和判斷基本上跟大模型是同步的。Cursor 不是跟隨者,在判斷有 GitHub Copilot 的情況下,既能堅定地先改一套 IDE,還有自己的創新點,并且迭代速度快到能在大廠的車輪前搶錢,隨后又很快地意識到沒有自己的模型不行,開始碰模型這件事兒。我覺得 Cursor 在代碼補齊這個賽道上目前的思路還挺清晰的。

       

      AI 科技評論:你們創業有受到 Cursor 的影響嗎?


      宿文:有研究和參考,Cursor 給我們最重要的一個啟示,就是不要做他們那個方向。


      原因很簡單,首先 Cursor 服務于程序員,這就不是一個特別好服務的用戶群體。其次程序員一定會選擇全球最好的一款 Copilot 類產品,我們跟在 Cursor 后面,一定是晚的。另外更關鍵的問題是,Copilot 類產品最終要跟 IDE 打交道,未來怎么跟生態位上最大的公司微軟 PK,我一直沒想明白。我覺得初創公司與其解決這個問題,不如自己訓練大模型。


      Poolside 和 Magic 兩家公司在沒有發布任何產品的情況下,估值就達到了 30 億美金。Cursor 現在有很漂亮的 ARR 收入,但是之前估值都比 Poolside 低,一個很重要的原因就是它沒模型。硅谷的定價邏輯是為技術壁壘付費,做模型的公司估值就高。但話說回來,大模型這個事本身有壁壘,你做的有沒有壁壘是另外一回事?!?/p>


      復刻一個代碼補齊的產品,從生態到技術上都不太對。我們走的是一條更激進,或者說終結的道路。我們不做 Copilot,做 Autopilot。

       

      AI 科技評論:不做 Copilot,做 Autopilot,這是有什么原因嗎?


      宿文:Autopilot 其實應該說是幾代人的夢想了。上世紀 80 年代 IT 產業爆發的時候,就有了低代碼和零代碼概念,因為程序員貴,寫代碼慢啊。可以說是自從有了程序員,我們就想把“程序員”這個職業給干掉。那一代沒有把代碼供給的歷史使命完成,我們可以用大模型繼續做這件事。


      只要有人參與到寫代碼的事情中,就不可能做到多快好省。只有完全交給模型和算力,才能實現我們的終極目標:在二進制的世界里做代碼供給。

       

      AI 科技評論:既然已經有了終極目標,那你們的短期、中期和長期目標分別是什么?


      宿文:短期目標以今年年底為節點,從流量和收入層面,驗證這個“端到端的、能夠替代掉程序員的”產品的 PMF。Coding 的好處是沒有任何法規卡點,可以直接通過商業化進行迭代。我們的產品四月就要上線了,但最初兩個月的目標會是尋找死忠用戶迭代產品,從今年 Q3 開始,商業化數據才會成為運營團隊的 OKR。


      中期目標是打通軟件的生態。軟件已經是存量市場,眾多軟件沉淀下來的數據要供 Agent 調用,Agent 的底層是代碼供給,而大模型第一天生成出來的東西就是代碼。有時候大家在想大模型的 OS 是什么,其實就是能提供一整個生態的東西,這里的橋接點應該是一個有全鏈路能力的代碼生成。


      長期目標是實現 AGI。我認為以任何形式,能夠徹底實現 Autocoding 的,就是 AGI。


      短期先活下去,中期從今年年底開始算,用兩年左右的時間把生態位打通,再往后可能需要三五年的時間實現 AGI。

       AIGCode 宿文:我就是要自訓練大模型,直接做“L5 ”| AI產品十人談

      直接干 L5,做一件反共識的事情


      AI 科技評論:現在的產品思路是什么時候確定的?


      宿文:產品思路從創業第一天就是確定的,我現在還能翻出 23 年 11 月做的大紅色 PPT。只是在操作的過程中,我們試探過很多產品形態和技術方案,中間砍掉了很多不合理的版本。


      我們內部大概去年七八月份也做出了類似于 Lovable 的產品,認為它完全基于模型的能力,在這一點上我們比不過。如果當時停下來做補齊類產品的運營和迭代,這就完全變成了算 ROI 的生意,身后始終有一個東西追趕,會是很難受的狀態。另外從整個工程來說,它靠大模型從頭到尾寫源代碼,是沒有任何工程的,解決不了問題。所有這些都在說,補齊類產品不是一件 AIGCode 應該做的事。

       

      AI 科技評論:這個產品是第幾個版本了?


      宿文:第三個。其實目前還有兩個方案在并行。因為團隊成員都有自己的想法,而且都是沒見過的方案,沒到最后是驗證不出來的。兩個方案首先都要保證端到端,都是完整的 Autopilot 產品,剩下就是比拼靈活性,能不能實現各種復雜的問題。


      這兩個方案有很多可以共存的部分,需求人群的定位也比較趨同,但核心區別是底層架構的引擎。我感覺有點像是在設計一個預制菜工廠,要賣的食物到底是蔥花級別的,還是我把所有東西都做好裝袋子里,用開水熱一下就能吃,現在不知道什么方案的效率最高。架構是推演不出來的,或者推演出來最完美的那個架構實現成本太高。

       

      AI 科技評論:那大廠會不會也去做 Autocoding?


      宿文:會想,但能不能實現是另外一回事。Autocoding 產品跟模型緊耦合,模型要做很多優化才能實現,但大廠的模型團隊背的是補齊率,而不是這個 autopilot 產品優化所需要的稀疏樣本和特有樣本,不會支持大廠做這件事。我們在 Autocoding 上投入了 16 個月,大廠即使用資源優勢縮短一半時間,8 個月也足以拖垮一個團隊的 OKR。


      大廠有點能力的模型都能自然而然“長”出一個 Copilot,但做 Autopilot 會有不一樣的訓練要求,需要時間去做真正的創新。大廠的生態不會有幾萬程序員等著,一定要用這個產品才能保障業務安全,因此不存在戰略上的訴求。所以即使大廠有做 Autopilot 的想法,出于戰略和組織效率的考慮,也不會真的下場。

       

      AI 科技評論:你覺得 Cursor 會做嗎?


      宿文:大家的目標都是做 Autopilot。有人選擇從 L2 奔向 L5,有人覺得從 L2 跑不到 L5,直接做 L5。我們就是直接干 L5 的人,所有的技術都是為 L5 做儲備。(L1-L5 的概念來源于自動駕駛行業,在 AI 編程中,L1 是代碼補全,L2 是任務自動化,L3 是項目自動化,L4 是 AI 軟件工程師,L5 是 AI 開發團隊。編者注)

       

      AI 科技評論:在你的設想中,L5會是一個什么樣的場景?


      宿文:代碼里有幾乎所有的業務邏輯,那個時候的商業化場景就是 Personal App。App 就會變成用后即焚的軟件,生成一個只用一次就可以了。用戶有需要的時候就像 3D 打印那樣定制一個,不需要安裝很多軟件。

       

      AI 科技評論:你怎么說服別人相信你們的 PMF?


      宿文:沒法說服,要靠做。我就面對過投資人和行業交流遇到的友商,他們會直接說你們的產品做不出來。目前的模型能力,要么寫一段代碼補齊,要么只寫前端的代碼,你們要把數據庫、后端和前端一起做,做不出來。但好在我們內部的小鏈路即使bug百出,存在各種延遲,解決問題是大差不差的。


      Lovable 這類產品其實相當于在一個完整的軟件工程中,最多完成了 20%的工作量。剩下的 80%該不該解決?該。能不能解決?我們去解決。你說不行,那我們最終只能把產品推出來。

       

      AI 科技評論:那你第一步準備去哪找死忠用戶?


      宿文:Autopilot 的需求在整個用戶群里,只要在任何一個社區里面發一下鏈接就可以。我們在一家媒體的文章評論區加了一個內測鏈接,就涌進來好多人。其中有友商,也有感興趣嘗鮮的。這是國內的用戶,我還要拉海外的用戶。等產品上線,我還要去友商的社區里拉。友商有 80%的問題解決不了,我就不信所有人都只要那 20%。


      AI科技評論:怎么用一句話,讓潛在的用戶迅速理解你。


      宿文:雖然不是一句很有美感的話,我們就說得明白一點:我們是可以幫你把數據庫、后端和前端全部生成完的一個 App 或者應用生成的工具。

       

      AI 科技評論:對于你個人,創立 AIGCode 以來什么最困難?


      宿文:所有問題都挺困難的。我 23 年 10 月份定下的東西,從產品定位到做預訓練,都是反共識的。在 AIG 內部,我們是目標相同的一撥人在做事,但是我去協調外部資源,算力、投資,或者跟合作伙伴交流,有很多人會拆解我們這個東西。國內最主要的觀點就是,大家都是小作坊生意,就應該做應用。這個事情本身沒錯,但是跟你的認知和想做的事兒不是同一類。做事情的任何一個時間段,你始終要傳遞你的想法,傳遞就肯定會有比較大的阻力。


      AI 科技評論:目前有看到國內什么團隊可能和你們形成正面競爭嗎?


      宿文:所有大模型團隊,除了做特殊市場的,參與的都是全球的競爭。不論是 AI Coding,或者大模型的 token 調用,嚴肅付費群體都只給全球最好的那個掏錢。要么是同樣的效果,成本能夠做到最低,要么就是同樣的成本,效果能夠做到最好。今天這個時間點,大家還是只愿意為效果付費,而且還是給最好的付費。


      但這個賽道目前還是藍海,大家一旦看到,也會從不同方向殺進來。我們這一輪稀釋完也留了將近 40 點期權池,希望想做這件事的就別再另起爐灶,真有那兩把刷子,來這就是 founding member。

       

      模型要預訓練,產品要長“腦袋”

       

      AI 科技評論:現在的模型完全是自己預訓練的嗎?


      宿文:是我們自己預訓練的基模。其實我們 33B 的模型現在已經跑起來了,第二個階段會直接升到 66B。這也是 FP8 帶來的紅利,能夠讓訓練成本大幅度下降到 1/12。


      我們原來規劃的是,用 3100 萬,花將近 12 個月的時間把 33B 的模型迭代出來,現在只花 1095 萬用 3 個月以內的時間就能實現。時間是 1/4,成本是 1/3,所以我們只付出了 1/12 的代價就達到了同樣的效果。這個要感謝DeepSeek 在工程上做的貢獻。


      這個模型的聰明程度(我們一般會以 loss function 定義的收斂速度來判斷模型的聰明程度),和它的結構是超越 DeepSeek-V3 和 Claude 3.7 的。這個結果我們在跑預訓練之前就能預測到,因為早期網絡結構的特點我們全部驗證完了。煉丹嘛,不能等到把丹拿出來才知道有沒有毒,那是草臺班子的做法。

       

      AI 科技評論:你們從預訓練開始自研底座模型,這個過程中最關注什么?


      宿文:我認為整個大模型和大模型產品的技術源動力,還是預訓練。這一代產品最大的特點是它在生成內容,但今天模型的“大腦”還沒發育完全。有人說預訓練不重要,或者等這項技術成熟,但最后會發現生成內容的優化全都落在“大腦”上,這是很割裂的。


      我們關注模型的收益,你可以理解為一個人在造內容,預訓練就是解決他夠不夠聰明的問題。

       

      AI 科技評論:你們會針對代碼生成做特定的訓練嗎?


      宿文:會,但這是次要的,首要的問題還是做模型。我們的終局是 AGI,第一天做出的東西映射的也是 AGI 的泛化能力。單獨解決代碼生成這個事情,OpenAI 很早就嘗試過,Code-DaVinci、Text-DaVinci 用了大量的代碼樣本,但那個模型是用不了的。DeepSeek-Coder-V2,236B 參數,也用不了。這意味著模型的能力是均衡提升,不能通過樣本單方面提升。


      如果說特定訓練的邏輯是通的,那有了 80%法律的樣本是不是法律能力很強?稅務、營銷是不是依此類推,各個行業全都訓練一遍不就行了?其實不是的。產品能力會和樣本相關,但絕對不是某一類樣本堆出來的,還是要用稀疏樣本做訓練。單調回歸會映射到 loss function 的收斂效率上去,那個是唯一的衡量指標。

       

      AI 科技評論:自研模型成本高、耗費算力大,最終效果如果還不如 ChatGPT 這樣的大語言模型的話,是不是沒必要?


      宿文:這是典型的 Scaling Law 邏輯,要有人,要有卡,要有樣本。但是從 24 年到今天,手里拿著 10 萬張 H 系列卡,有著很龐大、高質量的樣本團隊,和很高效戰略的團隊,全球能數出來兩位數。但他們沒有給出過任何讓人興奮的、能說是走向 AGI 的東西。這個行業在到跳到一個臺階上之后,怎么跳到下一個臺階上?堆算力、樣本是有效的,但還有一種選擇不是靠算力和樣本堆砌出來的。


      如果商業模式是賣 token,讓大家調用你的 API,背后還有一個云,這樣完整地算賬,那這么做是巨頭最懶惰的戰略,但又是最正確的戰略。這個商業模式就是要堆樣本、堆算力,沿著 Scaling Law 來做,先干多少算多少?;谠诟鱾€行業堆砌的樣本,大家通過聊天式的交互會發現模型性能都還挺強的。但是在技術層,大家還是會去看網絡結構、loss function 是什么樣的。技術創新點才是跳上下一個臺階的方法。

       

      AI 科技評論:那你們有足夠的錢去做預訓練嗎?


      宿文:DeepSeek-V3 已經把預訓練成本降到了 600 萬美金,我們一方面不需要那么大的模型,另一方面 Infra 技術還在迭代,還有足夠多的創新。在我的技術認知里,如果訓練大模型實際上已經變成了 10 萬張 H100 才能做的事,那我們不可能去干。我選擇自己訓練,其實就是盤過口袋里的鋼镚,夠用。

       

      AI 科技評論:自訓練模型是不是正在成為做 AI 產品的必然趨勢?


      宿文:是,本質是因為必須想辦法做產品最主要的組成部分,生成東西的那個“腦袋”。另外反過來看,得到了用戶在商業場景的反饋之后,發現問題、迭代產品的時候都是去改造那個腦袋,然后你說那個腦袋是 AGI,我們等等它吧,那你的競爭力肯定是不夠的。產品的閉環,一定要有那個“腦袋”。


      雷峰網文章

       


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 中出内射颜射骚妇| 亚洲欧美国产五月天综合 | 精品久久人妻av中文字幕| 恭城| 国产成人久久精品二区三区 | 久久久久人妻精品一区三寸| 国产精品久久久| 黑人巨大精品欧美一区二区| 97人人澡| AV老司机AV天堂| 最近中文字幕完整版hd| 大香伊蕉在人线国产最新2005| 久久天天躁狠狠躁夜夜av| 92在线精品视频在线播放| 国产精品区免费视频| 中文字幕一二三产区区别| 尹人成人网| 亚洲AV日韩AV激情亚洲| 日韩 无码 偷拍 中文字幕 | 精品国偷自产在线视频99| 男女啪祼交视频| 国产精品第八页| 国产乱子伦无套一区二区三区| 亚洲天堂中文字幕| 亚洲另类色综合网站| 少妇被粗大的猛烈进出69影院一 | 一本色道久久88加勒比中文字幕| 中文字幕天无码久久精品视频免费| 亚洲精品日本久久久中文字幕| 无码熟妇人妻AV影音先锋| 一本色道久久综合无码人妻| 国产成人一区免费观看| 国产激情无码一区二区三区| 亚洲美女操| 亚洲乱色伦图片区小说| 精久视频| 本道久久综合无码中文字幕| 亚洲天堂自拍| 亚洲精品天天影视综合网| 91热爆| 日韩美女av二区三区四区|