硅谷2025的AI 答案:60條關鍵洞察
今年年初,我在硅谷負責參與組織了錦秋的Scale With AI的活動,5天的時間大概組織了超過100人參與這次的活動分享。
活動期間估計到場過三四百人,其中大部分都是研究員、創業者、投資人。既包括了:A16Z、Pear VC 、Soma Capital、Leonis Capital 、Old Friendship Capital、知名大廠戰投 的投資人;也包括了OpenAI、xAI 、Anthropic、Google、Meta、Microsoft、Apple、Tesla、Nvidia、ScaleAI、Perplexity、Character.ai 、Midjourney、Augment、Replit、Codiuem、Limitless、Luma、Runway等公司的研究員。
期間的一些交流,對于我自己理解行業的發展現狀還是很有幫助的,因此也做了一些整理。
AI正在重塑世界的未來,而硅谷無疑是這場變革的核心引擎。 這一點毫無疑問。硅谷寬松的創新氛圍和資本環境,還會繼續引領這一波的產業浪潮。
但在現場,心里還有另一種更直觀的感受,那就是:
重塑世界的力量不在硅谷,而在一代中國從業者的努力中。
對 LLM 來說,Pre-training 的時代已經基本結束
1、LLM?的 pre-training 階段已經接近瓶頸,但 post-training 還有很多機會
Pre-training 階段,Scaling 是變慢的,離飽和還有一定時間。
放緩的原因:結構>算力>數據 (Single-Model) 。
但是在 Multi-model 上:數據=算力>結構。
對于 MultiModel 而言,需要在多個模態上選擇組合,Pre-training 在現有架構下可以認為已經結束了,但是可以改新的架構。
現在在 Pre-training 投入少的原因,更多是在于資源度有限,做 Post-training 的邊際效益會更高。
2、Pre-training 和RL關系
Pre-training 不太在乎數據質量。
Post-training 對數據質量要求較高,但是由于算力限制,到最后幾個部分給高質量的數據。
Pre-training 是 imitation,只能做到模仿的事情。
RL 是創造,可以做到不同的事情。
先有 Pre-training,才有 Post-training 中的 RL,模型得有基礎能力,RL 才能有的放矢。
RL 不改變模型的智力,更多是思考的模式。比如,在 C.AI 用 RL 優化 Engagement 效果很好。
3、大模型優化會影響產品的能力
一般主要在 post training 部分,幫助做很多 Safety,比如解決 C.AI 在兒童自殺的問題上,會根據不同人群、不同歲數的情況,用不同的模型來服務。
其次是 Multiagent 的 framework。模型會思考為了解決這個問題要怎么做,然后分給不同 agent 去做,每個 agent 做完后,再服務 task,最后結果優化。
4、一些非共識明年可能成為共識
沒有必要所有都要上大模型,之前有很多很好的小模型,可能沒有必要再做一個模型。
現在的大模型,1 年后就變成小模型。
Model 架構可能變化。Sacling law 已經到了,未來要討論的問題,知識模型解耦,可能速度會比較快。
5、LLM 領域隨著 Scaling law 到頭,閉源和開源差距縮小
6、大模型生成數據然后訓練小模型是可行的,反過來比較難
合成數據和真實數據的區別主要是質量問題。
也可以用各類數據拼湊合成,效果也很好。pretraining 階段可用,因為對數據質量要求不高。
7、 對 LLM 來說 pre training 的時代已經基本結束了
現在大家都在談 Post training,對數據質量要求高。
8、Post training 團隊建設
理論上團隊規模:5 人足夠 (不一定全職) 。
一人搭建 pipeline (infrastructure) 。
一人管數據 (數據效果) 。
一人負責模型本身 SFT (科學家/讀 Paper) 。
一人負責產品對模型編排做判斷,收集用戶數據。
AI 時代產品和 UI,Post training 優勢,AI 彌補產品和 UI 了解,開發豐富,不被 AI 帶偏。
9、數據 pipeline 構建
數據循環:數據進入 pipeline,生成新數據回流。
高效迭代:數據標注結合 pipeline 和 AB testing,結構化數據倉庫。
數據輸入:高效標注和豐富用戶反饋,構建護城河。
初始階段:SFT (不斷重新 Loop 到這個階段) 。
后續階段:RL (分化出來比較重的 RLFH) ,打分指導 RL,DPO 方法易崩,SFT 簡化版 RL。
視頻模型的 Scaling Law,瓶頸還很早
1、視頻生成還在 GPT1 和 2 的時間點
現在視頻的水平接近 SD1.4 的版本,未來視頻會有一個和商用性能差不多的開源版本。
當前的難點是數據集,圖像是靠 LIAON 數據集,大家可以去清洗,視頻上因為版權等問題沒有那么大的公用數據集,每一家如何獲取、處理、清洗數據會產生很多不同,導致模型能力不同,開源版本的難度也不同。
DiT 方案下一個比較難的點在于如何提升物理規律的遵循,而不只是統計概率。
視頻生成的效率是卡點。目前要在高端顯卡上跑挺久,是商業化的障礙,也是學術界在探討的方向。
類似 LLM 雖然模型迭代速度在放緩,但應用沒有放緩。從產品角度, 只做文生視頻不是一個好的方向,相關的偏剪輯、創意的產品,會層出不窮,短期內不會有瓶頸。
2、面向不同場景選擇不同的技術棧會是一個趨勢
Sora 剛出來大家都認為會收斂到 DiT,但實際上還有很多技術路徑在做,例如 based on GAN 的路徑,以及 AutoRegressive 的實時生成,比如最近很火項目 Oasis,還有把 CG 和 CV 結合去實現更好的一致性和控制,每一家都有不同的選擇,未來面向不同場景選擇不同的技術棧會是一個趨勢。
3、視頻的 Scaling Law 遠達不到 LLM 的級別
視頻的 scaling law,在一定范圍內有,但遠達不到 llm 的級別。現在最大級別的模型參數也就是 30b,30b 以內證明是有效的;但 300b 這個量級,就沒有成功案例。
現在技術方案是收斂的,做法沒有大不同。不同最主要是數據上、包括數據配比。
會有 1~2 年才能達到 DiT 技術路線的飽和。DiT 路線很多可以優化的地方。更高效的模型架構,是非常重要的。以 LLM 為例,一開始大家都在往大了做,后面發現加 MOE 和優化數據分布后,可以不用那么大的模型去做。
需要投入更多研究,一味 scale up DiT 非常不高效。視頻數據如果把 YouTube、TikTok 都算上,數量非常大,不可能都用于模型訓練。
現階段開源方面的工作還比較少,尤其是數據準備方面的開源工作,各家的清洗方式都有很大的差異性,而數據準備過程對最終效果有很大的影響,所以其中可優化的點還很多。
4、提升視頻生成的速度的方法
最簡單的就是生成低分辨率、低幀率的畫面。最常用的是步數蒸餾,diffusion 推理的時候是有步數的,目前圖像生成至少還需要 2 步,如果能蒸餾到 1 步推理,就會快很多。最近也有一個論文,做一步生成視頻,雖然現在只是 poc,但值得關注。
5、視頻模型迭代的優先級
其實清晰度、一致性、可控性等都沒有達到其他飽和,還沒有到提高一部分犧牲另一部分。是目前在 Pre-training 階段同步提高的階段。
6、長視頻生成提速的技術方案
能看到 DiT 能力極限在哪,模型越大、數據越好,生成的清晰度更高、時間更長、成功率更高。
DiT 模型能 scale 到多大,是目前沒有答案的。如果到一定尺寸出現瓶頸,可能會有新的模型架構出現。從算法角度,DiT 做出一個新的推理算法,來支持快速。比較難得是怎么在訓練的時候把這些加上。
現在模型對物理規律的理解是統計意義上的,數據集看到過的現象能夠一定程度上模擬,不是真的懂物理。學術界有一些探討,例如通過一些物理規則到視頻生成里去。
7、視頻模型和其他模態的融合
會有兩個方面的統一:一是多模態的統一,二是生成和理解的統一。對于前者,表征要先統一。對于后者,文本和語音都是可以統一的,VLM 和 diffusion 的統一目前認為效果是 1+1<2。這個工作會比較難,不一定是因為模型不夠聰明,而是這兩個任務本身就是矛盾的,如何達成精巧的平衡是一個復雜的問題。
最簡單的想法是都 tokenize 之后放到 transformer 模型里,最后統一輸入輸出。但自己的個人經驗是做單個特定的模態比把所有的融合在一起效果會更好。
工業實踐上大家不會放在一起去做。MIT 最新的論文潛在說明如果把多模態都統一的話效果有可能會更好。
8、視頻模態的訓練數據其實還有很多
視頻數據其實很多,怎么樣高效地選擇出高質量數據比較重要。
數量取決于對版權的理解。但算力同樣是瓶頸,即便有那么多數據,也不一定有算力去做,尤其是高清的數據。有時候需要基于手頭有的算力去反推需要的高質量數據集。
高質量數據一直都是缺的,但即便有數據,很大的問題是大家不知道什么樣的圖像描述是對的,圖像描述要有哪些關鍵詞。
9、長視頻生成的未來在于故事性
現在的視頻生成是素材的。未來是故事的,視頻生成是帶有目的的。長視頻不是時間有多長,而是故事性。以任務的形式。
視頻編輯的話,速度會高一些。因為現在一個卡點是速度太慢?,F在都是分鐘級 (生成幾秒) 。這樣即使有好算法,也不可用。 (編輯不是指剪輯,而是 image 的編輯,比如換個人,動作,這樣的技術是有的,問題就是速度慢,不可用)
10、視頻生成的美學提升主要是靠 post training
主要是靠 post training 階段,比如海螺,大量用影視數據。真實度的話是基模能力。
11、視頻理解兩個難點是 Long context 和 Latency
12、視覺模態可能不是更好的通向 AGI 的最好的模態
文字的模態——也可以把文字改成圖片,然后變成視頻。
文字是通往智能的捷徑,視頻和文字之間的效率差距是幾百倍。
13、語音模型上端到端是很大的進步
不需要人為對數據做標注和判斷,可以做到精細的情感理解和輸出。
14、多模態模型還在很早期階段
多模態模型還在很早期階段,給前 1 秒視頻 predict 后面 5 秒已經很難了,后面加入 text 可能會更難。
理論上視頻和文字一起訓是最好的,但是整體做起來是很難的。
多模態目前不能提升智力,但是未來也許是可以的,壓縮算法可以學習數據集的關系,只需要純文字和純圖片的數據,出來之后就可以做視頻和文字相互理解。
15、多模態的技術路徑還沒有完全收斂
Diffsion model 質量好,目前的模型結構還在不斷再改;
Alter agreesive 邏輯好。
16、不同模態的對齊,現在還沒有形成共識
video 是離散還是連續的 tokens 都沒定下來。
現在高質量對齊的還沒有很多。
目前也不知道是科學問題和工程問題。
具身智能:完全具備人類泛化能力的機器人,在我們這代可能無法實現
1、具身機器人尚未迎來類似ChatGPT的“關鍵時刻”
一個核心原因在于, 機器人需要在物理世界中完成任務,而不僅僅是通過虛擬語言生成文本。
機器人智能的突破需要解決“具身智能” (Embodied Intelligence) 的核心問題,即如何在動態、復雜的物理環境中完成任務。
機器人的“關鍵時刻”需要滿足以下幾個條件:
通用性:能夠適應不同任務和環境。
可靠性:在真實世界中具有較高的成功率。
可擴展性:能通過數據和任務不斷迭代和優化。
2、這一代機器學習解決的最核心的問題就是泛化
泛化是 AI 系統從訓練數據中學習規律,并應用到未見過的數據上的能力。
泛化有兩種模式:
插值 (Interpolation) :測試數據在訓練數據分布范圍內。
外推 (Extrapolation) 的難點在于訓練數據是否能夠很好地覆蓋測試數據,以及測試數據的分布范圍和成本。這里“cover”或“coverage”是關鍵概念,指的是訓練數據能否有效涵蓋測試數據的多樣性。
3、視覺任務(如人臉識別、物體檢測)多半屬于插值問題
機器視覺的工作主要是模仿生物的感知能力,理解和感知環境。
機器視覺模型在某些任務上 (如貓狗識別) 已經非常成熟,因為有大量相關數據支持。然而,對于更復雜或動態的任務,數據的多樣性和覆蓋范圍仍是瓶頸。
視覺任務 (如人臉識別、物體檢測) 多半屬于插值問題,模型通過訓練數據覆蓋大多數測試場景。
但在外推問題上 (如全新角度或光照條件) ,模型能力仍有限。
4、這一代機器人泛化的難點:大部分情況屬于 extrapolation 情形
環境復雜性:家庭環境、工業環境的多樣性和動態變化。
物理交互問題:例如門的重量、角度差異、磨損等物理特性。
人機交互的不確定性: 人類行為的不可預測性對機器人提出了更高的要求。
5、完全具備人類般泛化能力的機器人在當前乃至未來的一代人中可能無法實現
機器人要在現實世界中應對復雜性和多樣性,難度極高?,F實環境中的動態變化 (如家庭中的寵物、小孩、家具擺放等) 使得機器人很難做到完全泛化。
人類本身并不是全能的個體,而是通過分工合作在社會中完成復雜任務。機器人同樣不一定追求“人類級別”的泛化能力,而是更專注于某些特定任務,甚至實現“超越人類”的表現 (如工業生產中的效率和精度) 。
即使是看似簡單的任務 (如掃地或做飯) ,由于環境的復雜性和動態性,其泛化要求也非常高。比如掃地機器人需要應對千家萬戶不同的布局、障礙物、地面材質等,這些都增加了泛化的難度。
那么,機器人是否需要任務聚焦 (Pick Your Task) 。比如,機器人需要專注于特定任務,而不是追求全面的人類能力。
6、斯坦福實驗室的選擇:聚焦家庭場景
斯坦福的機器人實驗室主要聚焦于家庭場景中的任務,尤其是與老齡化社會相關的家務機器人。例如,機器人可以幫助完成疊被子、拾取物品、開瓶蓋等日常任務。
關注原因:美國、西歐以及中國等國家都面臨嚴重的老齡化問題。老齡化帶來的主要挑戰包括:認知功能退化:阿爾茨海默癥 (老年癡呆) 是一個廣泛存在的問題,95 歲以上人群中約有一半患有此病。運動功能退化:例如帕金森癥、ALS 等疾病導致老年人難以完成基本的日常操作。
7、基于特定場景定義泛化條件
明確機器人需要處理的環境和場景,例如家庭、餐廳或養老院。
明確場景后,可以更好地定義任務范圍,并確保在這些場景中涵蓋可能出現的物品狀態變化和環境動態。
場景調試的重要性:機器人產品的調試不僅僅是解決技術問題,而是要涵蓋所有可能出現的情況。例如在養老院中,機器人需要處理多種復雜情況 (如老年人行動緩慢、物品擺放不固定等) 。通過與領域專家合作 (如養老院管理者、護理人員) ,可以更好地定義任務需求并收集相關數據。
現實世界中的環境不像工業流水線那樣完全可控,但可以通過調試使其“已知” (known) 。比如,定義家庭環境中常見的物體種類、擺放位置、動態變化等,在仿真和真實環境中覆蓋關鍵。
8、泛化與專用的矛盾
通用模型與特定任務模型的沖突:用模型需要具備強大的泛化能力,能夠適應多樣化的任務和環境;但這通常需要大量的數據和計算資源。
特定任務模型更容易實現商業化,但其能力受限,難以擴展到其他領域。
未來的機器人智能需要在通用性和專用性之間找到平衡。例如,通過模塊化設計,讓通用模型成為基礎,再通過特定任務的微調實現快速適配。
9、具身多模態模型的潛力
多模態數據的整合:多模態模型能夠同時處理視覺、觸覺、語言等多種輸入,提升機器人對復雜場景的理解和決策能力。例如,在抓取任務中,視覺數據可以幫助機器人識別物體的位置和形狀,而觸覺數據可以提供額外的反饋,確保抓取的穩定性。
難點在于如何讓多模態數據在模型中實現高效融合。如何通過多模態數據提升機器人在動態環境中的適應能力。
觸覺數據的重要性:觸覺數據可以為機器人提供額外的信息,幫助其在復雜環境中完成任務。例如,在抓取柔性物體時,觸覺數據可以幫助機器人感知物體的形變和受力情況。
10、機器人數據閉環難實現
機器人領域目前缺乏類似 ImageNet 這樣的標志性數據集,導致研究難以形成統一的評估標準。
數據采集的成本高昂,尤其是涉及真實世界的交互數據。例如,采集觸覺、視覺、動力學等多模態數據需要復雜的硬件和環境支持。
仿真器被認為是解決數據閉環問題的一種重要工具,但仿真與真實世界之間的“模擬-真實差距 (Sim-to-Real Gap) ”仍然顯著。
11、Sim-to-Real Gap 的挑戰
仿真器在視覺渲染、物理建模 (如摩擦力、材質特性) 等方面與真實世界存在差距。機器人在仿真環境中表現良好,但在真實環境中可能失敗。這種差距限制了仿真數據的直接應用。
12、真實數據的優勢與挑戰
真實數據能夠更準確地反映物理世界的復雜性,但其采集成本高昂。數據標注是一個瓶頸,尤其是涉及多模態數據 (如觸覺、視覺、動力學) 的標注。
工業環境更規范,任務目標更明確,適合機器人技術的早期部署。例如,在太陽能發電廠的建設中,機器人可以完成打樁、裝板、擰螺絲等重復性任務。工業機器人可以通過特定任務的數據收集,逐步提升模型能力,并形成數據的閉環。
13、在機器人操作中,觸覺和力覺數據可以提供關鍵的反饋信息
在機器人操作中,觸覺和力覺數據可以提供關鍵的反饋信息,尤其是在連續任務 (如抓取和放置) 中。
觸覺數據的形式:觸覺數據通常是時間序列數據,可以反映機器人與物體接觸時的力學變化。
最新的研究工作是把觸覺也加入到大模型里。
14、仿真數據的優勢
仿真器可以快速生成大規模數據,適合早期模型訓練和驗證。仿真數據的生成成本低,可以在短時間內覆蓋多種場景和任務。在工業機器人領域,仿真器已經被廣泛用于訓練抓取、搬運等任務。
仿真數據的局限:仿真器的物理建模精度有限,例如無法準確模擬物體的材質、摩擦力、柔性等特性。 仿真環境的視覺渲染質量通常不足,可能導致模型在真實環境中表現不佳。
15、數據仿真:Stanford 推出了 behavior 的仿真平臺
Behavior 是一個以家庭場景為核心的仿真平臺,支持 1000 種任務 和 50 種不同場景,涵蓋了從普通公寓到五星級酒店的多樣環境。
平臺內包含超過 1 萬種物體,并通過高精度的 3D 模型和交互標注,重現物體的物理和語義屬性 (如柜門可開、衣服可折疊、玻璃杯可打碎等) 。
為了保證仿真環境的真實性,團隊投入了大量人力 (如博士生標注數據) ,對物體的物理屬性 (質量、摩擦力、紋理等) 和交互屬性 (如是否可拆卸、是否會變形) 進行細致標注。再如,標注衣服的柔性特性以支持疊衣服任務,或者標注植物澆水后的濕潤效果。
Behavior 項目不僅提供固定的仿真環境,還允許用戶上傳自己的場景和物體,通過 annotation pipeline 對其進行標注和配置。
目前來看,仿真可以 80% pretraining,剩余的 20% 需要通過真實環境中的數據采集和調試來補充。
16、混合模型的應用
通過仿真數據進行初步訓練,再通過真實數據進行微調和優化。已經嘗試將真實場景掃描到仿真器中,讓機器人在仿真環境中進行交互并學習,從而縮小 Sim-to-Real Gap。
17、機器人數據共享的挑戰
數據是公司的核心資產,企業不愿輕易共享數據。 缺乏統一的數據共享機制和激勵機制。
可能的解決方案:
數據交換:特定任務的公司貢獻數據,換取通用模型的能力。
數據中介:建立第三方平臺,收集、整合和分發數據,同時保護隱私。
模型共享:通過 API 或模型微調的方式,減少對原始數據的依賴。
目前已經有一些公司在做這三種方式的嘗試。
18、靈巧手與夾爪的選擇
靈巧手的優點:自由度高,能夠完成更復雜的任務。靈巧手可以通過多自由度的調整彌補模型預測的不準確性。
夾爪的優點:成本低,適合工業場景中的特定任務。在流水線上的物料搬運任務中表現良好,但缺乏泛化能力。
19、具身機器人軟硬件協同進化
硬件平臺與軟件模型需要同步迭代。例如,硬件的傳感器精度提升可以為模型提供更高質量的數據。不同公司在軟硬件協同上的策略不同。
AI 應用:硅谷的趨勢和國內不太一樣
1、硅谷 VC 認為 2025 年是AI應用投資大年
硅谷的 VC 傾向于 2025 年是有應用投資的大機會。在美國基本沒有 killer apps for everyone。大家習慣于在不同的場景中使用不同功能的 App,關鍵是讓用戶體驗盡可能的無障礙。
去年基本不關注應用公司,所有人都在看 LLM 和 Foundation model。
投資至應用,VC 會問,what's your moat?
硅谷投資人投資 AI 產品的標準之一:最好只做一個方向,讓競品很難復制,需要有一些網絡效應;要么是難以復制的洞察力;要么是難以復制的技術 Edge;要么是他人無法獲得的水平壟斷資本。否則很難稱之為創業,更像是一門生意。
2、硅谷 VC 認為AI產品公司是新物種
AI公司作為一個新的物種,和之前的SaaS很不一樣,找到了 pmf,它的 revenue booming 是非??斓?,真正 value creation before hype 是在 seed 階段。
3、VC 里的小眾觀點是可以有條件考慮投資中國創業者
原因是:新一代的中國創始人很有活力,很有能力做很好的生意模式。
但前提是 base 在美國。
中國及中國創業者在做很多新的嘗試,但是國際的投資人很害怕以及不了解。小眾認為是一個價值洼點。
4、硅谷的 VC 都在想辦法建立自己的投資策略
Soma Capital:建聯最優秀的人,讓最優秀的人介紹他的朋友,創建 Life Long Friendship。在過程中 inspire、support、connect 這些人;建立全景地圖,包括市場細分和項目 mapping,想做數據 Driven 的投資。會從 Seed 投資到 C 輪,觀測成功/失敗樣本。
Leonis Capital:研究驅動的風險投資基金,主要是 First Check。
OldFriendship Capital:Work first,invest later,會和 founder 先一起工作,打客戶訪談,確定一些訪談 guideline,一起搞清楚產品的問題,類似咨詢工作。投中國項目,在工作中可以判斷中國 founder 是否有機會能夠和 US Customer 一起工作。
Storm Venture:喜歡 Unlocking Growth,比較喜歡 A 輪有 PMF 的公司,他們通常獲得了 1-2M 的收入,然后去判斷是否存在 Unlocking growth 支撐他們漲到 20M。B2B SaaS 核心考慮 Wage,只有在那些 labor cost very high 的場景才適用,認為企業級比較大的機會還是 Automation work。
Inference venture:5000 萬美金的基金,認為壁壘建立在人際關系和領域知識。
5、硅谷 VC 認為AI時代MVP的要求是提升的
Engineer、fintech、HR 等是花錢比較多的 AI 產品方向。
白領工作很貴,一個小時 40 美金,人力成本很高,只有 25% 的時間在干活;未來可能沒有中間層的 manager,會被消滅掉。
人工成本最貴的公司一般是容易被 AI 切入的領域,醫院的接線員基本不是美國人,一小時工資可能比 2 美金還要低,用 AI 競爭很難有競爭力。
會有從 Service as a software 到 AI Agent 的變化。
6、OpenAI研究員創辦的 Leonis Capital 的 5 個 2025 年AI預測
會有一款 AI 編程的應用走紅。
模型提供商開始控制成本:創業者需要去選擇 model/agent 去創造一個獨特的供給。
Cost per action 的定價方式出現。
數據中心會造成電力沖擊,可能存在新架構重新。新的 framework,模型變小。Multi agent 會變得更加主流。
7、AI?native 的創業公司標準
相比大廠競爭:沒錢沒人,組織架構上和傳統的 SaaS 公司是不一樣的,Notion 和 Canva 在使用 AI 的時候比較 Suffer,Notion 不希望在 core function 上受損。
AI Native Data 的 Customer Acquisition cost 比較低,AI 產品提供的 ROI 比較明確,AI Scaling 過程中不需要招聘很多人,50 個 million 可能只有 20 個人。
在 Moat 方面,在于 model architecture 和 customization。
8、大模型很注重預訓練,應用公司更注重 reasoning
每個行業有固定的看問題的方式和方法,每個行業都有自己獨特的 Cognitive Architecture,新出現的 AI Agent 就是在 LLM 的基礎上加入了 Cognitive Architecture。
9、生活領域的AI應用的 reasoning 怎么去做 reward
生活領域 AI 應用的 reasoning 可以做 intention。
rewarding 非常難讀,math 和 coding 很容易做。
考慮話題度實效性,地理位置。
只能做 dynamic reward,和相似組去做。
10、用AI生成的內容不是很真實,可能會是一種新的內容形式
例如 Cat walking 和 cooking。
AI Coding:重要趨勢是推理增強技術
1、AI?Coding 公司模型訓練的可能思路
可能的一種思路:一開始會用模型公司更好的 api 來取得更好的效果,即使成本更高,在積累客戶使用數據之后,不斷地在小場景訓自己的小模型,從而不斷替換部分 api 場景,以更低成本取得更好的效果。
2、Copilot 和 Agent 模式的差異
之間的主要區別是異步:主要區別在于人工智能助手在執行任務時的異步程度。副駕駛通常需要立即與用戶互動和反饋,而代理可以在尋求用戶輸入之前更獨立地工作更長時間。例如,代碼完成和代碼聊天工具需要用戶實時觀看和響應。另一方面,agent 可以異步執行任務并要求較少的反饋,從而使他們能夠完成更多任務。
最初 agent 被設計為在提供結果之前獨立工作較長時間 (10-20 分鐘) 。然而,用戶反饋顯示,他們更喜歡控制更多和頻繁交互。因此 agent 被調整為在要求反饋之前工作較短時間 (幾分鐘) ,在自主性和用戶參與度之間取得平衡。
開發完全自主代理的挑戰:兩個主要障礙阻礙了完全自主 coding 代理的開發。技術還不夠先進,無法處理復雜的、長期的任務而不會失敗,導致用戶不滿。用戶仍在適應人工智能助手在多個文件或存儲庫中進行重大更改的概念。
3、Coding Agent 的核心挑戰與改進
需要進一步發展的關鍵領域包括:1. 事件建模 2. 記憶和世界建模 3. 準確規劃未來 4. 提高上下文利用率,尤其是長上下文 (超過 10,000 個 tokens 上下文的利用率會顯著下降) ,增強對擴展記憶長度 (例如 100,000 個 tokens 或更多) 的推理能力,正在進行的研究旨在提高更長上下文的記憶和推理能力。
雖然世界建模似乎與 coding 代理無關,但它在解決不準確規劃等常見問題方面發揮著重要作用。解決世界建模挑戰可以提高 coding 代理制定更有效、更準確計劃的能力。
4、AI?Coding 的一個重要趨勢是使用推理增強技術,類似于 o3 或 o1 方法
方法可以顯著提高代碼代理的整體效率。雖然它目前涉及高昂的成本 (多 10~100 倍) ,但它可以將錯誤率降低一半甚至四分之一。隨著語言模型的發展,這些成本預計將迅速下降,這可能使這種方法成為一種常見的技術路線。
O3 在基準測試中的表現明顯優于其他模型,包括 Total Forces 測試。目前行業得分一般在 50 分左右,但 O3 的得分為 70~75 分。
SMV 分數在過去幾個月中迅速提高。幾個月前,分數在 30 多分,但現在已升至 50 多分。
模型性能增強技術:根據內部測試,應用高級技術可以進一步將分數提高到大約 62 分。利用 O3 可以將分數推高到 74~75 分。雖然這些增強可能會大幅增加成本,但整體性能提升是顯著的。
用戶體驗和延遲閾值:確定性能和用戶體驗之間的最佳平衡具有挑戰性。對于自動完成功能,響應時間超過 215~500 毫秒可能會導致用戶禁用該功能。在聊天應用中,幾秒鐘的響應時間通常是可以接受的,但等待 50~75 分鐘就不切實際了??山邮苎舆t的閾值因應用和用戶期望而異。
最大化模型質量的兩個主要障礙是計算能力要求和相關成本。
5、GitHub Copilot 被視為主要競爭對手
6、客戶成功對于采用 AI coding 工具至關重要
售后支持、培訓、啟動和采用是關鍵的區別因素。 一家初創公司有 60~70 人致力于客戶成功,約占其員工總數的一半。這方面的大投資,但有助于確??蛻魸M意度。