欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

數據標注領域真正的巨頭:0融資、10億美元營收

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

比 Scale AI 更值得關注的 AI 數據標注公司出現了。


同樣是華人創始人,2020 年創立,120 人左右的團隊,去年營收達到 10 億美元,至今沒有融資,Google、OpenAI 和 Anthropic 都是它的客戶。


對比之下,Scale AI 去年的收入是 8.7 億美元,已經是 F 輪融資,累計融資 16 億美元。


在被 Meta 收購了近一大半股份、創始人 Alexandr Wang 加入 Meta 之后,Scale AI 被谷歌、OpenAI 等大客戶暫停合作,Surge AI 的優勢更加明顯,隱約要成為數據標注領域的領頭者。


創始人兼 CEO Edwin Chen 是一個很獨特的創始人,曾在谷歌、Facebook 和 Twitter 擔任機器學習工程師的他,對于數據有非常多有價值的深入思考。Edwin Chen 最近接受了幾家播客的采訪,對于創業和模型的數據訓練,輸出了不少觀點。


比如在他看來,創業是為了解決問題,而不是為了融資。合成數據現階段被高估,高質量的數據仍舊是壁壘。


以及,大語言模型競技場 (LMArena) ,某種意義上把模型訓練方向帶歪了。


在合成數據和榜單已經成為了“共識”的當下,Edwin Chen 的不少觀點,都值得一聽。我們整理了近期 Edwin Chen 接受 No Priors、20VC 的訪談,精選了其中的一些內容。


TLDR:?


  • 數據標注領域的其他公司本質上只是“人力外包公司”,交付的不是數據,而僅僅是人力。Surge 定位其產品是:直接用于訓練和評估 AI 模型的高質量數據,包括監督微調 (SFT) 數據、偏好數據等。


  • Edwin Chen 用“畫邊界框”和“寫詩”來類比兩類數據。前者數據質量天花板很低,而后者 (如寫詩、編程、數學證明) 質量天花板極高,充滿了主觀性、創造力和智慧。生成式 AI 時代所需要的數據是后者。


  • 未來 AI 訓練需要的是多種數據的結合,包括強化學習環境、專家推理過程的軌跡記錄等,單一的獎勵信號已經不足以捕捉復雜任務的全貌。


  • 業界高估了合成數據的作用。 很多客戶發現,海量的合成數據中絕大部分是無用噪音,且在現實世界的用例中表現得很糟糕。


  • 即使模型能力超越人類,人類反饋也永遠不會過時。深入、細致、有良好品味的人類評估,是所有前沿模型實驗室公認的“黃金標準”。


  • 大語言模型競技場,以及各種學術基準測試是“人工智能的一大禍害”。用戶憑 5-10 秒的直覺選擇,導致模型被訓練得去優化排版、表情符號和回答長度等表面特征,犧牲了事實性和指令遵循能力,本質上是在訓練模型產出“點擊誘餌”。


  • 對于有盈利能力的公司來說,不融資、保持控制權、專注于產品是更優選擇。創業是為了解決問題,不是為了融資。


一、創業是為了解決問題,不是為了融資


主持人: Surge 一直很低調,介紹下目前公司的規模和創立初衷。


Edwin Chen: 去年,我們的營收突破了 10 億美元,我們幾乎是這個領域最大的人類數據服務商。我們最初的創業理念是,堅信人類數據在推動人工智能發展方面的力量。從一開始,我們就將重心放在確保我們能提供最高質量的數據上。


主持人 : 創立五年就做到 10 億營收,怎么起步的?


Edwin Chen: 我們創立于 2020 年,成立五年了。我之前在 Google、Facebook 和 Twitter 工作過。 我們創辦 Surge 的根本原因,就是為了解決我在大公司工作時反復遇到的一個巨大障礙:幾乎無法獲取訓練模型所需要的數據。 我們想做的事情還有很多,但即使是做一些最基礎的事情,在獲取數據上都困難重重。


與此同時,我們還想構建許多更具未來感的東西。比如我們想開發下一代人工智能系統,但在當時,如果我們連構建一個簡單的情感分析分類器所需的數據都難以獲得,那我們又如何能取得更大的進步呢?這確實是最大的問題。


主持人 :外界都知道你們不融資,靠自己盈利,為什么選擇這條路?


Edwin Chen: 不融資的很大一個原因顯然是我們不需要這筆錢。我們非常幸運,從一開始就實現了盈利,不需要資金。


放棄控制權總讓我感覺很奇怪。我一直很討厭硅谷的一點是,你總能看到很多人為了融資而融資。我經常發現,許多創始人并非真的懷揣著一個宏大的夢想,想要打造一款產品來解決他們真正信奉的某個問題。


比如,你和一些 YC 創始人交談,問他們的目標是什么?他們就是為了告訴所有朋友他們融了 1000 萬美元,給父母看他們登上了 TechCrunch 的頭條——這就是他們的目標。我在 Google 的一些朋友常對我說:“我在 Google 或 Facebook 干了 10 年了,我想創業。” 我會問:“好的,那你想解決什么問題?” 他們不知道。他們會說:“我就是想做點新東西,我厭倦了。”


這很奇怪,因為他們完全有能力支付自己幾個月的薪水,畢竟他們在 Google 和 Facebook 工作了 10 年,不是剛畢業的學生,但他們首先想到的就是去融資。


我一直覺得這很奇怪,因為他們可能會嘗試和一些用戶交流,也可能嘗試開發一個最小可行產品 (MVP) ,但他們做這些事的方式很敷衍,唯一的目的似乎就是為了在創業加速器的申請表上打個勾。


然后他們就在各種隨機的產品想法之間不斷轉型,希望能碰巧獲得一點關注,這樣就會有風投給他們發私信。于是他們把所有時間都花在發推文和參加各種風投晚宴上,所有這一切都只是為了向世界炫耀他們融到了一大筆錢。


所以,立即融資這件事對我來說一直很愚蠢。似乎每個人的默認選項都是馬上融資。但如果你從第一性原理出發思考,假如你不知道硅谷的運作方式,不知道融資這回事,你為什么要這樣做呢?


對于 90% 的初創公司來說,如果創始人幸運地有一些積蓄,融資又能真正解決什么問題呢?我認為,你的第一直覺應該是去創造你夢想的東西。當然,如果你遇到了財務問題,那當然可以考慮融資,但當你們甚至都不知道要拿錢做什么時,就不要在前期浪費所有這些精力和時間。


主持人 : 我感覺我是少數幾個經常試圖勸退人們融資的投資人之一。比如今天我剛和一個創始人聊,他想融資,我問他為什么,我說你沒必要這么做,你可以保持控制權。但另一方面,我其實認為在硅谷之外,當資金確實能幫助公司擴張時,尋求風險投資的人又太少了。所以我覺得硅谷是融資過剩,而硅谷之外是融資不足。這形成了一種有趣的、不同模式并存的分布。


很多創始人覺得,融資是公司實力的一種證明,也能幫他們招人。你怎么看?


Edwin Chen: 首先,這取決于“外部驗證”具體指什么。我總是從這個角度思考問題:你是想創辦一家真正能改變世界的公司嗎?你是否懷揣著一個宏大的夢想?如果你有這樣一個夢想,你為什么還需要在意那些呢?


主持人 : 那如果創始人沒背景、沒人脈,剛畢業也沒什么錢,該怎么吸引人才?


Edwin Chen: 我會區分兩種情況。第一是,你是否真的需要錢?首先,有些人確實是剛畢業,甚至可能沒上過大學,所以他們可能沒有任何積蓄,確實需要一些錢來維持生計。


而另一些人,并不一定需要錢,因為你可能已經在 Google 或 Facebook 工作了 10 年或 5 年,總有一些積蓄。所以我想說,根據這兩種不同的情況,要走的路是不同的。


但其中一個問題是,你真的需要馬上去招那么多人嗎?


我經常看到一種現象,就是創始人會告訴我:“我正在考慮最初要招的幾個人。”然后他們說:“我要招一個產品經理,要招一個數據科學家。他們會是我最早的 5 到 10 名員工之一。”


我聽了就覺得:什么?我絕不會把數據科學家列為公司最早的三名員工之一,我這么說是因為我自己就曾是數據科學家。當你想把產品優化 2% 或 5% 的時候,數據科學家很棒,但這絕對不是你創業初期該做的事。


在初期,你追求的是 10 倍或 100 倍的改變,而不是去擔心那些微小的百分點,那些反正也只是噪音。再比如產品經理,當公司規模足夠大時,產品經理很有用,但在初期,你應該自己思考想做什么產品,你的工程師也應該親力親為,并且有好點子。而產品管理是大公司衍生出的一種奇怪概念,那是因為工程師們沒有時間深入細節并親自推動項目。這不是你一開始就該設立的崗位。


二、Surge?的壁壘就是高質量的數據


主持人: 先具體講講你們 10 億美元的營收是怎么來的?你們的產品到底是什么?


Edwin Chen: 歸根結底,我們的產品就是數據。我們實實在在地向客戶交付數據,他們用這些數據來訓練和評估他們的模型。


想象一下,假如你是一家前沿 AI 模型實驗室,想要提升模型的編程能力,我們就會去收集大量的編程數據。這些編程數據有多種形式,可能是 SFT (監督微調) 數據,我們負責編寫代碼解決方案或單元測試,這些是優質代碼必須通過的測試。


也可能是偏好數據,比如提供兩段代碼或兩種代碼解釋,然后判斷哪個更好。還可能是驗證器,比如:“我創建了一個網頁應用,我想確認屏幕右上角有一個登錄按鈕,并且點擊這個按鈕后會發生某個特定的事件。”


數據可以有多種形式,但最終,我們交付的就是數據。


這些數據能幫助模型提升相關能力。與此緊密相關的是評估模型的概念,因為你也想知道,這個編程模型好不好?它是否比另一個更好?這個模型在哪些錯誤上表現得更差?我們能從中獲得什么洞見?因此,除了數據本身,我們常常還向客戶提供洞見,比如交付損失模式、失敗模式。所以,可能還有很多與數據相關的東西,但我們交付的數據及其周邊形成了一個應用生態,這就是我們的產品。


主持人: 這個領域的公司經常被歸為一類,你們的業務和他們到底有什么不同?


Edwin Chen: 我們思考的方式是,我們始終將數據質量作為我們的首要原則。因此,我們需要建立技術來衡量和改進這一點。人們通常沒有意識到質量控制有多么困難。


他們普遍認為人類很聰明,所以只要找一群聰明人來解決問題,就能得到高質量的數據。 我們發現這完全是錯誤的。


比如說,就算你從麻省理工學院招募到會編程的人,他們實際上也只會試圖欺騙你。他們可能會把自己的賬戶賣給其他人,或者嘗試使用大語言模型 (LLM) 為你生成數據。他們會想出各種瘋狂的方法來欺騙系統。


因此,檢測低質量是一個非常具有挑戰性且充滿對抗性的問題。


我們發現,當你想獲得最高質量的數據來訓練那些已經超級智能的?LLM?時,你實際上需要構建大量非常復雜的算法。


你不能只是隨便招個人,或者僅僅通過簡歷篩選就期望得到好的結果。 我認識的那些嘗試這種方法的團隊,在沒有意識到的情況下,實際上比其他人慢了 10 倍。


所以,歸根結底,這完全取決于我們構建的技術,以提取盡可能高質量的數據。


主持人: 那你們的核心競爭力是什么?或者說,你們有什么是競爭對手做不到的?


Edwin Chen: 我們區別于他人的地方在于,這個領域的許多其他公司本質上只是“人力外包公司”。他們交付的不是數據,而僅僅是“人頭”,這意味著他們最終沒有任何技術。


而我們的一個基本信念是,質量是最終極、最重要的事情。這些是高質量的數據嗎?這是一個好的代碼解決方案嗎?這是一個好的單元測試嗎?這個數學問題解對了嗎?這是一首好詩嗎?基本上,這個領域的很多公司,由于歷史發展的原因,一直將質量和數據視為同質化的商品。


我們經常這樣思考:想象一下,讓你在一輛車周圍畫一個邊界框。像 Sarah、你和我,我們畫出的邊界框可能都一樣。你去問海明威,再去問一個二年級小學生,最后我們畫出的邊界框都會是同一個。我們在這件事上做不出太大差異。


這種任務的質量水平天花板非常低。但換成寫詩這樣的事情,我就不擅長了,海明威寫的詩肯定比我寫的好得多。或者想象一下,一份風險投資的融資演示文稿 (pitch deck) ,你做的肯定比我的好得多。


在如今的生成式 AI 世界里,你能創造的質量類型幾乎是沒有上限的。因此,我們這樣看待自己的產品:我們擁有一個平臺,擁有真正的技術,用來衡量我們的工作人員或標注員所產出內容的質量。如果你沒有那樣的技術,你就沒有任何衡量質量的方法。


主持人: 你們怎么衡量產出內容的質量?靠人還是靠模型?


Edwin Chen: 我們經常打一個比方,就像 Google 搜索或 YouTube 一樣。你有數以百萬計的搜索結果、網頁和視頻,你如何評估它們的質量?


比如,這是一個高質量的網頁嗎?它信息量大嗎?你實現這一點的方式是,你需要收集大量的信號——頁面相關信號、用戶相關信號、活動相關信號等,最終將所有這些都輸入到一個龐大的機器學習程序中。


同樣地,我們也收集關于標注員的各種信號,包括他們正在執行的工作、他們在網站上的活動等,然后將這些信息輸入到許多不同的算法中。我們內部有一個機器學習團隊,專門負責構建這些算法來衡量這一切。


主持人: 現在模型的基線越來越高,對標注質量的要求也遠超普通人水平。這對你們的業務有什么影響嗎?


Edwin Chen: 這其實也是我們內部做了大量研究的一個課題。


在人工智能對齊領域,有一個叫做“可擴展監督”的研究方向,它探討的核心問題是:如何讓模型與人類攜手合作,產出比任何一方單獨完成時質量更高的數據?


舉個例子,比如從零開始寫一個故事。幾年前,我們可能需要完全由自己從頭寫起。但如今,這種方式效率很低。你可以從模型生成的故事草稿開始,然后進行編輯。你可能會做大幅修改,也許故事的核心非常平淡、普通,但其中有很多繁瑣的工作,由人來做效率很低,也無法真正發揮我們希望注入到回答中的人類創造力和智慧。


所以,你只需要在一個基本框架上進行疊加和完善。當然,關于可擴展監督還有更復雜的思考方式,但核心問題就是如何構建合適的交互界面。如何構建合適的工具?如何以正確的方式將人與人工智能結合起來,讓他們變得更高效?這正是我們投入大量技術去研發的方向。


主持人: 你們的很多競爭對手融了大量資金,規模卻比你們小得多。是你們做得太好,還是他們做得太差?


Edwin Chen: 我認為是兩者兼而有之。我認為我們這個領域的許多其他公司,歸根結底都不是科技公司。它們要么是“車身修理廠” (body shops) ,要么是偽裝成科技公司的“車身修理廠”。?


主持人: 你說的“車身修理廠”和“偽裝的科技公司”具體指什么?


Edwin Chen: 這個領域的很多公司沒有任何技術。


當我談到技術時,指的是他們沒有任何方法來衡量或提高他們所生成數據的質量。 從某種意義上說,它們是純粹的“車身修理廠”,有時甚至沒有任何技術平臺供工人使用。


他們所做的就是像招聘人員一樣,尋找人才,看到簡歷上有博士學位就立即雇用,然后將這些人送到 AI 公司或前沿實驗室。


他們沒有技術,沒有辦法衡量這些工人的具體工作表現,也不知道他們是否做得好。 他們無法進行 A/B 測試,


比如“如果我改變這個算法來提高質量會怎樣?”或者“如果我調整工具來改變這些問題,會提高工人的效率和質量嗎,還是會變得更糟?”


他們無法做這些事情,因為到最后,他們交付給客戶的只是“湊人數”,是人,而不是數據。?


三、大家高估了合成數據的作用


主持人: 最近很多討論都轉向了強化學習 (RL) 環境,這塊業務的難點在哪?


Edwin Chen: 我們投入了大量工作來構建強化學習環境。我認為人們嚴重低估了這件事的復雜性,它不是簡單地通過合成方式就能生成的。你需要大量的工具,因為客戶需要的是極其龐大的環境。


主持人: 能舉個例子嗎?什么樣的環境算“龐大”?


Edwin Chen: 想象你是一名銷售人員。作為銷售,你需要與 Salesforce 交互,通過 Gmail 獲取潛在客戶,在 Slack 上與客戶溝通,創建 Excel 表格來追蹤線索。你可能還要撰寫 Google Docs 文檔,制作 PowerPoint 演示文稿來向客戶展示。


所以,你需要的是一個極其豐富的環境,它能真實地模擬一個銷售人員的整個工作世界,就像模擬你的整個世界一樣。


包括你桌面上的所有東西,未來甚至還包括你桌面之外的一切。比如,你的日歷,你可能需要出差去見客戶,然后你想模擬一場車禍的發生,你收到了通知,所以你需要提早一點出發。這些都是我們希望在極其豐富的強化學習環境中建模的元素。


那么問題是,你如何生成所有注入到這個環境中的數據?比如,你需要生成數千條 Slack 消息、數百封電子郵件,并且要確保它們之間彼此邏輯一致。


回到我那個車禍的例子,你還要確保環境中的時間是流動的,并且某些外部事件會發生。你如何做到這一切?而且,還要以一種有趣、有創意、同時又真實且不互相矛盾的方式實現。要確保這些環境內容豐富、有創造性,能讓模型從中學習到有價值的東西,這背后需要大量的思考。所以,是的,創建這些環境需要大量的工具和相當高的復雜性。


主持人: 這種模擬環境的復雜性,有上限嗎?還是說越真實、越復雜越好?


Edwin Chen: 我認為沒有上限。歸根結底,你希望獲得盡可能多的多樣性和豐富性,因為環境越豐富,模型能學到的就越多。時間跨度越長,模型能學習和改進的就越多。所以我認為這里的上限幾乎是無限的。


主持人: 預測一下未來 5-10 年,哪種數據需求增長會最快?


Edwin Chen: 我認為會是以上所有。我不認為單靠強化學習環境就足夠了,因為這些環境中的軌跡通常非常豐富且漫長,所以很難想象一個單一的獎勵信號就能涵蓋所有情況。


事實上,即使在今天,我們也常常從多個獎勵信號的角度來思考,而不是單一獎勵。一個單一的信號可能不夠豐富,無法捕捉到模型為解決某個極其復雜的目標所付出的全部努力。所以我認為,未來可能會是所有這些的結合。


主持人: 合成數據被很多人視為威脅,你怎么看它和人類數據的關系?


Edwin Chen: 我認為人們高估了合成數據的作用。


現在有很多模型在合成數據上進行了大量訓練,但這意味著它們只擅長解決非常學術的、基準風格的問題,而在現實世界的用例中表現得很糟糕。


合成數據使得模型善于解決合成問題,而不是實際問題。


我們有很多客戶告訴我們,他們花了一年時間在合成數據上訓練模型,現在才意識到所有的問題,并花了幾個月的時間來清理這些數據。


對他們來說,我們生成的幾千條高質量人類數據,其價值超過了一千萬條合成數據。?


本質上,模型會在合成數據創造的狹窄相似性范圍內崩潰,它無法為模型提供所需的多樣性和泛化能力。


此外,模型會犯一些人類永遠不會犯的獨特錯誤。比如,一個 2025 年的前沿模型,在回復中會隨機輸出俄語和印地語字符,這種錯誤對任何一個二年級學生來說都是顯而易見的,但模型卻不知道。


因此,你總是需要這種來自人類的外部價值體系作為一種保障措施,以確保模型正常運行。


四、大模型競技場是對模型評測的誤導


主持人: 如果未來模型的能力全面超越人類,人類數據還有價值嗎?會不會被合成數據取代?


Edwin Chen: 我認為人類反饋永遠不會過時。


首先,即使在今天,人們也常常高估了合成數據的作用。我認為合成數據確實非常有用,我們自己就大量使用它來補充人類的工作,就像我之前說的,有很多瑣碎的工作不值得花費人力。


但我們經常發現,很多時候客戶會來找我們說:“過去六個月我們一直在試驗合成數據,生成了一兩千萬條。但我們最終發現,99%的數據都沒用。我們現在正試圖篩選出那有用的 5%,但我們實際上準備扔掉其中的 900 多萬條。”他們常常會發現,甚至僅僅一千條高質量的人類數據,其價值遠超那上千萬個合成數據點。


第二點是,有時候模型需要一個外部信號。模型的思維方式與人類截然不同,所以你必須時刻確保它們與你真正想要的目標保持一致。


我認為對人工智能的一大禍害是大語言模型的競技場 (arena) 模式。


我認為目前人們常常在錯誤的優化目標上訓練模型。你應該這樣理解大語言模型競技場:人們輸入提示詞,得到兩個回答,然后花 5 到 10 秒鐘看一下,就選那個看起來更好的。他們不評估模型是否出現幻覺,不評估事實準確性,也不評估是否遵循了指令,他們純粹是憑感覺選,覺得“這個看起來更好,因為它排版好,有很多表情符號,看起來更令人印象深刻”。


人們就這樣基于主觀感受來訓練模型,卻沒意識到其后果。模型本身并不知道它的真正目標是什么,所以你需要一個外部的質量信號來告訴它正確的優化目標應該是什么。如果沒有這個信號,模型就會走向各種瘋狂的方向。就像你可能看到過一些長文本模型的表現一樣,它們會走向各種瘋狂、毫無意義的方向,所以你需要這些外部的評估者。


主持人: 給當前?AI?發展的瓶頸排個序:算力、算法、數據質量,哪個最緊急?


Edwin Chen: 數據質量絕對排在第一位,其次是計算能力,然后才是算法。


我根本不相信你可以僅僅通過投入更多計算能力來解決問題,因為如果沒有高質量的數據來訓練,或者沒有正確的目標和評估指標,你就會陷入一種看到虛假進步的陷阱。


我們經常聽到一些團隊說,在使用我們的產品之前,他們花了六個月甚至一年時間訓練模型,指標不斷上升,但后來才意識到他們的訓練和評估數據都很糟糕。


他們看到的所有進步實際上完全是誤導性的,他們的模型甚至比開始時還要糟糕。我們在 LM Arena 上經常看到這種情況,它基本上就是一個點擊誘餌。


人們投票給看起來更好的回復,但根本不花時間去核實事實。一個回復可能完全是幻覺,但因為它有表情符號和加粗的單詞,人們就會覺得它更好。


我們發現,在這個領域提高排名的最簡單方法就是讓你的模型回復更長。很多公司都在不知不覺中這樣做,他們添加越來越多的表情符號和格式,看到模型在排行榜上攀升,以為取得了進步,而實際上他們只是在訓練模型制作更好的點擊誘餌。


他們可能在六個月或一年后才最終意識到這一點,就像你在行業里可能看到的一些情況一樣,但這基本上意味著他們在過去六個月里毫無進展。


我認為,除了大語言模型競技場,你還有各種學術基準測試,它們與現實世界完全脫節。很多團隊專注于提升這些 SAT 風格的分數,而不是在真實世界中取得進展。我舉個例子,如果你去看?IF EVAL?的基準測試,它用來檢查模型能力的一些指令是這樣的:“你能寫一篇關于亞伯拉罕·林肯的文章嗎?每次提到亞伯拉罕·林肯這個詞時,確保其中五個字母大寫,其他字母小寫。” 這算什么?


注:IF EVAL,全稱為“指令遵循評估” (instruction following eval) ,用于評估大模型是否能準確遵循復雜或特殊指令的基準測試。


有時候,客戶會跟我們說:“我們需要提高在 IF EVAL 上的分數。” 這意味著,你看到這些公司和研究人員,他們不專注于現實世界的進步,而是在為這些愚蠢的 SAT 式基準測試進行優化。


五、高質量數據的終極標準是主觀創造力


主持人: Meta 最近和 Scale?AI?的合作,對你們有什么影響?


Edwin Chen: 我們已經是這個領域的頭號玩家了。這對我們是有利的,因為確實還有一些傳統的團隊在使用 Scale AI,他們只是不知道我們,因為我們過去一直很低調。


我們一直相信的一件事是,當人們使用這些低質量的數據解決方案時,他們可能是因為在人類數據上‘栽過跟頭’。他們有了負面體驗后,就不想再使用人類數據了。于是他們會去嘗試其他方法,而那些方法老實說要慢得多,而且優化目標也不正確。所以我認為這整體上損害了模型的進步。因此,我們越是能讓所有這些前沿模型實驗室使用高質量數據,對整個行業來說就越有益。所以我認為,總的來說,這是一件好事。


主持人: 如果要賭一匹黑馬,你覺得誰能追上?OpenAI、Anthropic 和 DeepMind?


Edwin Chen : 我會賭 xAI。我認為他們充滿渴望且使命驅動,這給了他們很多非常獨特的優勢。


主持人: 未來大模型市場,你覺得是三足鼎立還是群雄并起?開源模型有機會嗎?


Edwin Chen: 是的,我認為隨著時間的推移,會有越來越多的前沿模型出現,因為我并不認為模型會成為同質化的商品。


過去幾年里,一件令人驚訝的事情是,你看到所有模型都有自己的側重點,這賦予了它們獨特的優勢。


例如,Anthropic 在編程和企業應用方面顯然非常出色。而 OpenAI 因為 ChatGPT 有著強大的消費者導向——我個人非常喜歡它的模型個性。而 Grok 模型則有獨特的言論邊界和行為風格。


這就像每家公司都有一套自己關心的不同原則。有些人永遠不會做某件事,而另一些人則完全愿意。不同模型在技能類型上會有許多不同的層面和個性。當然,最終通用人工智能 (AGI) 或許會涵蓋這一切,但在此期間,你必須有所側重,因為一家公司能專注的方向是有限的。所以我認為這將導致所有模型提供商擁有不同的優勢。


我的意思是,今天我們已經看到很多人,包括我,會根據我們正在做的事情在不同模型之間切換。所以我認為未來這種情況會更加普遍,因為人們會在生活的更多方面使用模型,無論是個人生活還是職業生活。


主持人 : 所有人都想要高質量數據。在你們看來,到底什么才算“高質量”?你們又是怎么生產的?


Edwin Chen: 比方說,你想訓練模型寫一首關于月亮的八行詩。


大多數公司的做法是,從?Craigslist?或通過招聘機構雇一堆人,讓他們寫詩。然后他們衡量質量的方式是:這是一首詩嗎?有八行嗎?包含“月亮”這個詞嗎?如果都滿足,他們就覺得:“好的,這三個框都打勾了,所以這肯定是一首好詩,因為它遵循了所有指令。” (注:Craigslist 是美國一個著名的大型分類廣告網站,用戶可以在上面發布和查找招聘、租房、二手交易等各類信息)


但你仔細想想,現實是你得到的是一些糟糕透頂的詩。它們確實是八行,也提到了月亮,但感覺就像是高中生寫的。于是其他公司會想:“好吧,Craigslist 上的人沒有寫詩經驗,那我就雇一堆有英語文學博士學位的人。”但這同樣糟糕,因為很多博士其實并不是好的作家或詩人。


你想想海明威這些人,他們肯定沒有博士學位,我甚至覺得他們大學都沒讀完。我想說的一點是,我畢業于 MIT,我認識的很多 MIT 計算機科學專業的畢業生,他們的編程水平很糟糕。所以,我們思考質量的方式完全不同。


我們想要的不是那種滿足條條框框要求、用了一些復雜詞匯的詩歌。我們想要的是諾貝爾獎得主會寫的那種詩。你真正需要的是認識到,詩歌其實是非常主觀和豐富的。


可能一首是關于月光灑在水面上的俳句,另一首采用了抑揚格韻律,還有一首則專注于月亮在夜晚升起時的情感。你真正想要捕捉的是,寫一首關于月亮的詩有成千上萬種方式,沒有唯一的正確答案。每一種方式都能讓你對語言、意象和詩歌有不同的洞見。而且你想想,這不僅僅是詩歌,數學也是如此,證明一個定理可能有上千種方法。


所以我認為區別在于,當你以錯誤的方式思考質量時,你得到的是同質化的數據,它優化的目標是評估者之間的一致性,以及滿足清單上的條條框框。


但我們試圖教給所有客戶的一件事是,高質量數據真正擁抱的是人類的智慧和創造力。當你用這種更豐富的數據來訓練模型時,它們不僅是學會遵循指令,它們真正學到的是那些更深層次的模式,是那些讓語言和世界變得有意義的東西。很多公司只是用人海戰術來解決問題,并認為這樣就能得到好數據。


我認為真的需要從第一性原理出發,去思考質量的真正含義;需要大量的技術來識別出,哪些是絕妙的詩歌,哪些是有創意的數學解法,哪些是設計優美、玩起來有趣的網頁應用和游戲,而哪些又是體驗糟糕的。你真的需要構建大量技術,并以正確的方式思考質量。否則,你基本上只是在規模化地生產平庸。


主持人: 所以你們對“高質量”的定義,是需要在每個專業領域和客戶一起共建的嗎?


Edwin Chen: 是的,我們有整體性的質量原則,但不同領域通常會有差異,所以是兩者的結合。


主持人: 既然流行的基準測試和競技場排名都容易被操縱,那用什么來真正評估模型的好壞?


Edwin Chen: 我認為所有前沿模型實驗室都視為黃金標準的替代方案,就是人類評估。真正到位的人類評估,需要花時間仔細審閱回答,進行事實核查,看它是否遵循了所有指令。你需要有良好品味的人來判斷寫作質量。這種花大量時間去做評估的概念,而不是只憑五秒鐘的感覺,我認為真的非常重要。因為如果你不這樣做,你基本上就是在訓練你的模型去生成類似“點擊誘餌”的內容。


主持人: 所以 Surge 會不會嘗試把這種深度的人類評估做成標準化的產品,讓更多人用上?


Edwin Chen : 在內部,我們目前確實做了大量工作,與所有前沿模型實驗室合作,幫助他們理解自己的模型。我們持續評估它們,不斷為他們找出需要改進的薄弱環節。目前,這些工作很多是內部的,但我們確實想做的一件事是,也開始進行外部的推廣,幫助大家了解,這些不同模型有不同的能力:這個模型在編程上更強,那個模型在遵循指令上更好,而某些模型實際上幻覺很多,所以你不能太相信它們。我們希望開始做更多外部工作,來幫助整個行業更好地理解這一點。


六、AI 更可能讓 10X 工程師變成 100X 工程師


主持人: 你在創立 Surge 之前曾告訴我,此前你在谷歌、Facebook 和 Twitter 工作時,感覺 90%的人都在解決無用的問題。你從中學到了什么?


Edwin Chen: 是的。對我來說,最大的教訓是,你可以用 10%的資源和 10%的人力,建立一家完全不同的公司,但你的發展速度仍然可以快 10 倍,并且能生產出好 10 倍的產品。


想象一下,如果你能神奇地剔除那 90%不致力于解決有趣問題的人,會發生什么?


首先,如果你的公司規模沒有那么龐大,你就不需要雇傭那么多人。


因此,你花在面試上的時間會更少,花在會議上的時間會更少,花在給人們同步信息上的時間也會更少。?


當信息更加集中時,每個人都能更好地了解公司全局,因為沒有那么多雜亂的信息掩蓋真正重要的事情。 而且,由于人才密度更高、團隊規模更小,溝通自然更順暢,迭代速度更快,好的想法也能更快地傳播開來。


主持人: 在大公司里,人人覺得自己的項目最重要,導致優先級混亂。你是如何在公司內部確定優先事項,并判斷哪些事情重要、哪些不重要的?


Edwin Chen: 是的,我認為保持小規模的一大優勢就在于此。


當你公司規模較小時,我和公司里的其他人都能更清晰地把握客戶問題的本質,以及每個人正在做的事情。


在那些大公司里,很多時候你設定的優先級、你正在構建的東西,都只是為了給別人留下深刻印象。


比如,“我需要給我的副總裁留下深刻印象,我需要給我的經理留下深刻印象,我需要給我的主管留下深刻印象,這樣我才能得到晉升。”


你構建或優先考慮某些事情,并不是因為它們真正對最終客戶有利,或者對最終產品有好處。


很多時候,優先級是這樣的:


  • 我需要改進內部工具。


  • 為什么要改進內部工具?


  • 它能讓員工的生產力提高 5%。


  • 我為什么希望他們的生產力提高 5%?


  • 因為他們花了 10%到 20%的時間在面試上。


  • 他們為什么要面試?


  • 因為他們為了增長而增長。


這就導致了一個永無止境的循環,你的許多優先事項都與最終客戶和最終產品脫節,它們幾乎只是為了維持公司內部這臺巨大機器的運轉而存在。?


主持人: 現在很流行一個說法:未來會出現一人創建的十億美元公司。你同意嗎?


Edwin Chen: 是的,我絕對相信有一天這樣的公司會出現。


我一直相信存在 10 倍工程師,甚至 100 倍工程師。


現在已經有很多單人創業公司的收入達到了 1000 萬美元。


因此,如果人工智能能夠帶來所有這些效率提升,我完全可以看到這個數字再增長 100 倍,從而誕生一家價值 10 億美元的單人公司。


主持人: 100X?工程師真的存在嗎?他們和普通工程師有什么不一樣?


Edwin Chen: 我的意思是,即使在今天,你也看到我們比一些同行公司效率高得多。


因此,僅憑這一點,你就已經可以看到 10 倍或 100 倍工程師的存在。如果你把它分解開來,就會發現有些人就是比其他人編碼快兩到三倍,他們的想法好兩到三倍,他們付出的努力多兩到三倍,他們參加的會議少兩到三倍,他們的想法是別人根本想不到的。 所以如果你把所有這些因素相乘,你會發現 2 到 3 倍的數字實際上往往是低估了。


我認識的一些人,他們的編碼效率確實比其他人高出五倍。現在,再加上你從?AI?中獲得的所有效率提升,你把所有這些數字相乘,是的,你就能得到 100。?


主持人: AI?是讓 10X?工程師變成 100X,還是讓 1X?工程師變成 10X?


Edwin Chen: 我傾向于認為,頂尖的人才腦子里有很多想法,只是沒有時間去實現。


如果你認為今天的人工智能,它不一定能提出最偉大的想法——雖然有時可以——但它主要做的是消除你日常工作中的許多苦差事和常規編碼。


因此,如果你不必花時間做那些苦差事,而腦子里又有無數的想法,AI 會幫助你把它們付諸實踐。


所以我確實認為,這在某種程度上更有利于那些已經是 10 倍工程師的人。


本文來自微信公眾號: Founder Park ,編譯:Founder?Park

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 最新国产精品久久精品 | 蜜桃综合网 | 亚洲九九 | 国产精品98福利小视频 | 亚洲精品14p| 激情久久久久久久久久 | 99久久久久久久 | 美女被羞羞的网站 | 五月婷婷狠狠 | 久久精品免视着国产成人 | 五月天天色 | 成人国产精品一级毛片天堂 | 亚洲综合伊人 | 成人公开视频 | 久久国产乱子伦精品在 | 在线观看国产一区亚洲bd | 国产精品热久久毛片 | 午夜性色吃奶添下面69影院 | 亚洲精品乱码一区二区在线观看 | 精品人人 | 成人国产精品视频 | 国产精品久久久久久久久 | 四虎亚洲 | 中国免费毛片 | 亚洲精品影院一区二区 | 涩涩视频网 | 中文字幕不卡在线播放 | 公主恋人ova | 国产精品麻豆久久99 | 99国产在线| 免费看a毛片 | 免费观看国产精品视频 | 精品欧美一区二区三区精品久久 | 日韩在线视精品在亚洲 | 羞羞的视频在线观看 | 久久er99热这里只是精品 | 免费看在线爱爱小视频 | 精品999久久久久久中文字幕 | 奇米777色 | 免费视频不卡一区二区三区 | 国产成人啪午夜精品网站男同 |