8月16日消息,近日,OpenAI聯合創始人兼總裁Greg Brockman在世界AI工程師大會上,分享了他對AI技術發展瓶頸、科研與工程關系等AI關鍵議題的最新看法。作為2015年便入局AI的行業老兵,在回答主持人關于GPT-6發展挑戰的問題時,Brockman提出了一項十分重要的觀察:
隨著算力和數據規模的快速擴展,基礎研究正在回歸,算法的重要性再次凸顯,成為未來AI技術發展的關鍵瓶頸。
對Brockman而言,這并非壞事。他覺得整天圍繞Attention is All You Need這一經典論文和Transformer做文章已經有些乏味,智力上難免讓人覺得“不過癮”。目前,強化學習已成為算法研究的新方向之一,但他也意識到,仍存在許多明顯的能力缺口。
▲Greg Brockman(右)與主持人(左)
工程與科研,是驅動AI發展的兩大引擎。工程師出身的Brockman認為,工程師的貢獻與研究人員不相上下,甚至在某些方面更為重要。如果沒有科研創新,就無事可做;如果沒有工程能力,那些想法就無法實現。
OpenAI從一開始就堅持工程與研究同等看待,而兩者的思維方式又有所不同。對新加入OpenAI的工程師,Brockman的第一堂課便是:保持技術上的謙遜,因為在傳統互聯網大廠行之有效的方法,在OpenAI未必適用。
產品與科研間的資源協調,也是OpenAI時常面臨的問題。Brockman在訪談中承認,為了支撐產品上線的海量算力需求,OpenAI不得不以幾乎是“抵押未來”的方式,借調部分本應用于科研的算力。不過,他認為這一取舍是值得的。
Brockman還在訪談中回顧了自己童年時期對數學的興趣,再到轉向編程,從哈佛轉校至MIT,最終輟學加入金融科技創企Stripe的經歷。由于篇幅所限,實錄并未包含這部分內容。
在采訪的尾聲,Brockman回答了來自英偉達創始人兼CEO黃仁勛的兩個問題,分別涉及未來AI基礎設施的形態與開發流程的演變。
Greg Brockman的這場采訪錄制于今年6月,以下是部分精彩內容的整理(智東西在不改變原意的前提下,進行了一定程度的增刪修改):
01 .
工程師與研究人員同等重要,
加入OpenAI第一課是技術謙遜
主持人:2022年時你說,現在是成為機器學習工程師的時候了,偉大的工程師能夠在與偉大的研究人員相同的水平上為未來的進步做出貢獻。這在今天還成立嗎?
Greg Brockman:我認為工程師做的貢獻和研究人員是相仿的,甚至更大。
一開始,OpenAI在早期就是一群博士畢業的研究科學家,提出一些想法并進行測試,工程對這些研究是必不可少的。AlexNet本質上是“在GPU上實現快速卷積內核(convolutional kernels)”的工程。
有趣的是,當時在Alex Krizhevsky實驗室的人實際上對這一研究不以為然,他們覺得AlexNet只是用于某個圖像數據集的快速內核,并不重要。
但Ilya說:“我們可以將其應用于ImageNet。效果肯定會很好。”這一決定將偉大的工程與理論創新結合了起來。
我認為,我之前的看法至今依然有效。現在,業界所需的工程不僅僅是打造特定的內核,而是構建完整的系統,將其擴展到10萬塊GPU,打造強化學習系統,協調好各個部分之間的關系。
如果沒有創新的想法,就無事可做;如果沒有工程能力,那個想法就無法實現。我們要做的是將兩個方面和諧地結合在一起。
Ilya和Alex的關系,是研究與工程合作的象征,這種合作現在是OpenAI的哲學。
OpenAI從一開始就認為工程和研究同等重要,兩個團隊需要緊密合作。研究和工程之間的關系也是永遠無法完全解決的問題,解決了當前水平的問題后,會面臨更復雜的問題。
我注意到,我們遇到的問題,基本與其他實驗室面臨的情況相同,只是我們可能會走得更遠,或出現一些不同的變體。我認為,這背后有一些根本性原因。在一開始,我明顯感受到工程背景與研究背景的人,對系統約束的理解,差異很大。
作為工程師,你會認為:“如果接口已經確定,那就不必關心它背后的實現,我可以按任何我想要的方式來實現它。”
但作為研究人員,你會想:“如果系統的任何部分出現錯誤,我看到的只是性能稍有下降,沒有異常提示,也不知道錯誤在哪。我必須對整段代碼負責。”除非接口非常穩固、可以完全信賴——這是個很高的標準——否則研究人員就得對這段代碼負責。這種差異常常帶來摩擦。
我曾在一個早期項目中看到,工程師寫好代碼后,研究人員會對每一行進行大討論,進度極為緩慢。后來,我們改變了做法,我直接參與項目,一次提出五個想法,研究人員會說其中四個不行,而我會覺得這正是我想要的反饋。
我們意識到的最大價值,也是我常對來自工程界的OpenAI新同事強調的,就是技術上的謙遜。
你帶著寶貴技能進入這里,但這是與傳統互聯網初創公司截然不同的環境。要學會分辨什么時候可以依賴原有直覺,什么時候需要放下它們,這并不容易。
最重要的是,保持謙遜,認真傾聽,并假設自己還有未理解的地方,直到真正明白原因。那時再去改變架構、調整抽象層。真正理解并帶著這種謙遜去做事,是決定成敗的關鍵因素。
02 .
部分科研算力被調給產品,
OpenAI有時不得不“抵押未來”
主持人:我們來談談OpenAI最近的一些重大發布,也分享幾個有趣的故事。其中一個特別值得一提的,是關于擴展性的問題——在不同數量級上,一切都有可能崩潰。
ChatGPT發布時,僅用五天就吸引了100萬用戶;而今年4.0版本的ImageGen發布后,同樣在五天內,用戶數便突破了1億。這兩個階段相比,有哪些不同之處?
Greg Brockman:它們在很多方面都很相似。ChatGPT原本只是一次低調的研究預覽,我們悄悄發布,卻很快出現了系統崩潰的情況。
我們預料它會受歡迎,但當時認為需要等到GPT-4才能真正達到這種熱度。內部同事早已接觸過它,所以并不覺得驚艷。
這也是該領域的一個特點——更新節奏很快。你可能剛剛看到“這是我見過的最神奇的東西”,下一刻就會想:“為什么它不能一次合并10個PR(拉取請求)呢?”ImageGen的情況與之類似,發布后極受歡迎,傳播速度和用戶增長都令人難以置信。
為了支撐這兩次發布,我們甚至打破慣例,從研究中抽調部分計算資源用于產品上線。這相當于“抵押未來”,以使系統正常工作,但如果能按時交付并滿足需求,讓更多人體驗到技術的魔力,這種取舍是值得的。
我們始終堅持同樣的理念——為用戶提供最佳體驗,推動技術發展,創造前所未有的成果,并盡全力將它們推向世界,取得成功。
03 .
AI編程不止“炫技”,
正向嚴肅軟件工程轉型
主持人:“氛圍編程”(vibe coding)現在這已經成為了一種現象。你對它有什么看法?
Greg Brockman:氛圍編程作為一種賦能機制,非常神奇,也體現了未來的發展趨勢。它的具體形式會隨著時間推移不斷變化。
即使是像Codex這樣的技術,我們的愿景也是:當這些Agent真正投入使用時,不僅僅是一個或十個副本,而是可以同時運行成百上千、甚至十萬的Agent。
你會希望像對待同事一樣與它們協作——它們在云端運行,能連接到各種系統。即使你睡覺、筆記本電腦關機,它們仍能繼續工作。
目前,人們普遍將氛圍編程視為一種交互式循環,但這種形態將會改變。未來的交互會越來越多,同時Agentic AI將介入并超越這種模式,從而推動更多系統的構建。
一個有趣的現象是,許多氛圍編程的演示都集中在制作有趣的應用或惡搞網站等“酷炫”項目上,但真正新穎且具有變革性的是,AI已經開始能夠改造和深入現有應用。
許多公司在處理遺留代碼庫時,需要遷移、更新庫、將COBOL等舊語言轉換為現代語言,這既困難又乏味,而AI正逐步解決這些問題。
氛圍編程的起點是“做一些很酷的應用”,而它正在向嚴肅的軟件工程演進——尤其是在深入現有系統并進行改進的能力上。這將讓企業更快發展,而這正是我們的前進方向。
主持人:我聽說Codex對你來說有點像“親手養大的孩子”。你從一開始就強調要讓它模塊化、文檔完善。你認為Codex會怎樣改變我們的編程方式?
Greg Brockman:說它是我的“孩子”有點言過其實。我有一個非常出色的團隊,一直在努力支持他們及其愿景。這個方向既令人著迷,又充滿潛力。
最有趣的一點是,代碼庫的結構,決定了能從Codex中獲得多少價值。
現有代碼庫大多是為了發揮人類的優勢而設計的,而模型更擅長處理多樣化的任務,不像人類那樣能深度連接概念。如果系統能更契合模型的特點,效果會更好。
理想的做法是:將代碼拆分成更小的模塊,編寫快速可運行的高質量測試,然后由模型來填充細節。模型會自行運行測試并完成實現。組件之間的連接(架構圖)相對容易構建,而細節填充往往最困難。
這種方式聽起來像是良好的軟件工程實踐,但現實中,由于人類可以在腦中處理更復雜的概念抽象,往往會省略這一步。編寫和完善測試是一項繁重的任務,而模型可以比人類多運行100倍甚至1000倍的測試,從而承擔更多工作。
在某種意義上,我們希望構建的代碼庫更像是為初級開發人員而設計的,以便最大化模型的價值。當然,隨著模型能力的提升,這種結構是否仍然最優,將會是一個有趣的問題。
這一思路的好處在于,它與人類為了可維護性本應遵循的實踐一致。軟件工程的未來可能需要重新引入那些我們為了走捷徑而放棄的做法,從而讓系統發揮最大價值。
04 .
訓練系統愈加復雜,
檢查點設計需同步更新
問:我們現在執行的任務往往耗時更長、占用更多GPU,而且可靠性不高,經常出現失敗,導致訓練中斷。這一點眾所周知。
不過你提到過,可以重新啟動一次運行,這沒問題。但當你需要訓練具有長期軌跡的Agent時,該如何應對?因為如果軌跡本身具有非確定性,且已經進行到一半,就很難真正從頭重啟。
Greg Brockman:隨著模型能力的提升,你會不斷遇到新問題、解決問題、再遇到新的挑戰。
當運行時間很短時,這些問題并不顯著;但如果任務需要運行幾天,就必須認真考慮如何保存狀態等細節。簡而言之,隨著訓練系統復雜度增加,這類問題必須得到重視。
幾年前,我們主要關注傳統的無監督訓練,保存檢查點相對簡單,但即便如此,也并非易事。如果要從“偶爾保存檢查點”轉為“每一步都保存”,就必須嚴肅考慮如何避免數據復制、阻塞等問題。
在更復雜的強化學習系統中,檢查點仍然重要,比如保存緩存以避免重復計算。我們的系統有個優勢:語言模型的狀態相對明確,易于存儲和處理。但如果連接的外部工具本身有狀態,就可能無法在中斷后順利恢復。
因此,需要端到端地規劃整個系統的檢查點機制。或許在某些情況下,中斷并重啟系統、讓結果曲線出現一些波動是可以接受的,因為模型足夠智能,可以應對這種情況。我們計劃推出的新功能,就是允許用戶接管虛擬機,保存其狀態后再恢復運行。
05 .
做AGI不僅是做軟件,
還需同步打造超級計算機
黃仁勛:真希望我能在現場親自向你提問。在這個新的世界里,數據中心的工作負載和AI基礎設施將變得極其多樣化。一方面,有些Agent進行深度研究,負責思考、推理和規劃,并且需要大量內存;另一方面,有些Agent需要盡可能快速地做出響應。
如何構建一個AI基礎設施,使其既能高效處理大量預填充任務、大量解碼任務以及介于兩者之間的工作負載,同時又能滿足那些需要低延遲、高性能的多模態視覺和語音AI的需求?這些AI就像你的R2-D2(星球大戰中的機器人),或你的隨時可用的伴侶。
這兩類工作負載截然不同:一種超級計算密集,可能運行很長時間;另一種要求低延遲。未來理想的AI基礎設施是什么樣的呢?
Greg Brockman:當然,這需要大量的GPU。如果我要總結的話,老黃希望我告訴他應該建造什么樣的硬件。
有兩類需求:一類是長期、大規模計算需求,另一類是實時、即時計算需求。這確實很難,因為這是一個復雜的協同設計問題。
我是做軟件出身的,我們最初以為只是在開發AGI(通用人工智能)軟件,但很快就意識到,要實現這些目標,就必須建設大規模的基礎設施。
如果我們想打造真正改變世界的系統,可能需要建造人類歷史上最大的計算機,這在某種程度上是合理的。
一種簡單的做法是,確實需要兩類加速器:一種追求計算性能最大化,另一種追求極低延遲。在一類上堆疊大量高帶寬存儲器(HBM),另一類上堆疊大量計算單元,這樣就基本解決問題。真正難的是預測兩類需求的比例。如果平衡失誤,部分機群可能會變得無用,這聽起來很可怕。
不過,由于這個領域沒有固定規則和約束,主要是優化問題,如果工程師資源配置出現偏差,我們通常也能找到辦法利用這些資源,盡管可能付出較大代價。
例如,整個行業都在轉向混合專家模型(Mixture-of-Experts)。某種程度上,這是因為部分DRAM被閑置了,我們就利用這些閑置資源增加模型參數,從而提高機器學習計算效率,而不會增加額外計算成本。所以,即使資源平衡出錯,也不至于造成災難。
加速器的同質化是一個良好的起點,但我認為,最終為特定用途定制加速器也是合理的。隨著基礎設施資本支出達到驚人的規模,對工作負載進行高度優化也變得合理。
但業界還沒有定論,因為研究發展速度非常快,而這又在很大程度上主導了整個方向。
06 .
基礎研究正在回歸,
算法取代數據、算力成為關鍵瓶頸
問:我本來沒有打算問這個問題,但你提到了研究。你能對GPT-6擴展過程中面臨的瓶頸進行排名嗎?計算、數據、算法、電力、資金。哪幾個是第一和第二?OpenAI最受限于哪一個?
Greg Brockman:我認為,我們現在正處于一個基礎研究回歸的時代,這令人非常興奮。曾經有一段時間,人們的關注點是:我們有了Transformer,那就不斷擴展它。
在這些明確的問題中,主要任務只是提高指標,這固然有趣,但在某種程度上也令人感到在智力上不夠具有挑戰性,不讓人滿足。生活中不應只有“Attention is All You Need”原始論文的思路。
如今,我們看到的情況是,隨著算力和數據規模的快速擴展,算法的重要性再次凸顯,幾乎成為未來進步的關鍵瓶頸。
這些問題都是基礎而關鍵的環節,雖然在日常看起來可能有些不平衡,但從根本上,這些平衡必須保持。看到強化學習等范式的進展非常令人振奮,這也是我們多年來有意識投資的領域。
當我們訓練GPT-4時,第一次與它交互時,大家都會想:“這是AGI嗎?”顯然還不是AGI,但又很難明確說明為什么不是。它表現得非常流暢,但有時會走上錯誤的方向。
這說明可靠性仍是一個核心問題:它從未真正體驗過這個世界,更像是一個只讀過所有書籍或僅通過觀察世界來了解的人,與世界隔著一扇玻璃窗。
因此,我們意識到需要不同的范式,并持續推動改進,直到系統真正具備實際能力。我認為,這種情況至今仍然存在,還有許多明顯的能力缺口需要彌補。只要持續推進,我們終將達到目標。
07 .
“多樣化模型庫”逐漸成形,
未來經濟將由AI驅動
黃仁勛:對于在場的AI原生工程師來說,他們可能在想,未來幾年,OpenAI將擁有AGI(通用人工智能),他們將在OpenAI的AGI之上構建特定領域的Agent。隨著OpenAI的AGI變得越來越強大,他們的開發流程將如何改變?
Greg Brockman:我認為這是一個非常有趣的問題。可以從非常廣泛的角度去看,觀點堅定但互不相同。我的看法是:首先,一切皆有可能。
也許未來AI會強大到我們只需讓它們編寫所有代碼;也許會有在云端運行的AI;也許會有許多特定領域的Agent,需要大量定制工作才能實現。
我認為趨勢正在向這種“多樣化模型庫”的方向發展,這非常令人興奮,因為不同模型有不同的推理成本,從系統角度來看,蒸餾技術發揮得很好。實際上,很多能力來自于一個模型能調用其他模型的能力。
這將創造大量機會,我們正走向一個由AI驅動的經濟。雖然我們還未完全到達,但跡象已經顯現。當前在場的人正在構建這一切。經濟系統非常龐大、多樣且動態。
當人們設想AI的潛力時,很容易只關注我們現在在做的事情,以及AI與人類的比例。但真正重點是:如何讓經濟產出提升10倍,讓每個人都獲得更大收益?
未來,模型將更加強大,基礎技術更完善,我們會用它做更多事情,進入門檻也將更低。
像醫療領域,不能簡單應用,需要負責任地思考正確做法;教育領域涉及家長、教師和學生,每個環節都需要專業知識和大量工作。
因此,將會有大量機會去構建這些系統,在場的每一位工程師,都擁有實現這一目標的能量。