亚洲欧美在线视频_欧美日韩国产影片_又紧又大又爽精品一区二区_欧美精品一区二区三区一线天视频 _视频一区视频二区中文字幕_久久99在线观看_欧美日韩dvd在线观看_亚洲一区二区三区三_国产高清亚洲一区_精品无人区卡一卡二卡三乱码免费卡_九一久久久久久_91老司机福利 在线_欧美一区二区三区视频免费_3d成人h动漫网站入口_欧美在线不卡一区_国产成人免费视频一区

登錄
首頁 > 汽車測評 > Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

發布時間:2025-09-13 12:07:07

Meta超級智能實驗室(MSL)又被送上爭議的風口浪尖了。

不過,這次不是人事風波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質疑忽視前人研究、缺乏創新

究竟是啥論文?

讓模型在博弈中學習

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓練數據的情況下實現自我提升

這一方法旨在應對當前大語言模型高度依賴大規模、高質量訓練數據,且訓練數據有限所帶來的困境。

為此,LSP將模型的學習過程設計成一個博弈框架,讓同一個語言模型扮演兩個角色進行對抗,從而實現無數據訓練。

具體來說,這兩個角色分別是:

  • 挑戰者:負責生成越來越有挑戰性的問題或指令。
  • 解決者:負責回答或執行這些指令。

在對抗過程中,挑戰者不斷生成越來越刁鉆的問題或指令,以降低解決者的預期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。

通過這樣的對抗訓練,模型能夠在不斷博弈中持續改進,逐步提升能力。

此外,與傳統對抗訓練不同,LSP讓單個語言模型同時扮演“挑戰者”和“解決者”兩個角色,研究人員給模型設計了一個特殊的“挑戰者提示”(Challenger Prompt):當接收到該提示時,模型進入挑戰者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設計避免了訓練獨立對抗模型所帶來的額外開銷和不穩定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數據輸入的情況下提升自身能力

為了將這個博弈轉化成模型強化學習的過程,研究中采用了GRPO技巧,讓模型在每輪訓練中進行如下操作:

  • 挑戰者生成問題:每輪生成N個問題。

  • 解決者回答問題:對于每個問題,解決者生成一定數量的答案,并分別計算獎勵。

  • 計算組價值與優勢:把解決者對同一個問題的所有答案的獎勵進行平均,得到這個問題整體的難度或表現水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 - 更新挑戰者優勢:通過計算優勢函數獲得問題和答案的反饋,優化自己出題的策略。

通過這種獎勵機制,挑戰者生成的問題會針對解決者的薄弱環節,從而推動模型不斷改進。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實踐中,研究者發現LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內容(即獎勵 hacking)。

針對解決這個問題,他們在LSP算法中引入了“自我質量獎勵”(RQ),引導博弈朝高質量交互發展,使訓練可長期進行。

(注:LSP的具體算法如下表)

最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準上進行了兩組實驗。

實驗一將算法與基礎模型本身以及一個通過傳統強化學習微調的大語言模型進行比較。

實驗結果顯示,沒有使用任何數據的LSP和LSP-Zero和使用了數據的GRPO相當,并且顯著優于原始模型。而在 Vicuna這類對話型和開放式指令的數據集上,LSP 的表現遠超GRPO。

實驗二以實驗一中通過數據驅動 RL(GRPO)訓練得到的模型為起點,進一步使用 LSP-Zero 和 LSP 進行訓練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進行對比。

實驗顯示,經過LSP的進一步訓練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數據集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數據驅動的訓練之后繼續挖掘模型潛力。

總的來說,實驗結果表明,LSP-Zero和LSP算法能夠在無需訓練數據的情況下提升預訓練LLM的性能,尤其是在對話類任務上表現顯著,而這可能意味著AI正在從依賴人類數據過渡到自主學習系統。

網友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經發布后,在網友們這倒是出了些小插曲。

一位推特網友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區的典型操作。

而且,就連失敗的模型也大同小異。

評論區有網友表示這可能是一篇老工作,然后拿到MSL發的:

Copyright 2017-2025 新車測評網 版權所有  ICP備18049689號-30
亚洲欧美在线视频_欧美日韩国产影片_又紧又大又爽精品一区二区_欧美精品一区二区三区一线天视频 _视频一区视频二区中文字幕_久久99在线观看_欧美日韩dvd在线观看_亚洲一区二区三区三_国产高清亚洲一区_精品无人区卡一卡二卡三乱码免费卡_九一久久久久久_91老司机福利 在线_欧美一区二区三区视频免费_3d成人h动漫网站入口_欧美在线不卡一区_国产成人免费视频一区

        成人精品免费视频| 喷水一区二区三区| 精品久久国产97色综合| 欧美一区二区福利视频| 欧美三级资源在线| 日韩一二三区视频| 欧美精品一区二区三区高清aⅴ| 欧美一区二区三区人| 日韩欧美另类在线| 日韩精品一区国产麻豆| 国产亚洲综合av| 最新不卡av在线| 亚洲超丰满肉感bbw| 亚洲va天堂va国产va久| 久久爱另类一区二区小说| 成人免费看黄yyy456| 国产一区自拍视频| 亚洲国产精品一区二区第四页av | 色偷偷成人一区二区三区91| 欧美亚洲另类激情小说| 久久综合久久综合亚洲| 亚洲日本丝袜连裤袜办公室| 视频一区在线视频| 粉嫩欧美一区二区三区高清影视| 91视频在线看| 亚洲精品无人区| 欧美一区二区成人| 自拍av一区二区三区| 日韩一区精品视频| caoporm超碰国产精品| 欧美人与物videos另类| 色呦呦一区二区三区| 久久网站最新地址| 亚洲1区2区3区视频| 成人av网站在线观看免费| 三区精品视频| 久久人人超碰精品| 视频在线观看国产精品| 91在线观看视频| 中文字幕中文字幕在线中心一区| 精品国产凹凸成av人导航| 一区二区成人在线| 不卡一区二区三区四区| 亚洲日本精品国产第一区| 精品久久五月天| 日本三级韩国三级欧美三级| 97碰碰视频| 欧美体内she精高潮| 亚洲欧洲日韩一区二区三区| 久草这里只有精品视频| 精品一区二区三区国产| 这里只有精品视频在线观看| 亚洲激情五月婷婷| av爱爱亚洲一区| 正在播放91九色| 欧美国产亚洲另类动漫| 久久精工是国产品牌吗| 欧洲精品久久| 国产日韩av一区二区| 精品一区二区久久| 欧美日韩国产高清视频| 欧美va亚洲va| 久久不见久久见免费视频7| 裸模一区二区三区免费| 精品国精品国产| 久久99精品久久久久婷婷| 久久偷看各类wc女厕嘘嘘偷窃| 日韩欧美一区二区三区在线| 美腿丝袜在线亚洲一区| 日本婷婷久久久久久久久一区二区| 久久综合久久综合亚洲| 国产高清精品网站| 欧美亚洲综合久久| 天堂精品中文字幕在线| 免费在线成人av电影| 国产亚洲精品免费| 成人精品电影在线观看| 欧美日韩综合一区| 青娱乐精品视频| 亚洲国产欧美日韩| 一区二区视频在线看| 久久久久久国产精品mv| 国产精品久久久久久久久晋中| proumb性欧美在线观看| 欧美一区二区成人6969| 国产一区二区电影| 欧美日韩免费一区二区三区视频| 婷婷六月综合亚洲| 一区二区三区四区五区视频| 一区二区三区在线视频观看58 | 蜜臀99久久精品久久久久久软件| 久久影院理伦片| 亚洲国产成人在线| 91嫩草免费看| 国产视频一区在线播放| 3d精品h动漫啪啪一区二区| 精品国产91九色蝌蚪| 成人国产精品免费观看动漫| 欧美一区二区三区免费观看视频 | 久久综合丝袜日本网| 成人性色生活片| 日韩视频国产视频| 99re视频精品| 日本一区二区视频在线观看| 91pron在线| 国产精品九色蝌蚪自拍| 国产伦精品一区二区三区四区视频| 久久精品视频一区二区| 国产精品美女久久久久av福利| 日本一二三不卡| 国产在线精品一区二区三区》| 久久久久久久久久久久久久久99 | 国产一区二区三区高清| 国产精品萝li| 久久综合九色综合久99| 一区二区三区四区蜜桃 | 久久久久久久久久久久久女国产乱| 91在线免费播放| 国产精品不卡在线| 视频一区在线免费观看| 蜜桃传媒麻豆第一区在线观看| 7799精品视频| 9i看片成人免费高清| 国产精品久线观看视频| 四虎永久在线精品免费一区二区| 日韩精品一级中文字幕精品视频免费观看| 在线亚洲精品福利网址导航| 成人午夜电影久久影院| 国产精品久久久久永久免费观看| 少妇精品久久久久久久久久| 久久国产欧美日韩精品| 精品久久五月天| 欧美精品中文字幕一区二区| 蜜臀va亚洲va欧美va天堂| 日韩精品一区二区三区四区视频 | 3d动漫啪啪精品一区二区免费| ㊣最新国产の精品bt伙计久久| 亚洲午夜精品久久久中文影院av | 成人av资源网| 亚洲午夜一区二区| 911精品产国品一二三产区| 91成人免费视频| 午夜久久福利影院| 欧美一级生活片| 精品国产一区二区三区免费| 日韩专区欧美专区| 精品少妇一区二区三区免费观看| 久久久久久久久久久久久久久久av | 亚洲精品日韩精品| 高清视频一区二区| 亚洲综合在线免费观看| 日韩一区二区免费视频| 麻豆精品视频| 国产精品99久久久久久宅男| 国产精品理论在线观看| 欧美精品自拍偷拍动漫精品| 精品免费国产| 久久久久久亚洲精品不卡4k岛国| 亚洲一卡二卡三卡| 亚洲一区二区三区不卡国产欧美 | 日产国产精品精品a∨| 欧美成人精品二区三区99精品| 日韩精品国产欧美| 日韩免费观看2025年上映的电影 | 中文字幕免费不卡| 一本色道久久综合亚洲91| 成人一区二区三区| 亚洲国产综合91精品麻豆| 日韩欧美一级精品久久| 偷拍视频一区二区| 999日本视频| 精品亚洲国产成人av制服丝袜| 成人欧美一区二区三区小说 | 欧美视频自拍偷拍| 久久大香伊蕉在人线观看热2| 国产精品一区在线观看你懂的| 一区二区三区产品免费精品久久75| 欧美变态凌虐bdsm| 在线看日本不卡| 欧美日韩在线高清| 91免费观看国产| 国产一区视频网站| 无吗不卡中文字幕| 亚洲欧美另类图片小说| 久久毛片高清国产| 欧美一区二区三区白人| 一本大道久久a久久综合| 成人资源视频网站免费| 成熟亚洲日本毛茸茸凸凹| 九色|91porny| 日韩精品电影一区亚洲| 一区二区三区日韩欧美精品| 国产视频一区二区三区在线观看| 91精品国产一区二区三区蜜臀| 色欧美片视频在线观看| 欧美最大成人综合网| 精品一区二区不卡| 国产伦精品一区二区三区照片91 | 国产成人精品免费一区二区| 免费成人在线观看|