日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看

Cloud&AI
`
2025/5/27 14:26
微軟攜手清華、北大推出獎勵推理模型:根據 AI 任務復雜性動態分配計算資源
0
0

科技媒體 marktechpost 今天(5 月 27 日)發布博文,報道稱微軟研究院聯合清華大學、北京大學組建團隊,推出獎勵推理模型(Reward Reasoning Models,RRMs),通過顯式推理過程動態分配計算資源,提升復雜任務評估效果。

援引博文介紹,強化學習(Reinforcement Learning,RL)已成為大語言模型(LLM)后訓練的核心方法,通過人類反饋(RLHF)或可驗證獎勵(RLVR)提供監督信號。

然而,RLVR 在數學推理中雖有潛力,卻因依賴可驗證答案的訓練查詢而受限,難以應用于通用領域的大規模訓練。

此外,現有獎勵模型分為標量型和生成型兩大類,均無法有效擴展測試時的計算資源。當前方法對所有輸入統一分配計算資源,缺乏針對復雜查詢進行細致分析的能力,導致評估效果不佳。

為解決上述問題,微軟研究院、清華大學和北京大學的研究者聯手推出獎勵推理模型(RRMs)。RRMs 在給出最終獎勵前執行顯式推理過程,能夠根據任務復雜性自適應分配額外計算資源。

這種方法通過“思維鏈”(Chain-of-Thought)推理,針對獎勵不明顯的復雜查詢投入更多測試時計算資源。

RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架構,將獎勵建模轉化為文本補全任務,生成推理過程后給出最終判斷。

研究團隊利用 RewardBench 庫進行系統分析,評估指標包括指令遵循性、幫助性、準確性、無害性和細節水平。RRMs 還支持多響應評估,通過 ELO 評分系統和淘汰賽機制,結合多數投票提升計算資源利用率。

測試結果顯示,RRMs 在 RewardBench 和 PandaLM Test 基準測試中表現突出。其中,RRM-32B 在推理類別中達到 98.6% 的準確率,與使用相同數據訓練的 DirectJudge 模型相比,RRMs 展現出顯著性能差距,證明其在復雜查詢中有效利用測試時計算資源。

在獎勵引導的最佳 N 推理(Best-of-N Inference)和后訓練反饋中,RRMs 超越所有基線模型,且進一步提升多數投票機制效率。

研究還表明,隨著模型規模從 7B、14B 到 32B 擴展,更長的推理時間始終帶來準確性提升。RRMs 通過并行和順序擴展方法高效利用計算資源,為傳統標量獎勵模型提供強大替代方案。

免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯系我們     網站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網版權所有 舉報電話:021-54451141 用戶注銷

主站蜘蛛池模板: 日韩在线资源 | 日本一区二区三区免费视频 | 欧美日本道免费一区二区三区 | 成人123| 欧美片能看的一级毛片 | 欧美一级片免费在线观看 | 一区二区在线免费视频 | 一区二区三区免费精品视频 | 美女张开腿让男人捅的视频 | 三级毛片网站 | 国产精品成人aaaaa网站 | 亚州视频一区二区 | 在线欧洲成人免费视频 | 成人亚洲国产 | 亚洲天堂网在线播放 | 欧美成人一区二区三区在线视频 | 亚洲免费视频在线 | 精品乱人伦一区二区 | 国产网址在线观看 | 欧美一级毛片怡红院 | 91网站网站网站在线 | 欧美日韩亚洲视频 | 日韩免费在线 | 2020国产微拍精品一区二区 | 精品国产一区二区三区四区不 | 在线亚洲自拍 | 久久香焦| 欧美综合精品一区二区三区 | 国产视频97| 真实国产普通话对白乱子子伦视频 | 欧美一区二区三区精品国产 | 国产欧美日韩高清专区手机版 | 久久se精品一区二区国产 | 青草福利在线 | 亚洲精品在线免费看 | 男女超猛烈啪啦啦的免费视频 | 欧美激情国内自拍偷 | 免费一级毛片在级播放 | 日韩黄色在线 | 日本精品久久久久久久 | 欧美性猛交xxxxxxxx软件 |