日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看

Cloud&AI
`
2025/4/10 14:17
大模型“自動修 bug”能力將提升,豆包團隊開源首個多語言代碼修復基準 Multi-SWE-bench
0
0

豆包大模型團隊今日通過官方公眾號宣布,首個多語言類 SWE 數據集 Multi-SWE-bench 現已正式開源,可用于評估和提升大模型“自動修 Bug”能力。

在 SWE-bench 基礎上,Multi-SWE-bench 首次覆蓋 Python 之外的 7 種主流編程語言,是真正面向“全棧工程”的評測基準。其數據均來自 GitHub issue,歷時近一年構建,以盡可能準確測評和提高大模型高階編程智能水平。

Multi-SWE-bench 旨在推動自動編程技術從僅能解決單一語言(如 Python)和低復雜度的任務,朝著支持多語言、具備真實問題解決能力的通用型智能體邁進。

SWE-bench 是當前最具代表性的代碼修復評測基準,強調任務真實、難度高。它基于 GitHub issue,要求模型自動定位并修復 Bug,兼具跨文件修改、復雜語義推理與上下文理解等挑戰。

Multi-SWE-bench 旨在補全現有同類基準語言覆蓋方面的不足,系統性評估大模型在復雜開發環境下的“多語言泛化能力”,推動多語言軟件開發 Agent 的評估與研究,其主要特性如下:

首次覆蓋 7 種主流編程語言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),構建多語言開發環境下的代碼修復任務,系統評估模型的跨語言適應與泛化能力;

引入任務難度分級機制,將問題劃分為簡單(Easy)、中等(Medium)和困難(Hard)三類,涵蓋從一行修改到多文件、多步驟、多語義依賴的開發挑戰;

1,632 個實例全部來源于真實開源倉庫,并經過統一的測試標準和專業開發者的審核篩選,確保每個樣本具備清晰的問題描述、正確的修復補丁以及可復現的運行測試環境。

附開源鏈接:

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:

論文鏈接:https://arxiv.org/abs / 2504.02605

榜單鏈接:https://multi-swe-bench.github.io

代碼鏈接:https://github.com/multi-swe-bench / multi-swe-bench

數據鏈接:https://huggingface.co/datasets / ByteDance-Seed / Multi-SWE-bench

免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯系我們     網站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網版權所有 舉報電話:021-54451141 用戶注銷

主站蜘蛛池模板: 欧美视频在线观看一区二区 | 免费韩国美女爽快一级毛片 | 成年人视频在线免费播放 | 欧美一级毛片一级毛片 | 国产美女无遮挡软件 | 色一情 | 久久精品国产99国产 | 国产成人亚洲精品91专区高清 | 国产高清在线精品一区在线 | 九九在线视频 | 成人a视频片在线观看免费 成人a视频在线观看 | 一区二三区国产 | 一区二区三区在线视频观看 | 黄色三级网站免费 | 欧美日产国产亚洲综合图区一 | 韩国毛片免费看 | 免费va国产高清不卡大片 | 在线看片一区 | 亚洲日本激情 | 99久久精品国产片久人 | 91一级片 | 国产福利三区 | 99精品高清视频一区二区 | 拍拍拍又黄又爽无挡视频免费 | 成人的天堂 | 国产一区二区三区精品视频 | 国产欧美日韩另类 | 国产精品二区三区免费播放心 | 久久精品视 | 成人高清在线观看播放 | 99国产在线视频 | 成人精品视频网站 | 一级女人毛片 | 在线视频一二三区2021不卡 | 久久er热在这里只有精品85 | 日本午夜三级 | 国产精品一一在线观看 | 亚洲综合伊人色一区 | 成人禁在线观看网站 | 日本高清va不卡视频在线观看 | 久久久久一 |