4 月 10 日消息,豆包大模型團(tuán)隊(duì)今日通過(guò)官方公眾號(hào)宣布,首個(gè)多語(yǔ)言類 SWE 數(shù)據(jù)集 Multi-SWE-bench 現(xiàn)已正式開源,可用于評(píng)估和提升大模型“自動(dòng)修 Bug”能力。
在 SWE-bench 基礎(chǔ)上,Multi-SWE-bench 首次覆蓋 Python 之外的 7 種主流編程語(yǔ)言,是真正面向“全棧工程”的評(píng)測(cè)基準(zhǔn)。其數(shù)據(jù)均來(lái)自 GitHub issue,歷時(shí)近一年構(gòu)建,以盡可能準(zhǔn)確測(cè)評(píng)和提高大模型高階編程智能水平。

Multi-SWE-bench 旨在推動(dòng)自動(dòng)編程技術(shù)從僅能解決單一語(yǔ)言(如 Python)和低復(fù)雜度的任務(wù),朝著支持多語(yǔ)言、具備真實(shí)問題解決能力的通用型智能體邁進(jìn)。
SWE-bench 是當(dāng)前最具代表性的代碼修復(fù)評(píng)測(cè)基準(zhǔn),強(qiáng)調(diào)任務(wù)真實(shí)、難度高。它基于 GitHub issue,要求模型自動(dòng)定位并修復(fù) Bug,兼具跨文件修改、復(fù)雜語(yǔ)義推理與上下文理解等挑戰(zhàn)。
Multi-SWE-bench 旨在補(bǔ)全現(xiàn)有同類基準(zhǔn)語(yǔ)言覆蓋方面的不足,系統(tǒng)性評(píng)估大模型在復(fù)雜開發(fā)環(huán)境下的“多語(yǔ)言泛化能力”,推動(dòng)多語(yǔ)言軟件開發(fā) Agent 的評(píng)估與研究,其主要特性如下:
首次覆蓋 7 種主流編程語(yǔ)言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),構(gòu)建多語(yǔ)言開發(fā)環(huán)境下的代碼修復(fù)任務(wù),系統(tǒng)評(píng)估模型的跨語(yǔ)言適應(yīng)與泛化能力;
引入任務(wù)難度分級(jí)機(jī)制,將問題劃分為簡(jiǎn)單(Easy)、中等(Medium)和困難(Hard)三類,涵蓋從一行修改到多文件、多步驟、多語(yǔ)義依賴的開發(fā)挑戰(zhàn);
1,632 個(gè)實(shí)例全部來(lái)源于真實(shí)開源倉(cāng)庫(kù),并經(jīng)過(guò)統(tǒng)一的測(cè)試標(biāo)準(zhǔn)和專業(yè)開發(fā)者的審核篩選,確保每個(gè)樣本具備清晰的問題描述、正確的修復(fù)補(bǔ)丁以及可復(fù)現(xiàn)的運(yùn)行測(cè)試環(huán)境。

附開源鏈接:
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:
論文鏈接:https://arxiv.org/ abs / 2504.02605
榜單鏈接:https://multi-swe-bench.github.io
代碼鏈接:https://github.com/ multi-swe-bench / multi-swe-bench
數(shù)據(jù)鏈接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench
本文鏈接:http://www.rrqrq.com/showinfo-45-12213-0.html大模型“自動(dòng)修 bug”能力將提升,豆包團(tuán)隊(duì)開源首個(gè)多語(yǔ)言代碼修復(fù)基準(zhǔn) Multi-SWE-bench
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:[email protected]
上一篇: 優(yōu)音通信雙獎(jiǎng)加冕,智能通信創(chuàng)新引領(lǐng)行業(yè)未來(lái)!