豆包開源:提升大模型自動修 Bug 的數(shù)據(jù)集
豆包開源:提升大模型自動修 Bug 的數(shù)據(jù)集
2025 年 4 月 10 日,字節(jié)跳動豆包大模型團隊宣布了一項重大舉措,正式開源較早多語言類軟件工程(SWE)數(shù)據(jù)集 ——Multi - SWE - bench。這一開創(chuàng)性的數(shù)據(jù)集旨在評估和提升大模型的 “自動修 Bug” 能力,為人工智能在編程領(lǐng)域的發(fā)展注入了新的活力。
一、Multi - SWE - bench:突破語言局限,邁向全棧評測
在編程領(lǐng)域,不同的編程語言有著各自的特點和應(yīng)用場景。以往的相關(guān)研究和數(shù)據(jù)集大多聚焦于 Python 這一種語言,然而在實際的軟件開發(fā)過程中,開發(fā)者常常需要面對多種編程語言交織的復(fù)雜環(huán)境。Multi - SWE - bench 的出現(xiàn),改變了這一局面。
它在 SWE - bench 的基礎(chǔ)上進行了重大擴展,將覆蓋范圍延伸至 Python 之外的 7 種主流編程語言,包括 Java、Go、Rust、C、C++、TypeScript 和 JavaScript。這使得 Multi - SWE - bench 成為真正意義上面向 “全棧工程” 的評測基準。通過這一數(shù)據(jù)集,能夠更多方面、系統(tǒng)地評估大模型在不同編程語言環(huán)境下處理代碼、定位和修復(fù) Bug 的能力,為大模型在復(fù)雜編程場景中的應(yīng)用提供了更準確的測評依據(jù)。
二、精心構(gòu)建:源于真實,保障可靠
Multi - SWE - bench 包含 1632 個實例,這些實例均來自 GitHub issue。構(gòu)建這樣一個大規(guī)模、多語言的數(shù)據(jù)集并非易事,豆包大模型團隊歷時近一年才完成。從 GitHub issue 中獲取數(shù)據(jù),能夠保證數(shù)據(jù)來源于真實的開發(fā)場景,反映出實際項目中可能出現(xiàn)的各種問題,具有極高的真實性和實用性。
并且,所有實例都經(jīng)過了統(tǒng)一的測試標準和專業(yè)開發(fā)者的審核篩選。這一嚴格的流程確保了每個樣本具備清晰的問題描述,讓大模型能夠準確理解問題所在;同時,擁有正確的修復(fù)補丁,為大模型提供了參考標準;以及可復(fù)現(xiàn)的運行測試環(huán)境,使得對大模型修復(fù)結(jié)果的驗證更加可靠。通過這樣精心的構(gòu)建,Multi - SWE - bench 為提升大模型在自動修 Bug 方面的能力提供了堅實的數(shù)據(jù)基礎(chǔ)。
三、推動自動編程能力的進化
豆包大模型團隊期望,Multi - SWE - bench 能夠作為大模型在多種主流編程語言與真實代碼環(huán)境中的系統(tǒng)性評測基準,有力地推動自動編程能力朝著更實用、更工程化的方向發(fā)展。
在當前的技術(shù)發(fā)展趨勢下,自動化編程能力的提升對于提高軟件開發(fā)效率、降低成本具有重要意義。以往的模型在面對單一語言任務(wù)時,可能能夠取得一定的成果,但在復(fù)雜的多語言開發(fā)場景中,往往暴露出諸多不足。而 Multi - SWE - bench 更貼近現(xiàn)實中的多語言開發(fā)場景,能夠更準確地反映當前模型在 “自動化軟件工程” 方向上的實際能力邊界。通過使用這一數(shù)據(jù)集對大模型進行評估和訓練,可以幫助模型更好地適應(yīng)真實開發(fā)環(huán)境,提高其在不同編程語言中自動定位和修復(fù) Bug 的準確性和效率,從而真正實現(xiàn)從理論研究到實際應(yīng)用的跨越。
四、為開發(fā)者帶來的價值
對于廣大開發(fā)者而言,Multi - SWE - bench 的開源無疑是一個福音。在日常開發(fā)工作中,Bug 的定位和修復(fù)往往占據(jù)了大量的時間和精力。借助基于 Multi - SWE - bench 訓練和優(yōu)化的大模型,開發(fā)者可以利用模型來自動識別和修復(fù)不同編程語言中的 Bug,極大降低人工參與的難度和工作量,提高開發(fā)效率。
同時,開發(fā)者還可以利用該數(shù)據(jù)集訓練自己的 AI 模型,針對常見編程錯誤的修復(fù)能力進行持續(xù)改進。這不僅有助于提升開發(fā)者個人的工作能力,對于整個開發(fā)團隊和軟件項目來說,也能夠提升軟件的質(zhì)量和穩(wěn)定性,增強項目的競爭力。
五、帶領(lǐng)行業(yè)發(fā)展新方向
Multi - SWE - bench 的開源,不僅只是一個數(shù)據(jù)集的發(fā)布,它象征著一種趨勢和方向。隨著越來越多的開發(fā)者和研究人員開始關(guān)注多語言編程需求,以及大模型在自動修 Bug 方面的應(yīng)用,這一數(shù)據(jù)集將成為推動行業(yè)發(fā)展的重要力量。
它將激勵更多的團隊參與到相關(guān)技術(shù)的研究和創(chuàng)新中,促進各類工具和平臺的不斷涌現(xiàn),為整個行業(yè)帶來變革性的進步。可以預(yù)見,在 Multi - SWE - bench 的推動下,未來大模型在自動編程領(lǐng)域?qū)l(fā)揮更大的作用,為軟件開發(fā)行業(yè)帶來更高的效率和更好的質(zhì)量,讓開發(fā)者能夠從繁瑣的 Bug 修復(fù)工作中解放出來,將更多的精力投入到創(chuàng)新性的開發(fā)工作中。
字節(jié)跳動豆包大模型團隊開源的 Multi - SWE - bench 數(shù)據(jù)集,為大模型在自動修 Bug 能力提升方面提供了強大的支持,為編程領(lǐng)域的發(fā)展帶來了新的機遇和挑戰(zhàn)。無論是對于大模型的研發(fā)者,還是廣大的開發(fā)者,都具有極高的價值,有望在未來推動整個軟件開發(fā)行業(yè)邁向新的高度。