Bitget App
交易「智」變
快速買幣市場交易合約BOT理財跟單
Sakana AI 推出自我改良型代理,在 SWE-Bench 上效能提升高達 50%

Sakana AI 推出自我改良型代理,在 SWE-Bench 上效能提升高達 50%

MpostMpost2025/06/03 19:56
作者:Mpost

簡單來說 Sakana AI 推出了達爾文哥德爾機,這是一種自我改進的代理,在 SWE-bench 上的性能提升高達 50.0%,在 Polyglot 上的性能提升高達 30.7%。

日本人工智慧公司 坂名愛 提出了達爾文·哥德爾機(DGM),這是一種能夠修改自身代碼的自我修改代理。該系統從進化原理中汲取靈感,並不斷維護代理變體的譜系,從而能夠在廣泛的自我改進代理設計領域內持續探索。

雖然目前的代理系統在部署後通常是靜態且不變的,但 DGM 強調持續的自我改進是提升 AI 能力的關鍵因素。該機器旨在支援能夠像人類一樣隨著時間推移學習和發展能力的 AI 系統。

我們的實驗表明,達爾文哥德爾機能夠透過修改自身程式碼庫不斷自我改進。在 SWE-bench 上,DGM 自動將其效能提升了 20% 至 50%。

此處的圖表顯示了迭代過程中的效能進展,以及...的總結。 pic.twitter.com/RjxapMTQN3

— Sakana AI (@SakanaAILabs) 2025 年 5 月 30 日

DGM 代表著人工智慧系統邁出的顯著一步,該系統能夠自主識別並基於自身的學習里程碑不斷創新。該系統透過從現有集合中選擇一個智能體,並運用基礎模型產生該智能體的全新改進版本,從而擴展其智能體庫。這種開放式探索過程創造了一個由多樣化、高品質智能體組成的不斷增長的樹狀結構,從而能夠同時探索搜尋空間內的多條路徑。 

實證結果表明,DGM 的編碼能力隨著時間的推移不斷提升——改進了代碼編輯、長上下文管理和同行評審機制等工具——從而在 SWE-bench(從 20.0% 提升至 50.0%)和 Polyglot(從 14.2% 提升至 30.7%)等基準測試中取得了顯著提升。此系統的表現始終優於缺乏自我改進或開放式探索能力的基準模型。

值得注意的是,向最有效的藥劑進化有時涉及中間體 代理 那些表現不如其前輩,但仍保留在譜系中的智能體,這體現了開放式搜尋策略的優勢。這種方法保留了多樣化的有用中間智能體檔案,而不是僅僅專注於從表現最佳的智能體分支,這表明進展並不總是遵循線性路徑。

研究進一步表明,DGM 發現的代理程式的改進性能可以推廣到不同的基礎模型,例如從 Claude 轉移到 o3-mini,以及各種程式語言和任務域,包括 Python、Rust、C++、Go 等。

Sakana AI:開發受自然和集體智慧啟發的人工智慧系統

Sakana AI 是一家位於東京的人工智慧研究公司,專注於開發受自然過程啟發的人工智慧系統。該公司的方法是整合多個較小的自主模型,形成類似魚群運作方式的集體智慧。這種方法與傳統的大型人工智慧模型不同,它優先考慮適應性、資源效率和長期可持續性。

Sakana AI 的研究項目之一是「演化模型合併」技術,該技術運用演化演算法來整合現有的人工智慧模型。該過程能夠產生具有特定功能的新模型,同時最大限度地降低對大量運算能力的需求。此外,Sakana AI 還開發了“ 人工智慧科學家 ”,該系統旨在透過允許基礎模型獨立進行調查和發現過程來實現科學研究的自動化。

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡

Aurora 推出 ACC 市場:一鍵式堆疊,實現自訂區塊鏈部署

簡單來說 Aurora 推出了 ACC Marketplace,這是一個即插即用的中心,旨在簡化 Web3 集成,使企業能夠透過一系列強大的內建功能快速部署虛擬鏈。

Mpost2025/06/05 09:48
Aurora 推出 ACC 市場:一鍵式堆疊,實現自訂區塊鏈部署

1000000BOBUSDT 現已上架合約交易和交易BOT

Bitget Announcement2025/06/05 08:41

CandyBomb x CUDIS:交易瓜分 1,000,000 CUDIS!

Bitget Announcement2025/06/05 07:17