Alpha Arena揭示AI交易缺陷:西方模型在一週內損失80%資本

Alpha Arena揭示AI交易缺陷:西方模型在一週內損失80%資本

ForesightNews 速递ForesightNews 速递2025/10/27 09:54
顯示原文
作者:ForesightNews 速递
市場是 AI 的終極測試。


撰文:Juan Galt

編譯:AididiaoJP,Foresight News


AI 能交易加密貨幣嗎?來自紐約的計算機工程師兼金融從業者 Jay Azhang 正在通過 Alpha Arena 對這個問題進行測試。該項目讓最強大的大型語言模型相互對抗,每個模型擁有價值 1 萬美元的資本,看哪個能在加密貨幣交易中賺更多錢。這些模型包括 Grok 4、Claude Sonnet 4.5、Gemini 2.5 pro、ChatGPT 5、Deepseek v3.1 和 Qwen3 Max。


現在你可能在想「哇,這真是個絕妙的主意!」 並且會感到驚訝,在撰寫本文時,五個 AI 中有三個處於虧損狀態,而 Qwen3 和 Deepseek 這兩個中國開源模型領先。


Alpha Arena揭示AI交易缺陷:西方模型在一週內損失80%資本 image 0


沒錯,西方世界最強大、閉源、由 Google 和 OpenAI 等巨頭運營的專有人工智能,在短短一週多的時間裡已經損失了超過 8000 美元,占其加密貨幣交易資本的 80%,而東方的開源同行則處於盈利狀態。


迄今為止最成功的交易?Qwen3 保持利潤且持續盈利,僅通過簡單的 20 倍 bitcoin 多頭頭寸。Grok 4 毫不意外地在比賽的大部分時間裡一直以 10 倍槓桿做多 dogecoin,曾一度與 Deepseek 一起位居榜首,現在卻接近虧損 20%。也許 Elon Musk 應該發個 dogecoin 表情包什麼的,讓 Grok 擺脫困境。


Alpha Arena揭示AI交易缺陷:西方模型在一週內損失80%資本 image 1


與此同時,Google 的 Gemini 則無情地看跌,對所有可交易的加密資產做空,這一立場呼應了它們過去 15 年來的總體加密貨幣政策。


最後它連續一週做出了所有可能出現的錯誤交易,能做到那麼差也是需要技巧的,尤其是當 Qwen3 只是做多 bitcoin 的情況下。如果這就是閉源 AI 所能提供的最好水平,那麼也許 OpenAI 應該繼續保持閉源,免得讓我們遭受損失。


AI 的新基準


讓 AI 模型在加密貨幣交易競技場中相互對抗的想法具有一些非常深刻的見解。首先 AI 無法在預訓練中獲得加密貨幣交易知識測試的答案,因為它是不可預測的,這是其他基準測試所面臨的問題。換句話說,許多 AI 模型在訓練中就被提供了其中一些測試的答案,因此它們在測試時自然表現良好。但一些研究表明,對這些測試稍作改動會導致 AI 基準測試結果發生巨大變化。


這一爭議引出了一個疑問:什麼是智能的終極測試?根據 Grok 4 的創造者、鋼鐵人愛好者 Elon Musk 的說法,預測未來是智能的終極衡量標準。


Alpha Arena揭示AI交易缺陷:西方模型在一週內損失80%資本 image 2


而且我們得承認,沒有比加密貨幣的短期價格更不確定的未來了。用 Azhang 的話說,「我們 Alpha Arena 的目標是讓基準測試更接近現實世界,而市場對此來說是完美的。它們是動態的、對抗性的、開放式的且永遠不可預測的。它們以靜態基準測試無法做到的方式挑戰 AI。市場是 AI 的終極測試。」


這種關於市場的見解深深植根於 bitcoin 誕生的自由主義原則之中。像 Murray Rothbard 和 Milton Friedman 這樣的經濟學家在一百多年前就指出,市場從根本上說是中央政府無法預測的,只有那些需要承擔損失的個體做出真實的經濟決策時,才能進行理性的經濟計算。


換句話說,市場是最難預測的事物,因為它取決於全世界智能個體的個人觀點和決策,因此它是對智能的最佳測試。


Azhang 在其項目描述中提到,指示 AI 進行交易不僅是為了收益,還要考慮風險調整後的回報。這個風險維度至關重要,因為一筆糟糕的交易就可能抹去之前所有的回報,例如在 Grok 4 的投資組合崩盤中看到的那樣。


還存在另一個問題,那就是這些模型是否從它們交易加密貨幣的經驗中學習,這在技術上並不容易實現,因為 AI 模型首先進行預訓練的成本非常高昂。它們可以用自己的交易歷史或他人的歷史進行微調,它們甚至可能將最近的交易保留在短期記憶或上下文窗口中,但這只能讓它們走到這一步。最終正確的 AI 交易模型可能必須真正從自身的經驗中學習,這項技術最近已在學術界宣布,但在成為產品之前還有很長的路要走。MIT 稱它們為自我適應的 AI 模型。


我們如何知道這不僅僅是運氣?


對該項目及其迄今為止結果的另一項分析是,它可能與「隨機漫步」無法區分。隨機漫步類似於為每個決策擲骰子。這在圖表上會是什麼樣子?實際上有一個模擬器你可以用來回答這個問題;實際上看起來不會有太大不同。


Alpha Arena揭示AI交易缺陷:西方模型在一週內損失80%資本 image 3


市場中的運氣問題也已被像 Nassim Taleb 這樣的知識分子在其著作《反脆弱》中相當仔細地描述過。他在書中論證,從統計學的角度來看,一個交易者,比如說 Qwen3,連續整整一週都很幸運,這是完全正常且可能的!從而導致其看起來具有卓越的推理能力。Taleb 的觀點遠不止於此,他認為華爾街有足夠多的交易者,以至於其中一個人很容易連續走運 20 年,建立起神一樣的聲譽,周圍所有人都認為這個交易者就是個天才,直到運氣耗盡。


因此,為了讓 Alpha Arena 產生有價值的數據,它實際上必須運行很長時間,並且其模式和結果也需要獨立地進行複製,同時涉及真實資本的風險,然後才能被認定為與隨機漫步不同。


最終到目前為止,看到像 DeepSeek 這樣開源、成本效益高的模型表現優於閉源的同行。Alpha Arena 迄今為止一直是一個很好的娛樂來源,因為它在上週已經在 X.com 上病毒式傳播。它的未來走向誰也猜不透;我們將不得不看看其創造者所採取的賭博:給五個聊天機器人 5 萬美元用於加密貨幣賭博,最終是否會得到回報。

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡

美國眾議員推動禁止總統及國會議員進行加密貨幣交易

美國眾議員Ro Khanna提出新提案,旨在禁止總統及國會議員交易加密貨幣,此舉源於外界對Trump特赦Binance事件的憤怒以及對美國政界貪腐問題日益增長的擔憂。

BeInCrypto2025/10/27 23:12
美國眾議員推動禁止總統及國會議員進行加密貨幣交易

IOSG Weekly Brief|x402-數位智能體的加密支付新標準

x402是一項革命性的開放支付標準,通過激活HTTP 402狀態碼,將支付功能嵌入互聯網協議層,實現機器之間的原生支付能力,推動互聯網從信息網絡向機器經濟網絡轉型,為AI智能體和自動化系統創造無需人工干預的價值傳輸基礎設施。

深潮2025/10/27 22:50
IOSG Weekly Brief|x402-數位智能體的加密支付新標準

專訪 Aptos 創始人 Avery Ching:不做通用 L1,專注於全球交易引擎

Aptos 不定位為通用 L1,而是全球交易者的家園,專注於全球交易引擎。

深潮2025/10/27 22:49

Pharos 採用 Chainlink CCIP 作為跨鏈基礎設施,並使用 Data Streams 賦能代幣化 RWA 市場

可編程開放金融Layer-1區塊鏈Pharos Network宣布採用Chainlink CCIP作為跨鏈基礎設施,並利用Chainlink Data Streams提供亞秒級低延遲市場數據,攜手打造高效能企業級代幣化RWA解決方案,推動機構級資產代幣化規模化發展。

深潮2025/10/27 22:48