6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎?

6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎?

ZombitZombit2025/10/20 16:09
作者:深潮 TechFlow

會賺錢才是好 AI。

  • 撰文:David,深潮 TechFlow

好消息,10.11 史詩級大跌後,加密交易又開始變得活躍了。

壞消息,是 AI 在交易。

新的一週開始,市場開始變得活躍,一個名叫  nof1.ai  的項目在加密社媒上引起了大量討論。

大家關注的焦點也很簡單,實時圍觀這個項目中的 6 個 AI 大模型,在 Hyperliquid 上做加密交易,看誰更賺錢。

6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎? image 0

注意這不是模擬盤。Claude、GPT-5、Gemini、Deepseek、Grok 和通義千問,每個模型都拿著 1 萬美元真金白銀在 Hyperliquid 交易。所有地址公開,任何人都能實時 圍觀 這場「AI交易員大戰」。

有意思的是,這六個 AI 用的是完全相同的提示詞,接收完全相同的市場數據。唯一的變量,就是它們各自的「思考方式」。

在 10 月 18 日上線後的短短幾天內,有的 AI 已經賺了超過 20%,有的則虧損接近 40%。

1950 年,圖靈提出了著名的圖靈測試,試圖回答「機器能否像人一樣思考」;現在在幣圈,6 大 AI 在 Alpha 競技場中廝殺,在回答一個更有趣的問題:

如果讓最聰明的 AI 們在真實市場裡交易,誰會活下來?

或許在這個幣圈版的「圖靈測試」裡,帳戶餘額就是唯一的裁判。

會賺錢才是好 AI,Deepseek 目前領先

傳統的 AI 評測,無論是讓模型寫代碼、做數學題,還是寫文章,本質上都是在一個「靜態」的環境裡測試。

題目是固定的,答案是可預期的,甚至可能已經在訓練數據裡出現過。

但加密市場不一樣。

信息極度不對稱的前提下,每一秒的價格都在變化,沒有標準答案只有盈虧。更重要的是,加密市場是典型的零和遊戲,你賺的錢就是別人虧的錢。市場會立即、無情地懲罰每一個錯誤決策。

這個舉辦 AI 交易大戰的 Nof1 團隊,在它們的網站上寫了一句話:

Markets are the ultimate test of intelligence(市場是檢測 AI 智能的終極測試)。

6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎? image 1

如果說傳統的圖靈測試是在問「你能不能讓人類分不清你是機器」,那麼這個 Alpha Arena 問的其實是:

你能不能在加密市場裡賺錢。這一點其實才是幣圈玩家對 AI 的真實期待。

目前,6 個 AI 大模型在 Hyperliquid 上的地址如下,你也可以很容易的檢索到它們的倉位和交易記錄。

6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎? image 2

同時,nof1.ai 官網上也在前端可視化了它們目前的所有歷史交易記錄、倉位、盈利情況和思考過程,可以讓大家很方便的進行參考。

對完全不了解的讀者來說,幾個 AI 的具體交易規則是:

每個 AI 獲得 1 萬美元初始資金,可以交易 BTC、ETH、SOL、BNB、DOGE 和 XRP 的永續合約,目標是在控制風險的前提下實現收益最大化。所有 AI 必須自主決定何時開倉、何時平倉、使用多少槓桿。Season 1 會視情況運行幾週,Season 2 會有重大更新。

截至 10 月 20 日,也就是開始交易後的第三天,戰局已經出現了明顯的分化。

6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎? image 3

當前領先梯隊是 Deepseek Chat V3.1,資金為 $12,533(+25.33%)。緊随其後的是 Grok-4,$12,147(+21.47%);Claude Sonnet 4.5 則為 $11,047(+10.47%)。

表現相對一般的是 Qwen3 Max,$10,263(+2.63%)。顯著落後的是 GPT-5,目前餘額 $7,442(-25.58%);最為拉胯的則是 Gemini 2.5 Pro,$6,062(-39.38%)。

最讓人意外又似乎情理之中的當然是 Deepseek 的表現。

說意外,是因為這個模型在國際 AI 圈的熱度遠不如 GPT 和 Claude。說情理之中,是因為 Deepseek 背後是幻方量化團隊。

這家管理規模超千億人民幣的量化巨頭,在進軍 AI 之前,就是靠算法交易起家的。從量化交易到 AI 大模型,再用 AI 來做真實的加密交易,Deepseek 有點像回到了老本行。

相比之下,OpenAI 引以為傲的 GPT-5 虧損超過 25%,谷歌的 Gemini 更是慘不忍睹,44 筆交易換來近 40% 的虧損。

在真實的交易場景中,或許光有強大的語言能力是不夠的,對市場的理解更加重要。

同樣的槍,不同的槍法

如果你從 10 月 18 日開始追蹤 Alpha Arena,會發現剛開始幾個 AI 都差不多,但越往後差距越大。

第一天結束時,最好的 Deepseek 也只賺了 4%,最差的 Qwen3 虧了 5.26%。大部分 AI 都在正負 2% 之間徘徊,看起來像是都在試探市場。

但到了 10 月 20 日,畫風突變。Deepseek 飆升到 25.33%,而 Gemini 跌到了 -39.38%。短短三天,頭部和尾部的差距拉大到了 65 個百分點。

更有意思的是交易頻率的差異。

Gemini 完成了 44 筆交易,平均每天 15 筆,像個焦慮的投機交易員。而 Claude 只做了 3 筆,Grok 甚至還有未平倉的持倉。這種差異不是提示詞能解釋的,因為它們用的是同一套提示詞。

6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎? image 4

從盈虧分布看,Deepseek 最大單筆虧損 348 美元,但整體盈利 2533 美元。Gemini 最大單筆盈利 329 美元,最大虧損卻高達 750 美元。

不同 AI(公版大模型,未經過二次調教),對風險和收益的平衡完全不同。

此外,你能在網站上的 Model Chat 選項裡看到不同模型的聊天記錄和思考過程,這些獨白特別有意思。

6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎? image 5

就像人類交易員有不同的風格,AI 似乎也展現出了不同的性格。Gemini 的頻繁交易和思考像個多動症患者,Claude 的謹慎像個保守的基金經理,Deepseek 穩健的像個量化老手,只說倉位,不做任何情緒評價。

這種性格感覺不像是設計出來的,而是在訓練過程中自然湧現的。當面對不確定性時,不同的 AI 會傾向於不同的應對方式。

所有 AI 看到的是相同的 K 線,相同的成交量,相同的市場深度。它們甚至用著相同的提示詞。那麼,是什麼造成了如此大的差異?

訓練數據的影響可能是關鍵。

Deepseek 背後的幻方量化,十幾年來積累了海量的交易數據和策略。這些數據即使不直接用於訓練,是否也會影響團隊對「什麽是好的交易決策」的理解?

相比之下,OpenAI 和 Google 的訓練數據可能更偏向學術論文和網絡文本,對實盤交易的理解可能不夠接地氣。

同時,有交易員推測,Deepseek 可能在訓練時特別優化了時間序列預測能力,而 GPT-5 可能更擅長處理自然語言。在面對價格圖表這種結構化數據時,不同的架構會有不同的表現。

看 AI 做交易,也是一門生意

當所有人都在關注 AI 的盈虧時,很少有人注意到背後這家神秘的公司。

搞出這個 AI 交易大戰的 nof1.ai,並沒有太大的知名度。但是如果你看一下它社媒的關注列表,還是能找到一些蛛絲馬跡。

nof1.ai 背後似乎不是一群典型的加密創業者,而是清一色的學院派 AI 研究員。

Jay A Zhang(創始人)的個人簡介也很有意思:

“Big fan of strange loops – cybernetics, RL, biology, markets, meta-learning, reflexivity.”

reflexivity(反身性)是索羅斯的核心理論:市場參與者的認知會影響市場,市場的變化又會影響參與者的認知。讓一個研究「反身性」的人來做 AI 交易市場實驗,本身就顯得很有宿命感。

讓所有人都能看到 AI 怎麼交易,看看這種「被觀察」會如何影響市場。

6 大 AI 上演交易大戰,幣圈版「圖靈測試」會有好結果嗎? image 6

而另一個聯創 Matthew Siper 簡介顯示其為紐約大學機器學習方向的博士候選人,同時也是 AI 研究科學家。一個還沒畢業的博士生做項目,更像一個印證學術研究的項目。

nof1 的其他關注帳號中,還有 Google DeepMind 的研究員以及紐約大學的副教授,專門研究 AI 和遊戲。

從他們的動作和背景來看,Nof1 顯然不是為了搞個噱頭。SharpeBench 這個平台名字就很有野心,夏普比率是衡量風險調整後收益的金標準,他們或許真正想做的,是 AI 交易能力的基準測試平台。

有人猜測 Nof1 背後有大資本支持,也有人說他們可能在為後續的 AI 交易服務做鋪墊。

如果他們推出訂閱 Deepseek 交易策略服務,買單的人或許不在少數。而基於這個雛形,去做 AI 資管、策略訂閱和大企業的交易解決方案,也是一門可以預見的生意。

除了這個團隊本身之外,圍觀 AI 交易本身也有利可圖。

Alpha Arena 剛上線,就有人開始跟單了。

最簡單的策略就是跟著 Deepseek 做。它買什麼你買什麼,它賣什麼你賣什麼。同時評論區還有反向操作的人,專門做 Gemini 的對手盤,Gemini 買他就賣,賣他就買。

但跟單有個問題:當所有人都知道 Deepseek 要買什麼時,這個策略還有效嗎?這也是項目創始人 Jay Zhang 說的反身性,即觀察本身會改變被觀察的對象。

這裡還有一種頂級交易策略民主化的假象。

表面上看起來,每個人都能知道 AI 的交易策略,但實際上你看到的是交易結果,不是交易邏輯。每個 AI 的止盈和止損邏輯並不一定連續且可靠。

當 Nof1 在測試 AI 交易的行為,散戶在尋找財富密碼,其他的一些交易員在偷師,研究者們也在搜集數據。

只有 AI 本身不知道自己在被圍觀,還在認真地執行每一筆交易。如果說經典的圖靈測試是關於「欺騙」和「模仿」,那現在的 Alpha Arena 交易大戰,是關於加密玩家對於 AI 能力和結果的回應。

在這個結果主導的加密市場裡,會賺錢的 AI,可能比會聊天的 AI 更重要。

本文經授權轉載自深潮 TechFlow

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡

HyperSwap 在 10 月 20 日創世活動前夕推出 SWAP 代幣經濟學

簡單來說 HyperSwap 在 10 月 20 日創世活動之前公佈了 SWAP 代幣經濟學,詳細說明了 1 億個代幣供應量,重點關注社區分配、流動性挖掘和長期生態系統激勵。

Mpost2025/10/20 21:33
HyperSwap 在 10 月 20 日創世活動前夕推出 SWAP 代幣經濟學

COTI 升級主網以提高速度、強度和網路彈性

簡單來說 COTI 成功完成了「氫」主網升級,增強了網路安全性、穩定性和可擴展性,同時為所有用戶保持了無縫、安全的操作。

Mpost2025/10/20 21:33
COTI 升級主網以提高速度、強度和網路彈性

2025年Fullset區塊鏈大會召開 Web3 基輔的網絡、創新和協作領導者

簡單來說 2025 年基輔全套區塊鏈會議將聚集全球 Web3 領導者進行一整天的專家討論、交流和協作,以推動專案、合作夥伴關係和產業發展。

Mpost2025/10/20 21:33
2025年Fullset區塊鏈大會召開 Web3 基輔的網絡、創新和協作領導者

Vitalik Buterin 推出 GKR 協議,提升以太坊擴容能力與 ZK 效率

簡單來說 Vitalik Buterin 提議使用 GKR 協議來增強以太坊的 zk-SNARK 和 zk-STARK 系統,將效率提高 15 倍,並支持他對可擴展、抗量子的「精益以太坊」的願景。

Mpost2025/10/20 21:33
Vitalik Buterin 推出 GKR 協議,提升以太坊擴容能力與 ZK 效率