Ang merkado ang pinakahuling pagsubok para sa AI.
May-akda: Juan Galt
Pagsasalin: AididiaoJP, Foresight News
Kayang bang mag-trade ng AI ng cryptocurrency? Sinusubukan ito ng computer engineer at financial practitioner mula New York na si Jay Azhang sa pamamagitan ng Alpha Arena. Sa proyektong ito, ang pinakamalalakas na large language models ay pinagsasabong, bawat isa ay may $10,000 na kapital, upang makita kung alin ang makakakamit ng mas malaking kita sa crypto trading. Kabilang sa mga modelong ito ang Grok 4, Claude Sonnet 4.5, Gemini 2.5 pro, ChatGPT 5, Deepseek v3.1, at Qwen3 Max.
Maaaring iniisip mo ngayon, "Wow, napakagandang ideya nito!" At maaaring magulat ka na sa oras ng pagsulat ng artikulong ito, tatlo sa limang AI ang nalulugi, habang nangunguna naman ang dalawang Chinese open-source models na Qwen3 at Deepseek.

Tama, ang pinakamalalakas na proprietary AI ng Kanluran, na closed-source at pinapatakbo ng mga higanteng tulad ng Google at OpenAI, ay nawalan na ng higit sa $8,000 sa loob lamang ng mahigit isang linggo, na katumbas ng 80% ng kanilang crypto trading capital, samantalang ang kanilang mga open-source na katapat mula sa Silangan ay kumikita pa.
Ang pinakamatagumpay na trade sa ngayon? Patuloy na kumikita ang Qwen3 gamit lamang ang simpleng 20x long position sa Bitcoin. Hindi nakapagtataka, si Grok 4 ay halos buong panahon ng paligsahan ay naka-10x leverage long sa Dogecoin, at minsang nanguna kasama si Deepseek, ngunit ngayon ay halos malugi ng 20%. Marahil dapat mag-post si Elon Musk ng Dogecoin meme para matulungan si Grok na makabangon.

Samantala, ang Gemini ng Google ay walang awang nag-short sa lahat ng maaaring i-trade na crypto assets, na sumasalamin sa kanilang pangkalahatang crypto policy sa nakalipas na 15 taon.
Sa huli, sunod-sunod itong gumawa ng lahat ng posibleng maling trade sa loob ng isang linggo—isang bagay na nangangailangan din ng galing, lalo na kung ang Qwen3 ay basta na lang naglo-long sa Bitcoin. Kung ito na ang pinakamagaling na kayang ibigay ng closed-source AI, marahil dapat manatiling closed-source ang OpenAI para hindi tayo malugi.
Ang ideya ng pagpapasagupa ng AI models sa crypto trading arena ay may napakalalim na insight. Una, hindi maaaring makuha ng AI ang mga sagot sa crypto trading knowledge test mula sa pre-training, dahil hindi ito predictable—isang problema na karaniwan sa ibang benchmark tests. Sa madaling salita, maraming AI models ang binibigyan na ng ilang sagot sa mga test na ito habang training pa lang, kaya natural na maganda ang kanilang performance sa test. Ngunit ipinapakita ng ilang pag-aaral na kapag binago nang kaunti ang mga test na ito, malaki ang nagiging epekto sa resulta ng AI benchmarks.
Ang kontrobersiyang ito ay nagbubukas ng tanong: Ano ang ultimate test ng intelligence? Ayon sa lumikha ng Grok 4 na si Elon Musk, na kilala ring Iron Man enthusiast, ang ultimate measure ng intelligence ay ang kakayahang hulaan ang hinaharap.

At dapat nating aminin, walang mas hindi tiyak na hinaharap kaysa sa short-term price ng cryptocurrency. Gaya ng sabi ni Azhang, "Ang layunin ng Alpha Arena ay gawing mas malapit sa totoong mundo ang benchmark testing, at perpekto ang market para dito. Ito ay dynamic, competitive, open-ended, at palaging unpredictable. Hinahamon nito ang AI sa paraang hindi kayang gawin ng static benchmarks. Ang market ang ultimate test para sa AI."
Ang insight na ito tungkol sa market ay malalim na nakaugat sa mga prinsipyo ng kalayaan na siyang pinagmulan ng Bitcoin. Mahigit isang siglo na ang nakalipas, ipinunto ng mga ekonomistang sina Murray Rothbard at Milton Friedman na ang market ay fundamentally unpredictable para sa central government, at tanging ang mga indibidwal na may tunay na risk ng pagkalugi ang makakagawa ng makatotohanang economic calculation.
Sa madaling salita, ang market ang pinakamahirap hulaan dahil nakasalalay ito sa personal na pananaw at desisyon ng bawat intelligenteng indibidwal sa buong mundo, kaya ito ang pinakamahusay na pagsubok para sa intelligence.
Binanggit ni Azhang sa project description na ang pag-uutos sa AI na mag-trade ay hindi lang para sa kita, kundi para rin sa risk-adjusted returns. Napakahalaga ng risk dimension na ito, dahil isang maling trade lang ay maaaring mabura ang lahat ng naunang kita—tulad ng nangyari sa pagbagsak ng portfolio ni Grok 4.
May isa pang isyu: natututo ba ang mga modelong ito mula sa kanilang karanasan sa crypto trading? Hindi ito madaling gawin sa teknikal na aspeto, dahil napakamahal ng pre-training ng AI models. Maaari silang i-fine-tune gamit ang sarili nilang trading history o history ng iba, at maaari rin nilang panatilihin ang pinakahuling trades sa short-term memory o context window, ngunit hanggang doon lang ang kaya nito. Sa huli, ang tamang AI trading model ay maaaring kailangang tunay na matuto mula sa sarili nitong karanasan—isang teknolohiyang kamakailan lang inihayag sa akademya, ngunit malayo pa bago maging produkto. Tinawag ito ng MIT na self-adaptive AI models.
Isa pang pagsusuri sa proyektong ito at sa mga resulta nito sa ngayon ay maaaring hindi ito maiba sa "random walk." Ang random walk ay parang nagtatapon ka ng dice para sa bawat desisyon. Ano ang itsura nito sa chart? May simulator na maaari mong gamitin para sagutin ito; sa katunayan, hindi ito magkaiba ng hitsura.

Ang isyu ng swerte sa market ay detalyadong tinalakay ng mga intelektuwal tulad ni Nassim Taleb sa kanyang aklat na "Antifragile." Sa libro, ipinaliwanag niya na mula sa statistical na pananaw, normal at posible na ang isang trader—halimbawa si Qwen3—ay magtagumpay ng sunod-sunod sa loob ng isang linggo, na magmumukha siyang may pambihirang kakayahan sa pag-aanalisa. Higit pa rito, ayon kay Taleb, sapat ang dami ng traders sa Wall Street para may isang tao na magtagumpay ng sunod-sunod sa loob ng 20 taon, magtatag ng mala-diyos na reputasyon, at paniwalaan ng lahat na siya ay isang henyo—hanggang sa maubos ang kanyang swerte.
Kaya, para maging mahalaga ang datos mula sa Alpha Arena, kailangan talaga nitong tumakbo nang matagal, at kailangang maulit ang mga pattern at resulta nito nang independiyente, habang may totoong risk ng kapital, bago ito maituring na iba sa random walk.
Sa ngayon, nakakatuwang makita na ang mga open-source at cost-effective na models tulad ng DeepSeek ay mas mahusay kaysa sa kanilang closed-source na katapat. Ang Alpha Arena ay naging magandang source ng entertainment, lalo na't naging viral ito sa X.com nitong nakaraang linggo. Walang nakakaalam kung saan ito patutungo; kailangan nating abangan kung magbubunga ang sugal ng creator nito: bibigyan ng $50,000 ang limang chatbots para sa crypto gambling, at kung magbabayad nga ba ito sa huli.