Bilyong-dolyar na hadlang ng AI: De-kalidad na datos, hindi ang modelo | Opinyon

CryptoNewsNet2025/09/06 22:42

_news.coin_news.by: crypto.news

Maaaring ang AI ang susunod na industriya na aabot sa trilyong dolyar, ngunit tahimik itong papalapit sa isang napakalaking hadlang. Habang lahat ay nag-uunahan na bumuo ng mas malalaki at mas makapangyarihang mga modelo, isang malaking problema ang halos hindi nabibigyan ng pansin: maaari tayong maubusan ng magagamit na training data sa loob lamang ng ilang taon.

Buod

Nauubusan na ng gasolina ang AI: Ang mga training dataset ay lumalaki ng 3.7x taun-taon, at maaari nating maubos ang supply ng de-kalidad na pampublikong data sa pagitan ng 2026 at 2032.
Pumapaimbulog ang merkado ng labeling mula $3.7B (2024) patungong $17.1B (2030), habang ang access sa totoong human data ay lumiliit dahil sa mga walled garden at regulasyon.
Hindi sapat ang synthetic data: Ang feedback loops at kakulangan ng tunay na detalye mula sa totoong mundo ay ginagawa itong mapanganib na pamalit sa magulong, human-generated na input.
Lumalakas ang kapangyarihan ng mga may hawak ng data: Habang nagiging commodity ang mga modelo, ang tunay na pagkakaiba ay kung sino ang nagmamay-ari at kumokontrol ng natatangi at de-kalidad na mga dataset.

Ayon sa EPOCH AI, ang laki ng mga training dataset para sa malalaking language model ay lumalaki ng humigit-kumulang 3.7 beses bawat taon mula 2010. Sa ganitong bilis, maaari nating maubos ang supply ng de-kalidad at pampublikong training data sa pagitan ng 2026 at 2032.

Bago pa man natin marating ang hangganan na iyon, ang gastos sa pagkuha at pag-curate ng labeled data ay mabilis nang tumataas. Ang merkado ng data collection at labeling ay tinatayang nagkakahalaga ng $3.77 billion noong 2024 at inaasahang aabot sa $17.10 billion pagsapit ng 2030.

Maaari mo ring magustuhan: Ang hinaharap ay nakasalalay sa AI na ating binubuo: Centralized vs decentralized | Opinyon

Ang ganitong uri ng mabilis na paglago ay nagpapahiwatig ng malinaw na oportunidad, ngunit malinaw din na mayroong bottleneck. Ang mga AI model ay kasing husay lamang ng data na kanilang pinag-aralan. Kung walang scalable na pipeline ng sariwa, iba-iba, at walang kinikilingang mga dataset, titigil ang pagbuti ng mga modelong ito at magsisimula nang bumaba ang kanilang pakinabang.

Kaya ang tunay na tanong ay hindi kung sino ang gagawa ng susunod na mahusay na AI model. Ito ay kung sino ang nagmamay-ari ng data at saan ito magmumula?

Mas malaki ang problema ng AI sa data kaysa sa inaakala

Sa nakaraang dekada, ang inobasyon sa AI ay malaki ang inasa sa mga pampublikong dataset: Wikipedia, Common Crawl, Reddit, open-source code repositories, at iba pa. Ngunit mabilis nang nauubos ang mga ito. Habang pinahihigpitan ng mga kumpanya ang access sa kanilang data at dumarami ang mga isyu sa copyright, napipilitan ang mga AI firm na baguhin ang kanilang diskarte. Nagpapakilala rin ang mga gobyerno ng mga regulasyon upang limitahan ang data scraping, at nagbabago na rin ang pananaw ng publiko laban sa ideya ng pag-train ng bilyong-dolyar na mga modelo gamit ang hindi binabayarang user-generated content.

Ang synthetic data ay isa sa mga iminungkahing solusyon, ngunit ito ay mapanganib na pamalit. Ang mga modelong na-train gamit ang model-generated na data ay maaaring magdulot ng feedback loops, hallucinations, at pagbaba ng performance sa paglipas ng panahon. May isyu rin sa kalidad: madalas kulang sa gulo at detalye ng totoong mundo ang synthetic data, na siyang kailangan ng AI systems upang mahusay na gumana sa praktikal na mga sitwasyon.

Kaya naman, ang totoong data na gawa ng tao mula sa totoong mundo ang itinuturing na gold standard, at lalo itong nagiging mahirap makuha. Karamihan sa malalaking platform na nangongolekta ng human data, tulad ng Meta, Google, at X (dating Twitter), ay mga walled garden. Ang access ay limitado, ginagawang pagkakakitaan, o tuluyang ipinagbabawal. Mas malala pa, madalas na nakatuon ang kanilang mga dataset sa partikular na rehiyon, wika, at demograpiko, na nagreresulta sa mga bias na modelo na pumapalya sa iba-ibang totoong gamit.

Sa madaling salita, malapit nang sumalpok ang AI industry sa isang realidad na matagal nitong binalewala: ang paggawa ng malaking LLM ay kalahati lamang ng laban. Ang pagpapakain dito ang isa pang kalahati.

Bakit ito mahalaga

May dalawang bahagi ang value chain ng AI: paggawa ng modelo at pagkuha ng data. Sa nakalipas na limang taon, halos lahat ng kapital at hype ay napunta sa paggawa ng modelo. Ngunit habang nilalampasan natin ang limitasyon ng laki ng modelo, napupunta na ang atensyon sa kabilang bahagi ng ekwasyon.

Kung nagiging commodity na ang mga modelo, na may mga open-source na alternatibo, mas maliit na bersyon, at hardware-efficient na disenyo, ang tunay na pagkakaiba ay nagmumula sa data. Ang natatangi at de-kalidad na mga dataset ang magiging gasolina na magpapalakas kung aling mga modelo ang mangunguna.

Nagdadala rin ito ng mga bagong anyo ng paglikha ng halaga. Nagiging stakeholder ang mga nag-aambag ng data. Nagkakaroon ng access ang mga builder sa mas bago at mas dynamic na data. At ang mga negosyo ay makakapag-train ng mga modelong mas akma sa kanilang target audience.

Ang hinaharap ng AI ay nasa mga tagapagbigay ng data

Pumapasok tayo sa bagong panahon ng AI, kung saan ang may kontrol sa data ang may tunay na kapangyarihan. Habang umiinit ang kompetisyon sa pag-train ng mas mahusay at mas matalinong mga modelo, ang pinakamalaking hadlang ay hindi na compute. Ito ay ang pagkuha ng data na tunay, kapaki-pakinabang, at legal gamitin.

Ang tanong ngayon ay hindi kung lalaki pa ang AI, kundi kung sino ang magpapalakas sa paglaking iyon. Hindi lang ito mga data scientist. Kabilang dito ang mga tagapangalaga ng data, aggregator, contributor, at ang mga platform na nagdadala sa kanila. Diyan matatagpuan ang susunod na hangganan.

Kaya sa susunod na marinig mo ang tungkol sa bagong hangganan sa artificial intelligence, huwag mong tanungin kung sino ang gumawa ng modelo. Tanungin mo kung sino ang nag-train nito, at saan nanggaling ang data. Sapagkat sa huli, ang hinaharap ng AI ay hindi lang tungkol sa arkitektura. Ito ay tungkol sa input.

Magbasa pa: Storage, hindi silicon, ang magpapasimula ng susunod na breakthrough ng AI | Opinyon

Max Li

Si Max Li ay ang founder at CEO ng OORT, ang data cloud para sa decentralized AI. Si Dr. Li ay isang propesor, bihasang engineer, at imbentor na may higit sa 200 patent. Kabilang sa kanyang background ang trabaho sa 4G LTE at 5G systems kasama ang Qualcomm Research at mga kontribusyon sa akademya sa information theory, machine learning at blockchain technology. Siya ang may-akda ng librong pinamagatang “Reinforcement Learning for Cyber-physical Systems,” na inilathala ng Taylor & Francis CRC Press.

_news.coin_news.disclaimer

PoolX: Naka-lock para sa mga bagong token.

Hanggang 12%. Palaging naka-on, laging may airdrop.

Mag Locked na ngayon!

_news.coin_news.may_like

Balik-tanaw sa Warplet: Paano nagpasiklab ng kasikatan sa Farcaster ang isang maliit na NFT?

Isang meme, isang mini app, at ilang mga pag-click lamang, at ang Farcaster community ay mayroon nang isang bagong pinag-isang kwento.

深潮•2025/11/03 15:01

Inilunsad ng HKMA ng Hong Kong ang Fintech 2030 upang Itaguyod ang Hinaharap ng Inobasyon sa Pananalapi

Cryptonewsland•2025/11/03 14:32

Animoca Brands Nagbabalak ng Nasdaq Listing sa Pamamagitan ng Reverse Merger

Ang Animoca Brands ay maglilista sa Nasdaq sa pamamagitan ng reverse merger kasama ang Singapore-based na Currenc Group. Pinalalakas nito ang paglago at pandaigdigang abot. Ano ang ibig sabihin nito para sa Web3 space?

Coinomedia•2025/11/03 14:31

Ang $435M+ Presale ng BlockDAG at Pamamaraan ng Pamumuno Nito ang Nagpapalayo Dito sa ZCash at Mga Panandaliang Hakbang ng PENGU

Alamin kung paano ang mahigit $435M presale ng BlockDAG, ang pamumuno ni Antony Turner, ang setup ng presyo ng ZCash, at ang pagsusuri ng presyo ng PENGU ay tumutukoy sa mga nangungunang kumikitang crypto. Pamumuno at Estratehiya ni Antony Turner: Nagbibigay ng Pandaigdigang Kumpiyansa Setup ng Presyo ng ZCash: Ang Privacy-Focused Asset ay Muling Lumalakas Pagsusuri ng Presyo ng PENGU: Pagsasanib ng Meme Energy at Institutional na Atensyon Mahahalagang Pananaw

Coinomedia•2025/11/03 14:31