Bitget App
Trade smarter
amp.open
wiki.nav.homeamp.sign_up
Bitget>
_news.coin_news.news>
Bilyong-dolyar na hadlang ng AI: De-kalidad na datos, hindi ang modelo | Opinyon

Bilyong-dolyar na hadlang ng AI: De-kalidad na datos, hindi ang modelo | Opinyon

CryptoNewsNet2025/09/06 22:42
_news.coin_news.by: crypto.news
OORT+2.45%

Maaaring ang AI ang susunod na industriya na aabot sa trilyong dolyar, ngunit tahimik itong papalapit sa isang napakalaking hadlang. Habang lahat ay nag-uunahan na bumuo ng mas malalaki at mas makapangyarihang mga modelo, isang malaking problema ang halos hindi nabibigyan ng pansin: maaari tayong maubusan ng magagamit na training data sa loob lamang ng ilang taon.

Buod
  • Nauubusan na ng gasolina ang AI: Ang mga training dataset ay lumalaki ng 3.7x taun-taon, at maaari nating maubos ang supply ng de-kalidad na pampublikong data sa pagitan ng 2026 at 2032.
  • Pumapaimbulog ang merkado ng labeling mula $3.7B (2024) patungong $17.1B (2030), habang ang access sa totoong human data ay lumiliit dahil sa mga walled garden at regulasyon.
  • Hindi sapat ang synthetic data: Ang feedback loops at kakulangan ng tunay na detalye mula sa totoong mundo ay ginagawa itong mapanganib na pamalit sa magulong, human-generated na input.
  • Lumalakas ang kapangyarihan ng mga may hawak ng data: Habang nagiging commodity ang mga modelo, ang tunay na pagkakaiba ay kung sino ang nagmamay-ari at kumokontrol ng natatangi at de-kalidad na mga dataset.

Ayon sa EPOCH AI, ang laki ng mga training dataset para sa malalaking language model ay lumalaki ng humigit-kumulang 3.7 beses bawat taon mula 2010. Sa ganitong bilis, maaari nating maubos ang supply ng de-kalidad at pampublikong training data sa pagitan ng 2026 at 2032.

Bago pa man natin marating ang hangganan na iyon, ang gastos sa pagkuha at pag-curate ng labeled data ay mabilis nang tumataas. Ang merkado ng data collection at labeling ay tinatayang nagkakahalaga ng $3.77 billion noong 2024 at inaasahang aabot sa $17.10 billion pagsapit ng 2030.

Maaari mo ring magustuhan: Ang hinaharap ay nakasalalay sa AI na ating binubuo: Centralized vs decentralized | Opinyon

Ang ganitong uri ng mabilis na paglago ay nagpapahiwatig ng malinaw na oportunidad, ngunit malinaw din na mayroong bottleneck. Ang mga AI model ay kasing husay lamang ng data na kanilang pinag-aralan. Kung walang scalable na pipeline ng sariwa, iba-iba, at walang kinikilingang mga dataset, titigil ang pagbuti ng mga modelong ito at magsisimula nang bumaba ang kanilang pakinabang.

Kaya ang tunay na tanong ay hindi kung sino ang gagawa ng susunod na mahusay na AI model. Ito ay kung sino ang nagmamay-ari ng data at saan ito magmumula?

Mas malaki ang problema ng AI sa data kaysa sa inaakala

Sa nakaraang dekada, ang inobasyon sa AI ay malaki ang inasa sa mga pampublikong dataset: Wikipedia, Common Crawl, Reddit, open-source code repositories, at iba pa. Ngunit mabilis nang nauubos ang mga ito. Habang pinahihigpitan ng mga kumpanya ang access sa kanilang data at dumarami ang mga isyu sa copyright, napipilitan ang mga AI firm na baguhin ang kanilang diskarte. Nagpapakilala rin ang mga gobyerno ng mga regulasyon upang limitahan ang data scraping, at nagbabago na rin ang pananaw ng publiko laban sa ideya ng pag-train ng bilyong-dolyar na mga modelo gamit ang hindi binabayarang user-generated content.

Ang synthetic data ay isa sa mga iminungkahing solusyon, ngunit ito ay mapanganib na pamalit. Ang mga modelong na-train gamit ang model-generated na data ay maaaring magdulot ng feedback loops, hallucinations, at pagbaba ng performance sa paglipas ng panahon. May isyu rin sa kalidad: madalas kulang sa gulo at detalye ng totoong mundo ang synthetic data, na siyang kailangan ng AI systems upang mahusay na gumana sa praktikal na mga sitwasyon.

Kaya naman, ang totoong data na gawa ng tao mula sa totoong mundo ang itinuturing na gold standard, at lalo itong nagiging mahirap makuha. Karamihan sa malalaking platform na nangongolekta ng human data, tulad ng Meta, Google, at X (dating Twitter), ay mga walled garden. Ang access ay limitado, ginagawang pagkakakitaan, o tuluyang ipinagbabawal. Mas malala pa, madalas na nakatuon ang kanilang mga dataset sa partikular na rehiyon, wika, at demograpiko, na nagreresulta sa mga bias na modelo na pumapalya sa iba-ibang totoong gamit.

Sa madaling salita, malapit nang sumalpok ang AI industry sa isang realidad na matagal nitong binalewala: ang paggawa ng malaking LLM ay kalahati lamang ng laban. Ang pagpapakain dito ang isa pang kalahati.

Bakit ito mahalaga

May dalawang bahagi ang value chain ng AI: paggawa ng modelo at pagkuha ng data. Sa nakalipas na limang taon, halos lahat ng kapital at hype ay napunta sa paggawa ng modelo. Ngunit habang nilalampasan natin ang limitasyon ng laki ng modelo, napupunta na ang atensyon sa kabilang bahagi ng ekwasyon.

Kung nagiging commodity na ang mga modelo, na may mga open-source na alternatibo, mas maliit na bersyon, at hardware-efficient na disenyo, ang tunay na pagkakaiba ay nagmumula sa data. Ang natatangi at de-kalidad na mga dataset ang magiging gasolina na magpapalakas kung aling mga modelo ang mangunguna.

Nagdadala rin ito ng mga bagong anyo ng paglikha ng halaga. Nagiging stakeholder ang mga nag-aambag ng data. Nagkakaroon ng access ang mga builder sa mas bago at mas dynamic na data. At ang mga negosyo ay makakapag-train ng mga modelong mas akma sa kanilang target audience.

Ang hinaharap ng AI ay nasa mga tagapagbigay ng data

Pumapasok tayo sa bagong panahon ng AI, kung saan ang may kontrol sa data ang may tunay na kapangyarihan. Habang umiinit ang kompetisyon sa pag-train ng mas mahusay at mas matalinong mga modelo, ang pinakamalaking hadlang ay hindi na compute. Ito ay ang pagkuha ng data na tunay, kapaki-pakinabang, at legal gamitin.

Ang tanong ngayon ay hindi kung lalaki pa ang AI, kundi kung sino ang magpapalakas sa paglaking iyon. Hindi lang ito mga data scientist. Kabilang dito ang mga tagapangalaga ng data, aggregator, contributor, at ang mga platform na nagdadala sa kanila. Diyan matatagpuan ang susunod na hangganan.

Kaya sa susunod na marinig mo ang tungkol sa bagong hangganan sa artificial intelligence, huwag mong tanungin kung sino ang gumawa ng modelo. Tanungin mo kung sino ang nag-train nito, at saan nanggaling ang data. Sapagkat sa huli, ang hinaharap ng AI ay hindi lang tungkol sa arkitektura. Ito ay tungkol sa input.

Magbasa pa: Storage, hindi silicon, ang magpapasimula ng susunod na breakthrough ng AI | Opinyon

Max Li

Si Max Li ay ang founder at CEO ng OORT, ang data cloud para sa decentralized AI. Si Dr. Li ay isang propesor, bihasang engineer, at imbentor na may higit sa 200 patent. Kabilang sa kanyang background ang trabaho sa 4G LTE at 5G systems kasama ang Qualcomm Research at mga kontribusyon sa akademya sa information theory, machine learning at blockchain technology. Siya ang may-akda ng librong pinamagatang “Reinforcement Learning for Cyber-physical Systems,” na inilathala ng Taylor & Francis CRC Press.

_news.coin_news.disclaimer
PoolX: Naka-lock para sa mga bagong token.
Hanggang 12%. Palaging naka-on, laging may airdrop.
Mag Locked na ngayon!

_news.coin_news.may_like

Matatanggal na ba ang “mahigpit na hawak” sa virtual asset venture capital, at darating na ba ang tagsibol para sa mga crypto startup sa South Korea?

Inalis ng Small and Medium Business Venture Division ng South Korea at ng Gabinete, sa pamamagitan ng naaprubahang rebisyon ng "Special Act on Fostering Venture Businesses" noong Setyembre 9, ang "blockchain/virtual asset (cryptocurrency) trading at brokerage" mula sa listahan ng mga industriya na "restricted/prohibited for investment." Magiging epektibo ito sa Setyembre 16.

Chaincatcher2025/09/14 02:25
Ang Shibarium bridge ay nakaranas ng 'sopistikadong' flash loan attack, na nagresulta sa pagkawala ng $2.4 million

Mabilisang Balita: Ang Shibarium bridge, na nag-uugnay sa Layer 2 network at Ethereum, ay na-hack nitong Biyernes sa pamamagitan ng isang “sopistikadong” flash loan attack na nagresulta sa pagkawala ng $2.4 million. Pansamantalang itinigil ng mga developer ng Shiba Inu ang staking, unstaking, at mga kaugnay na proseso habang pinapalitan at ini-secure nila ang validator keys. Ang 4.6 million BONE tokens na ginamit ng attacker upang makuha ang pansamantalang validator power ay na-lock na. Ang presyo ng BONE ay biglang tumaas, ngunit agad ding bumagsak matapos ang pag-atake.

The Block2025/09/14 00:02

_news.coin_news.trending_news

_news.coin_news.more
1
Matatanggal na ba ang “mahigpit na hawak” sa virtual asset venture capital, at darating na ba ang tagsibol para sa mga crypto startup sa South Korea?
2
23 sentimo ng bawat dolyar ng buwis ay napupunta sa pagbabayad ng interes sa utang ng U.S.

_news.coin_news.crypto_prices

_news.coin_news.more
Bitcoin
Bitcoin
BTC
₱6,634,526.8
+0.04%
Ethereum
Ethereum
ETH
₱267,654.92
-0.57%
XRP
XRP
XRP
₱178.35
+0.56%
Tether USDt
Tether USDt
USDT
₱57.23
+0.01%
Solana
Solana
SOL
₱14,121.33
+1.85%
BNB
BNB
BNB
₱53,593.69
+0.91%
USDC
USDC
USDC
₱57.19
+0.01%
Dogecoin
Dogecoin
DOGE
₱16.71
+4.97%
TRON
TRON
TRX
₱20.08
-0.29%
Cardano
Cardano
ADA
₱53.03
-0.03%
Paano magbenta ng PI
Inililista ng Bitget ang PI – Buy or sell ng PI nang mabilis sa Bitget!
Trade na ngayon
Hindi pa Bitgetter?Isang welcome pack na nagkakahalaga ng 6200 USDT para sa mga bagong Bitgetters!
Mag-sign up na
Trade smarter