Bitget App
Trading lebih cerdas
Beli kriptoPasarTradingFuturesEarnWeb3WawasanSelengkapnya
Trading
Spot
Beli dan jual kripto dengan mudah
Margin
Perkuat modalmu dan maksimalkan efisiensi dana
Onchain
Trading Onchain, Tanpa On-Chain
Konversi & perdagangan blok
Konversi kripto dengan satu klik dan tanpa biaya
Jelajah
Launchhub
Dapatkan keunggulan lebih awal dan mulailah menang
Copy
Salin elite trader dengan satu klik
Bot
Bot trading AI yang mudah, cepat, dan andal
Trading
Futures USDT-M
Futures diselesaikan dalam USDT
Futures USDC-M
Futures diselesaikan dalam USDC
Futures Koin-M
Futures diselesaikan dalam mata uang kripto
Jelajah
Panduan futures
Perjalanan pemula hingga mahir di perdagangan futures
Promosi Futures
Hadiah berlimpah menantimu
Ringkasan
Beragam produk untuk mengembangkan aset Anda
Earn Sederhana
Deposit dan tarik kapan saja untuk mendapatkan imbal hasil fleksibel tanpa risiko
Earn On-chain
Dapatkan profit setiap hari tanpa mempertaruhkan modal pokok
Earn Terstruktur
Inovasi keuangan yang tangguh untuk menghadapi perubahan pasar
VIP dan Manajemen Kekayaan
Layanan premium untuk manajemen kekayaan cerdas
Pinjaman
Pinjaman fleksibel dengan keamanan dana tinggi
Hambatan miliaran dolar AI: Data berkualitas, bukan modelnya | Opini

Hambatan miliaran dolar AI: Data berkualitas, bukan modelnya | Opini

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
Tampilkan aslinya
Oleh:crypto.news

AI mungkin akan menjadi industri bernilai triliunan dolar berikutnya, namun diam-diam sedang mendekati hambatan besar. Sementara semua orang berlomba membangun model yang lebih besar dan lebih kuat, ada masalah besar yang sebagian besar belum teratasi: kita mungkin akan kehabisan data pelatihan yang dapat digunakan hanya dalam beberapa tahun ke depan.

Ringkasan
  • AI hampir kehabisan bahan bakar: Dataset pelatihan telah tumbuh 3,7x setiap tahun, dan kita bisa menghabiskan seluruh pasokan data publik berkualitas dunia antara tahun 2026 dan 2032.
  • Pangsa pasar pelabelan meledak dari $3,7B (2024) menjadi $17,1B (2030), sementara akses ke data manusia dunia nyata semakin menyusut di balik pagar pembatas dan regulasi.
  • Data sintetis tidak cukup: Umpan balik berulang dan kurangnya nuansa dunia nyata membuatnya menjadi pengganti yang berisiko untuk input yang dihasilkan manusia yang berantakan.
  • Kekuasaan bergeser ke pemilik data: Dengan model yang semakin menjadi komoditas, pembeda nyata adalah siapa yang memiliki dan mengendalikan dataset unik dan berkualitas tinggi.

Menurut EPOCH AI, ukuran dataset pelatihan untuk large language models telah tumbuh sekitar 3,7 kali lipat setiap tahun sejak 2010. Dengan laju seperti itu, kita bisa menghabiskan seluruh pasokan data pelatihan publik berkualitas tinggi di dunia antara tahun 2026 dan 2032.

Bahkan sebelum kita mencapai batas itu, biaya untuk memperoleh dan mengkurasi data berlabel sudah melonjak tajam. Pasar pengumpulan dan pelabelan data bernilai $3,77 miliar pada tahun 2024 dan diproyeksikan melonjak menjadi $17,10 miliar pada tahun 2030.

Anda mungkin juga suka: Masa depan tergantung pada AI yang kita bangun: Terpusat vs terdesentralisasi | Opini

Pertumbuhan eksplosif seperti itu menunjukkan peluang yang jelas, tetapi juga titik kemacetan yang jelas. Model AI hanya sebaik data yang digunakan untuk melatihnya. Tanpa pipeline dataset baru yang segar, beragam, dan tidak bias, performa model-model ini akan stagnan, dan kegunaannya akan mulai menurun.

Jadi pertanyaan sebenarnya bukan siapa yang membangun model AI hebat berikutnya. Tapi siapa yang memiliki data dan dari mana asalnya?

Masalah data AI lebih besar dari yang terlihat

Selama dekade terakhir, inovasi AI sangat bergantung pada dataset publik: Wikipedia, Common Crawl, Reddit, repositori kode open-source, dan lainnya. Namun sumber itu cepat mengering. Ketika perusahaan memperketat akses ke data mereka dan masalah hak cipta menumpuk, perusahaan AI terpaksa memikirkan kembali pendekatan mereka. Pemerintah juga mulai memperkenalkan regulasi untuk membatasi scraping data, dan sentimen publik mulai berbalik menentang ide melatih model bernilai miliaran dolar dengan konten buatan pengguna yang tidak dibayar.

Data sintetis adalah salah satu solusi yang diusulkan, tetapi ini adalah pengganti yang berisiko. Model yang dilatih dengan data buatan model dapat menyebabkan umpan balik berulang, halusinasi, dan penurunan performa seiring waktu. Ada juga masalah kualitas: data sintetis sering kali kurang berantakan dan tidak memiliki nuansa dunia nyata, padahal justru itu yang dibutuhkan sistem AI agar dapat berfungsi dengan baik dalam skenario praktis.

Itu membuat data dunia nyata yang dihasilkan manusia menjadi standar emas, dan semakin sulit didapat. Sebagian besar platform besar yang mengumpulkan data manusia, seperti Meta, Google, dan X (sebelumnya Twitter), adalah pagar pembatas. Akses dibatasi, dimonetisasi, atau bahkan dilarang sama sekali. Lebih buruk lagi, dataset mereka sering condong ke wilayah, bahasa, dan demografi tertentu, sehingga menghasilkan model bias yang gagal dalam kasus penggunaan dunia nyata yang beragam.

Singkatnya, industri AI akan segera bertabrakan dengan kenyataan yang telah lama diabaikan: membangun LLM besar hanyalah setengah dari pertempuran. Memberinya makan adalah setengah lainnya.

Mengapa ini benar-benar penting

Ada dua bagian dalam rantai nilai AI: pembuatan model dan akuisisi data. Selama lima tahun terakhir, hampir semua modal dan hype masuk ke pembuatan model. Namun seiring kita mendorong batas ukuran model, perhatian akhirnya beralih ke setengah lainnya dari persamaan.

Jika model semakin menjadi komoditas, dengan alternatif open-source, versi footprint yang lebih kecil, dan desain yang efisien perangkat keras, maka pembeda nyata adalah data. Dataset unik dan berkualitas tinggi akan menjadi bahan bakar yang menentukan model mana yang akan unggul.

Mereka juga memperkenalkan bentuk penciptaan nilai baru. Kontributor data menjadi pemangku kepentingan. Pembuat dapat mengakses data yang lebih segar dan dinamis. Dan perusahaan dapat melatih model yang lebih selaras dengan target audiens mereka.

Masa depan AI milik penyedia data

Kita memasuki era baru AI, di mana siapa pun yang mengendalikan data memegang kekuatan nyata. Seiring persaingan untuk melatih model yang lebih baik dan lebih cerdas memanas, kendala terbesar bukan lagi komputasi. Tapi bagaimana mendapatkan data yang nyata, berguna, dan legal untuk digunakan.

Pertanyaannya sekarang bukan apakah AI akan berkembang, tetapi siapa yang akan menyediakan bahan bakarnya. Bukan hanya ilmuwan data. Tapi juga pengelola data, agregator, kontributor, dan platform yang mempertemukan mereka. Di situlah batas berikutnya berada.

Jadi lain kali Anda mendengar tentang batas baru dalam kecerdasan buatan, jangan tanya siapa yang membangun modelnya. Tanyakan siapa yang melatihnya, dan dari mana datanya berasal. Karena pada akhirnya, masa depan AI bukan hanya tentang arsitektur. Tapi tentang inputnya.

Baca selengkapnya: Penyimpanan, bukan silikon, yang akan memicu terobosan AI berikutnya | Opini

Max Li

Max Li adalah pendiri dan CEO di OORT, cloud data untuk AI terdesentralisasi. Dr. Li adalah seorang profesor, insinyur berpengalaman, dan penemu dengan lebih dari 200 paten. Latar belakangnya mencakup pekerjaan pada sistem 4G LTE dan 5G bersama Qualcomm Research serta kontribusi akademis pada teori informasi, machine learning, dan teknologi blockchain. Ia menulis buku berjudul “Reinforcement Learning for Cyber-physical Systems,” yang diterbitkan oleh Taylor & Francis CRC Press.

0

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Raih Token Baru
APR hingga 12%. Selalu aktif, selalu dapat airdrop.
Kunci sekarang!