Protokol Coral Mengungguli Microsoft Sebesar 34% dengan Tolok Ukur GAIA Teratas untuk Model Mini AI

MPOST2025/08/08 03:15

Oleh:MPOST

Singkatnya Sistem multi-agen Coral Protocol mengungguli Magnetic-UI yang didukung Microsoft sebesar 34% pada Benchmark GAIA, menunjukkan bahwa orkestrasi cerdas model yang lebih kecil dapat menyaingi atau melampaui pendekatan AI skala besar tradisional.

Infrastruktur terdesentralisasi untuk AI kolaboratif, Protokol Karang melaporkan bahwa sistem multi-agennya mengungguli Magnetic-UI yang didukung Microsoft sebesar 34% pada Benchmark GAIA—sebuah hasil yang belum pernah terjadi sebelumnya yang menunjukkan bahwa penskalaan horizontal mungkin menawarkan pendekatan yang lebih efektif daripada memperluas parameter model. Sistem protokol ini memanfaatkan orkestrasi cerdas di berbagai agen, alih-alih hanya berfokus pada peningkatan ukuran model.

Kinerja ini menandai skor terverifikasi tertinggi pada Benchmark GAIA menggunakan agen mini, mendukung NVIDIA Premis bahwa model-model kecil yang terkoordinasi dengan baik dapat memainkan peran kunci di masa depan AI. Hasilnya, menurut para pengembang Coral, mencerminkan pergeseran konseptual dalam pendekatan skalabilitas AI, alih-alih sekadar peningkatan kekuatan sistem.

Sebagai protokol terbuka, Coral memfasilitasi perluasan kapabilitas AI dengan memungkinkan koordinasi antar agen khusus secara global, alih-alih bergantung pada model umum yang terpusat. Arsitekturnya memungkinkan interaksi paralel dan aman antar agen, meningkatkan fungsionalitas model bahasa dari semua ukuran dalam tugas-tugas yang membutuhkan penalaran, perencanaan, dan pemecahan masalah tingkat lanjut.

"Terobosan ini menandai titik balik dalam infrastruktur AI," ujar CTO Coral, Caelum Forder, dalam pernyataan tertulisnya. "Ini bukti bahwa penskalaan horizontal bukan hanya mungkin—tetapi juga praktis, dan Coral adalah cara paling efektif untuk mewujudkannya. Internet of Agents kini telah menjadi kenyataan. Jika Anda seorang pengembang agen, Coralisasikan saja. Jika Anda seorang pengembang aplikasi, bangunlah dengan lebih baik dan hemat biaya menggunakan infrastruktur kami," tambahnya.

Coral Puncaki Tolok Ukur GAIA, Validasi Kekuatan Model Kecil dalam Sistem Agen Lanjutan

Di tengah meningkatnya persaingan untuk mengembangkan sistem agen canggih, sebagian besar fokus tetap pada peningkatan skala model untuk mengelola kompleksitas tugas yang terus meningkat. Performa Coral baru-baru ini menantang pendekatan yang berlaku ini, sejalan dengan temuan dari studi NVIDIA terbaru yang menunjukkan bahwa sistem yang lebih kecil dapat memberikan performa tinggi tanpa mengorbankan kecepatan, keamanan, atau efisiensi. GAIA Benchmark, rangkaian evaluasi komprehensif untuk AI canggih, dirancang untuk menilai seberapa baik sistem menangani tugas-tugas dunia nyata yang biasanya membutuhkan waktu dan keterampilan substansial dari para ahli manusia. Terdiri dari 450 prompt kompleks yang menguji kemampuan riset, analitis, dan penalaran, benchmark ini berfungsi sebagai metrik industri utama untuk mengevaluasi efektivitas agen model bahasa besar (LLM) serbaguna.

Sistem Agen GAIA Coral, yang digunakan dalam uji benchmark, didasarkan pada Protokol Coral dan mengadopsi prinsip desain OWL CAMEL. Sistem ini menggabungkan agen-agen khusus untuk menjalankan berbagai tugas termasuk riset, analisis, kritik, perencanaan, dan navigasi web, yang semuanya berkomunikasi melalui infrastruktur server MCP Coral.

Memimpin peringkat Benchmark GAIA untuk model yang lebih kecil menunjukkan potensi Coral untuk memperluas fungsionalitas sistem AI melalui struktur berbasis grafik. Hasil ini menunjukkan bahwa agen berperforma tinggi dan ringan dapat dibuat menggunakan model yang lebih kecil—memfasilitasi penanganan data yang lebih luas, integrasi ekosistem yang lebih lancar, dan komunikasi antar-agen yang lebih baik.

"Peran model-model kecil dalam sistem agensi masih belum banyak dipahami, tetapi trennya mulai berubah," ujar Caelum Forder. "Kami telah membuktikan bahwa model-model tersebut dapat melampaui batas-batas yang sebelumnya diketahui dan mengungguli para pesaing lama. Saya yakin mereka memiliki peran sentral di masa depan AI agensi," pungkasnya.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Raih Token Baru

APR hingga 12%. Selalu aktif, selalu dapat airdrop.

Kunci sekarang!