Alibaba meluncurkan model kecerdasan buatan Qwen3-Next yang lebih efisien

Jinse Finance melaporkan bahwa Tongyi Qianwen, anak perusahaan Alibaba, telah merilis arsitektur model dasar generasi berikutnya, Qwen3-Next, dan membuka kode seri model Qwen3-Next-80B-A3B yang berbasis arsitektur tersebut. Dibandingkan dengan struktur model MoE Qwen3, struktur ini telah mengalami beberapa peningkatan inti: mekanisme atensi campuran, struktur MoE dengan tingkat sparsitas tinggi, serangkaian optimasi yang ramah terhadap stabilitas pelatihan, serta mekanisme prediksi multi-token yang meningkatkan efisiensi inferensi. Berdasarkan struktur model Qwen3-Next, Alibaba telah melatih model Qwen3-Next-80B-A3B-Base, yang memiliki 80 miliar parameter namun hanya mengaktifkan 3 miliar parameter. Model Base ini mencapai performa yang sebanding atau bahkan sedikit lebih baik dibandingkan model Qwen3-32B dense, sementara biaya pelatihannya (GPU hours) kurang dari sepersepuluh dari Qwen3-32B, dan throughput inferensi pada konteks di atas 32k lebih dari sepuluh kali lipat Qwen3-32B, sehingga mencapai efisiensi biaya pelatihan dan inferensi yang luar biasa.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Raih Token Baru

APR hingga 12%. Selalu aktif, selalu dapat airdrop.

Kunci sekarang!