Alibaba meluncurkan model kecerdasan buatan Qwen3-Next yang lebih efisien
Jinse Finance melaporkan bahwa Tongyi Qianwen, anak perusahaan Alibaba, telah merilis arsitektur model dasar generasi berikutnya, Qwen3-Next, dan membuka kode seri model Qwen3-Next-80B-A3B yang berbasis arsitektur tersebut. Dibandingkan dengan struktur model MoE Qwen3, struktur ini telah mengalami beberapa peningkatan inti: mekanisme atensi campuran, struktur MoE dengan tingkat sparsitas tinggi, serangkaian optimasi yang ramah terhadap stabilitas pelatihan, serta mekanisme prediksi multi-token yang meningkatkan efisiensi inferensi. Berdasarkan struktur model Qwen3-Next, Alibaba telah melatih model Qwen3-Next-80B-A3B-Base, yang memiliki 80 miliar parameter namun hanya mengaktifkan 3 miliar parameter. Model Base ini mencapai performa yang sebanding atau bahkan sedikit lebih baik dibandingkan model Qwen3-32B dense, sementara biaya pelatihannya (GPU hours) kurang dari sepersepuluh dari Qwen3-32B, dan throughput inferensi pada konteks di atas 32k lebih dari sepuluh kali lipat Qwen3-32B, sehingga mencapai efisiensi biaya pelatihan dan inferensi yang luar biasa.
Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.
Kamu mungkin juga menyukai
Analis: Penurunan suku bunga The Fed akan menyebabkan dolar AS terus melemah
Perusahaan publik Brasil Meliuz meluncurkan strategi Bitcoin berbasis opsi untuk memperluas cadangan dana
Berita trending
LainnyaHarga kripto
Lainnya








