Alibaba lancia il modello di intelligenza artificiale Qwen3-Next più efficiente
Secondo quanto riportato da Jinse Finance, Tongyi Qianwen, una sussidiaria di Alibaba, ha rilasciato la nuova architettura di modello di base Qwen3-Next e ha reso open source la serie di modelli Qwen3-Next-80B-A3B basata su questa architettura. Rispetto alla struttura MoE del Qwen3, questa nuova architettura presenta i seguenti miglioramenti chiave: meccanismo di attenzione ibrido, struttura MoE ad alta sparsità, una serie di ottimizzazioni che favoriscono la stabilità durante l’addestramento e un meccanismo di previsione multi-token che migliora l’efficienza dell’inferenza. Basandosi sulla struttura del modello Qwen3-Next, Alibaba ha addestrato il modello Qwen3-Next-80B-A3B-Base, che possiede 80 miliardi di parametri ma ne attiva solo 3 miliardi. Questo modello Base raggiunge prestazioni simili o leggermente superiori rispetto al modello denso Qwen3-32B, mentre il costo di addestramento (in ore GPU) è inferiore a un decimo di quello del Qwen3-32B e la velocità di inferenza su contesti superiori a 32k è più di dieci volte superiore rispetto al Qwen3-32B, realizzando così un rapporto qualità-prezzo estremamente elevato sia per l’addestramento che per l’inferenza.
Esclusione di responsabilità: il contenuto di questo articolo riflette esclusivamente l’opinione dell’autore e non rappresenta in alcun modo la piattaforma. Questo articolo non deve essere utilizzato come riferimento per prendere decisioni di investimento.
Ti potrebbe interessare anche

In tendenza
AltroPrezzi delle criptovalute
Altro








