- QVAC Genesis II étend la formation en IA ouverte à 148 milliards de tokens couvrant 19 domaines académiques.
- Le jeu de données forme les modèles à expliquer leurs choix et à améliorer le raisonnement au-delà de la simple surface.
- Tether Data publie le jeu de données en accès libre pour soutenir les chercheurs en dehors des systèmes d’IA fermés.
Tether Data a publié QVAC Genesis II, élargissant son jeu de données éducatif synthétique ouvert pour l’intelligence artificielle à 148 milliards de tokens couvrant 19 domaines académiques. Cette mise à jour ajoute 107 milliards de tokens à la version Genesis I précédente et positionne ce jeu de données comme la plus grande ressource éducative synthétique publique au monde pour le pré-entraînement de l’IA.
QVAC, la division de recherche en intelligence artificielle de Tether Data, a indiqué que le jeu de données vise à renforcer le raisonnement, l’explication et la prise de décision dans les modèles d’IA, plutôt que l’apprentissage de motifs superficiels. La publication intervient alors que de nombreux jeux de données avancés de formation restent restreints à des systèmes propriétaires, limitant l’accès pour les chercheurs indépendants et les institutions académiques.
Échelle du jeu de données et couverture académique
Le jeu de données élargi couvre 19 domaines académiques et vise la profondeur dans le raisonnement éducatif à travers des tâches de raisonnement structuré. QVAC a déclaré que l’augmentation d’échelle permet une formation plus cohérente pour les modèles nécessitant des sorties basées sur l’explication plutôt que sur la simple prédiction probabiliste de texte.
En conséquence, le jeu de données se concentre sur la clarté et la causalité à travers les questions et réponses utilisées lors du pré-entraînement. Le jeu de données reste ouvertement accessible aux chercheurs, universités et développeurs indépendants travaillant en dehors des plateformes fermées.
QVAC a publié Genesis II sous licence Creative Commons Attribution–NonCommercial 4.0, poursuivant l’approche de licence utilisée pour Genesis I. L’organisation a indiqué que la licence soutient l’utilisation à des fins de recherche tout en préservant l’attribution et les limites non commerciales. Le jeu de données et les modèles associés sont disponibles via Hugging Face, accompagnés d’une documentation détaillée et d’outils d’accès.
Nouvelle méthode de raisonnement au niveau des options
Au cœur de Genesis II se trouve une nouvelle méthode de génération de données appelée Option-Level Reasoning. Cette méthode évalue chaque choix de réponse dans une question à choix multiples, y compris les options correctes et les idées fausses courantes.
Au lieu de traiter les bonnes réponses comme des résultats finaux, l’approche examine pourquoi chaque option réussit ou échoue. QVAC a déclaré que ce processus renforce le raisonnement valide tout en traitant directement les hypothèses incorrectes dans les données d’entraînement.
La méthode s’appuie sur le cadre d’analyse des échecs introduit dans Genesis I. Ensemble, les deux techniques forment un pipeline à double méthode qui garantit que chaque élément généré apporte une valeur pédagogique.
Des évaluations indépendantes citées par QVAC montrent que les modèles entraînés sur les données de Genesis II atteignent une précision de raisonnement supérieure et fournissent des réponses plus claires de façon plus cohérente. En conséquence, le jeu de données oriente la formation vers une compréhension structurée plutôt que vers la seule fluidité.
À lire aussi : Tether soumet une proposition pour acquérir le Juventus Football Club
Recherche ouverte et objectifs d’IA décentralisée
QVAC a déclaré que cette publication s’inscrit dans son effort plus large de soutien au développement local et décentralisé de l’IA. L’initiative vise à permettre la formation et le déploiement de modèles sans dépendre de plateformes cloud centralisées.
En élargissant les fondations de la formation ouverte, Tether Data vise à éliminer les barrières structurelles auxquelles sont confrontés les petits groupes de recherche. « La plupart des formations en IA aujourd’hui optimisent la fluidité, pas la compréhension », a déclaré Paolo Ardoino, directeur général de Tether.
« Avec cette publication, nous allons au-delà du volume pour viser la structure, le raisonnement et la clarté », a déclaré Ardoino. Il a ajouté que l’accès ouvert donne aux chercheurs les outils pour développer des systèmes d’IA qui restent explicables et fiables.
L’article technique, intitulé QVAC Genesis II : Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training, est disponible sur le blog de recherche QVAC. QVAC a également publié une FAQ détaillée et du matériel de soutien sur son site officiel.
Alors que les systèmes d’IA s’étendent à l’éducation, à la science et aux services financiers, y compris les applications fintech, des jeux de données structurés peuvent-ils transformer la façon dont les systèmes intelligents apprennent et fonctionnent ?


