Le goulot d'étranglement à un milliard de dollars de l’IA : la qualité des données, pas le modèle | Opinion
L’IA pourrait bien être la prochaine industrie à mille milliards de dollars, mais elle approche discrètement d’un énorme goulot d’étranglement. Alors que tout le monde s’empresse de construire des modèles toujours plus grands et puissants, un problème imminent reste largement ignoré : nous pourrions manquer de données d’entraînement utilisables d’ici seulement quelques années.
- L’IA manque de carburant : les ensembles de données d’entraînement ont crû 3,7 fois par an, et nous pourrions épuiser l’offre mondiale de données publiques de qualité entre 2026 et 2032.
- Le marché de l’étiquetage explose, passant de 3,7 milliards de dollars (2024) à 17,1 milliards de dollars (2030), tandis que l’accès aux données humaines réelles se réduit derrière des jardins clos et des réglementations.
- Les données synthétiques ne suffisent pas : les boucles de rétroaction et le manque de nuances réelles en font un substitut risqué face à des entrées désordonnées générées par l’humain.
- Le pouvoir se déplace vers les détenteurs de données : avec la banalisation des modèles, le véritable facteur différenciant sera la propriété et le contrôle d’ensembles de données uniques et de haute qualité.
Selon EPOCH AI, la taille des ensembles de données d’entraînement pour les grands modèles de langage a augmenté à un rythme d’environ 3,7 fois par an depuis 2010. À ce rythme, nous pourrions épuiser l’offre mondiale de données publiques de haute qualité entre 2026 et 2032.
Avant même d’atteindre ce mur, le coût d’acquisition et de curation des données étiquetées explose déjà. Le marché de la collecte et de l’étiquetage des données était évalué à 3,77 milliards de dollars en 2024 et devrait atteindre 17,10 milliards de dollars d’ici 2030.
Une telle croissance explosive suggère une opportunité claire, mais aussi un point d’étranglement évident. Les modèles d’IA ne valent que par la qualité des données sur lesquelles ils sont entraînés. Sans pipeline évolutif de jeux de données frais, diversifiés et non biaisés, la performance de ces modèles plafonnera, et leur utilité commencera à décliner.
La vraie question n’est donc pas de savoir qui construira le prochain grand modèle d’IA. C’est de savoir qui possède les données et d’où elles proviendront.
Le problème de données de l’IA est plus grave qu’il n’y paraît
Au cours de la dernière décennie, l’innovation en IA s’est fortement appuyée sur des ensembles de données publics : Wikipedia, Common Crawl, Reddit, des dépôts de code open source, et plus encore. Mais cette source s’assèche rapidement. Alors que les entreprises restreignent l’accès à leurs données et que les problèmes de droits d’auteur s’accumulent, les sociétés d’IA sont contraintes de repenser leur approche. Les gouvernements introduisent également des réglementations pour limiter le scraping de données, et l’opinion publique évolue contre l’idée d’entraîner des modèles valant des milliards de dollars sur du contenu généré par les utilisateurs sans compensation.
Les données synthétiques sont une solution proposée, mais elles constituent un substitut risqué. Les modèles entraînés sur des données générées par d’autres modèles peuvent entraîner des boucles de rétroaction, des hallucinations et une dégradation des performances au fil du temps. Il y a aussi la question de la qualité : les données synthétiques manquent souvent du désordre et des nuances du monde réel, ce dont les systèmes d’IA ont justement besoin pour bien fonctionner dans des scénarios pratiques.
Il ne reste donc que les données réelles, générées par l’humain, comme référence absolue, et elles deviennent de plus en plus difficiles à obtenir. La plupart des grandes plateformes qui collectent des données humaines, comme Meta, Google et X (anciennement Twitter), sont des jardins clos. L’accès y est restreint, monétisé, voire totalement interdit. Pire encore, leurs ensembles de données sont souvent biaisés vers certaines régions, langues et démographies, ce qui conduit à des modèles biaisés qui échouent dans des cas d’usage réels et diversifiés.
En résumé, l’industrie de l’IA est sur le point de se heurter à une réalité longtemps ignorée : construire un LLM massif n’est que la moitié du défi. Le nourrir en est l’autre moitié.
Pourquoi cela compte vraiment
La chaîne de valeur de l’IA comporte deux volets : la création de modèles et l’acquisition de données. Au cours des cinq dernières années, presque tout le capital et l’engouement se sont concentrés sur la création de modèles. Mais à mesure que nous repoussons les limites de la taille des modèles, l’attention se porte enfin sur l’autre moitié de l’équation.
Si les modèles deviennent banalisés, avec des alternatives open source, des versions plus compactes et des conceptions plus efficaces en matériel, alors le véritable facteur différenciant devient la donnée. Les ensembles de données uniques et de haute qualité seront le carburant qui déterminera quels modèles surpasseront les autres.
Ils introduisent également de nouvelles formes de création de valeur. Les contributeurs de données deviennent des parties prenantes. Les constructeurs ont accès à des données plus fraîches et dynamiques. Et les entreprises peuvent entraîner des modèles mieux alignés sur leurs publics cibles.
L’avenir de l’IA appartient aux fournisseurs de données
Nous entrons dans une nouvelle ère de l’IA, où celui qui contrôle les données détient le véritable pouvoir. À mesure que la compétition pour entraîner des modèles meilleurs et plus intelligents s’intensifie, la plus grande contrainte ne sera pas la puissance de calcul. Ce sera la capacité à obtenir des données réelles, utiles et légales à utiliser.
La question n’est plus de savoir si l’IA va passer à l’échelle, mais qui alimentera cette montée en puissance. Il ne s’agira pas seulement de data scientists. Il s’agira de gestionnaires de données, d’agrégateurs, de contributeurs et des plateformes qui les réunissent. C’est là que se trouve la prochaine frontière.
Alors, la prochaine fois que vous entendrez parler d’une nouvelle frontière en intelligence artificielle, ne demandez pas qui a construit le modèle. Demandez qui l’a entraîné, et d’où proviennent les données. Car au final, l’avenir de l’IA ne dépend pas seulement de l’architecture. Il dépend de l’entrée.
Max Li est le fondateur et PDG d’OORT, le cloud de données pour l’IA décentralisée. Dr. Li est professeur, ingénieur expérimenté et inventeur avec plus de 200 brevets. Son parcours inclut des travaux sur les systèmes 4G LTE et 5G avec Qualcomm Research ainsi que des contributions académiques à la théorie de l’information, l’apprentissage automatique et la technologie blockchain. Il est l’auteur du livre intitulé “Reinforcement Learning for Cyber-physical Systems,” publié par Taylor & Francis CRC Press.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer
Plongez dans le monde de la crypto : les coins PUMP et WLFI s’envolent avec un potentiel inégalé
En bref, les jetons WLFI et PUMP ont suivi des trajectoires opposées après leur introduction sur le marché des cryptomonnaies. PUMP Coin présente un potentiel de croissance grâce à sa stratégie de rachat et à l'intérêt croissant du marché. WLFI bénéficie d'un solide soutien, mais fait face à des interrogations concernant sa valorisation actuelle sur le marché.

La mise à jour Fusaka d'Ethereum prévue pour le 3 décembre 2025

Les alts sont difficiles à conserver : 5 altcoins à accumuler pour des gains de plus de 500 % malgré l’incertitude

Surveillance de la cassure de XRP et scénario haussier de Hedera rencontrent le tableau de bord V4 de BlockDAG et une prévente de près de 410 millions de dollars : prêts pour de gros profits en 2025 ?
Découvrez pourquoi XRP vise une percée, Hedera affiche un potentiel de hausse de 30 %, tandis que le prix de déploiement limité à 0,0013 $ de BlockDAG et l’adoption du Dashboard V4 en font la meilleure crypto pour 2025. Surveillance de la percée de XRP : les analystes visent des niveaux plus élevés Potentiel de hausse de 30 % pour Hedera, soutenu par la croissance de son écosystème Dashboard V4 de BlockDAG : transparence et adoption à grande échelle Mot de la fin : XRP, HBAR et BlockDAG

En vogue
PlusPrix des cryptos
Plus








