Elon Musk a récemment lancé une alerte concernant l'intelligence artificielle (IA), affirmant que celle-ci a épuisé la totalité des connaissances humaines disponibles pour son apprentissage. Selon lui, cet épuisement s'est produit au cours de l'année 2024. Cette situation soulève des inquiétudes quant à l'avenir de l’outil et la poursuite de son évolution. Face à cette pénurie de données, le milliardaire et d'autres experts suggèrent de se tourner vers l'utilisation de données synthétiques, ce qui n’est pas sans risque.
L'intégralité des connaissances de l'humanité ne suffit plus à entraîner les intelligences artificielles. C'est l'affirmation d'Elon Musk lors d'une conversation avec Mark Penn, président-directeur général de Stagwell, diffusée en direct sur X (ex-Twitter). Le problème d'une pénurie de données est l'une des principales faiblesses des grands modèles de langage actuels, évoqué déjà depuis un certain temps. La solution résiderait dans les données synthétiques. Cela signifie que les IA devront être entraînées sur des données générées par IA et s'autoévaluer.
Un risque d’effondrement
L'un des problèmes, évoqué par Musk, est le risque d’hallucinations. Que se passe-t-il lorsqu'une IA est entraînée sur des données produites par une autre IA, contenant des erreurs ? L'IA dégénère, dans un phénomène appelée effondrement de modèle, ou model collapse. Le risque est une réduction de la créativité et une augmentation des biais, avec une diminution de refléter correctement le monde réel et un manque de cohérence, ce qui pourrait obliger les entreprises à revoir la manière dont sont conçus les grands modèles de langage. Comment ? En mettant l'accent sur la qualité et la diversité des données d'entraînement, ainsi que sur des mécanismes de vérification et de correction des erreurs.