L’intelligence artificielle générative (IA générative) est une catégorie d’IA qui se concentre sur la création de données, de contenu ou de choses artistiques, de façon indépendante. Elle a déjà fait l’objet de plusieurs articles sur ce blog. Si cette technologie, notamment depuis la démocratisation de l’accès à ces technologies, est sur le devant de la scène en raison des bouleversements de paradigmes qu’elles pourraient entraîner, une étude récente suggère que la croissance des IA génératives pourrait bientôt ralentir, voire s’inverser. Cette étude, menée par des chercheurs de l’Université de Cambridge, a analysé les performances des IA génératives sur un ensemble de tâches variées. Les chercheurs ont constaté que les performances des IA génératives ont stagné ou même régressé sur certaines tâches, telles que la création d’images réalistes ou la traduction automatique.

Les chercheurs identifient plusieurs facteurs qui pourraient expliquer cette décroissance, dont un facteur important est le Model Collapse. Le Model Collapse est un phénomène qui se produit lorsque les IA génératives sont entraînées sur des ensembles de données qui contiennent du contenu généré par des IA. Dans ce cas, les IA génératives apprennent à reproduire les défauts et les biais du contenu généré par d’autres IA. Cela peut entraîner une diminution de la qualité et de la diversité du contenu généré par les IA génératives.

Model Collapse des IA : clap de fin pour la hype ?

Les implications du Model Collapse

Le Model Collapse pourrait avoir des implications importantes pour le développement des IA génératives. Il pourrait conduire à une réduction des investissements dans les IA génératives, et à une réorientation des recherches vers des domaines où les IA génératives sont encore prometteuses.

Lorsque les IA génératives sont exposées à du contenu de mauvaise qualité, elles apprennent à reproduire ces défauts. Cela peut entraîner la génération de contenu qui est flou, pixelisé, ou qui contient des erreurs. De la même manière, cela accroît les risques d’erreurs propagées. En effet, si l’IA générative fait des erreurs ou génère des informations inexactes, une IA qui apprend de ce contenu peut également adopter et propager ces erreurs. Idem quant au contenu biaisé. Il est assez connu dans le domaine de l’IA, que ces technologies, qui restent une création humaine, reproduisent les biais de leur créateur. De nouveau, si elles apprennent à reproduire ce biais, cela peut entraîner la génération de contenu qui est discriminatoire ou offensant.

Enfin, dans certains scénarios, si une IA apprend continuellement à partir de contenus générés par d’autres IA, cela pourrait conduire à des boucles de rétroaction où l’information est répétée et amplifiée sans nouvelle entrée ou perspective. On parle ici de Feedback loops. Dans le “meilleur des cas”, ces boucles entraîneraient juste la génération de contenu répétitif. On pourrait toutefois rétorquer que la monotonie de ces contenus ne date pas d’hier, à l’ère de la primauté du référencement, obligeant les auteurs que nous sommes à répondre aux exigences algorithmiques des internet, qui restent nécessaire pour faire le tri dans la multitude de contenu publiée quotidiennement. 

Cette étude pointe donc les limites de l’architecture actuelle. Tout comme les ordinateurs traditionnels ont atteint des limites avec la loi de Moore, il est possible que nous approchions des limites de l’architecture actuelle des IA génératives. De surcroît le sur-entraînement des IA conjugué à un manque de diversité des données, dont les ensembles traités sont toujours plus grands, il y a un risque que les modèles soient « sur-entraînés » sur des données spécifiques, perdant ainsi en généralité et en créativité, a fortiori lorsque l’on se penche sur la complexité croissante de ces modèles, dont l’effet “boîte noire” complexifie le “recalibrage” des ces technologies. Finalement, ces IA n’ont peut-être pas mis KO la créativité humaine.

Pour autant, l’utilisation de contenus générés par l’IA peut aussi permettre à une IA apprenante d’explorer des scénarios ou des idées qu’elle n’aurait pas rencontrés dans des données traditionnelles. Cela pourrait, dans certaines situations, conduire à des formes d’apprentissage créatif.

Peut-on, dès lors, sauver les IA de leur autodestruction ? 

Malgré le Model Collapse, les IA génératives restent une technologie prometteuse avec un potentiel important. Les chercheurs travaillent à développer des techniques pour lutter contre ce phénomène. Si ces techniques sont efficaces, les IA génératives peuvent connaître une nouvelle croissance dans les années à venir.

Voici donc quelques pistes pour lutter contre le Model Collapse :

Utiliser des ensembles de données de haute qualité

Les IA génératives doivent être entraînées sur des ensembles de données de haute qualité qui sont exempts de défauts et de biais, ou du moins, qui sait les reconnaître et les mettre en exergue. 

Utiliser des techniques de “débiasage”

Il existe des techniques de débiasage qui peuvent être utilisées pour réduire le biais dans les données.

Utiliser des techniques de diversification

Il existe des techniques de diversification qui peuvent être utilisées pour générer un contenu plus varié.

Bref, il s’agit de rester attentif

Ces techniques semblent assez sensées, pour peu qu’elles soient rendues efficientes. Une grande attention doit donc être portée sur les résultats de ces technologies. Des mises à jour régulières, des réentrainement, du monitoring, des nettoyages de données, des copies de prestige du jeu de données original produit par l’homme doivent être faites, etc. Comme toujours, si la prise de conscience est déjà un premier pas vers l’amélioration continue, encore faut-il mettre en oeuvre les solutions itératives, sans jamais se reposer sur ses lauriers.

Conclusion

La décroissance des IA génératives est un phénomène réel qui pourrait avoir des implications importantes pour le développement de cette technologie. Cependant, les IA génératives restent une technologie prometteuse avec un potentiel important. Les chercheurs travaillent à résoudre les problèmes qui limitent les performances des IA génératives, y compris le Model Collapse. Si ces problèmes sont résolus, les IA génératives peuvent connaître une nouvelle croissance dans les années à venir.
La maîtrise de ces technologies et la recherche d’un optimum reste un long travail sisyphien. Le mythe de l’autonomie reste donc encore lointain. En bref, le « Grand Remplacement technologique », ce n’est pas pour demain…