L’intelligence artificielle générative (IA générative) est une catégorie d’IA qui se concentre sur la création de données, de contenu ou de choses artistiques, de façon indépendante. Elle a déjà fait l’objet de plusieurs articles sur ce blog. Si cette technologie, notamment depuis la démocratisation de l’accès à ces technologies, est sur le devant de la scène en raison des bouleversements de paradigmes qu’elles pourraient entraîner, une étude récente suggère que la croissance des IA génératives pourrait bientôt ralentir, voire s’inverser. Cette étude, menée par des chercheurs de l’Université de Cambridge, a analysé les performances des IA génératives sur un ensemble de tâches variées. Les chercheurs ont constaté que les performances des IA génératives ont stagné ou même régressé sur certaines tâches, telles que la création d’images réalistes ou la traduction automatique.
Les chercheurs identifient plusieurs facteurs qui pourraient expliquer cette décroissance, dont un facteur important est le Model Collapse. Le Model Collapse est un phénomène qui se produit lorsque les IA génératives sont entraînées sur des ensembles de données qui contiennent du contenu généré par des IA. Dans ce cas, les IA génératives apprennent à reproduire les défauts et les biais du contenu généré par d’autres IA. Cela peut entraîner une diminution de la qualité et de la diversité du contenu généré par les IA génératives.
Model Collapse des IA : clap de fin pour la hype ?
Les implications du Model Collapse
Le Model Collapse pourrait avoir des implications importantes pour le développement des IA génératives. Il pourrait conduire à une réduction des investissements dans les IA génératives, et à une réorientation des recherches vers des domaines où les IA génératives sont encore prometteuses.
Lorsque les IA génératives sont exposées à du contenu de mauvaise qualité, elles apprennent à reproduire ces défauts. Cela peut entraîner la génération de contenu qui est flou, pixelisé, ou qui contient des erreurs. De la même manière, cela accroît les risques d’erreurs propagées. En effet, si l’IA générative fait des erreurs ou génère des informations inexactes, une IA qui apprend de ce contenu peut également adopter et propager ces erreurs. Idem quant au contenu biaisé. Il est assez connu dans le domaine de l’IA, que ces technologies, qui restent une création humaine, reproduisent les biais de leur créateur. De nouveau, si elles apprennent à reproduire ce biais, cela peut entraîner la génération de contenu qui est discriminatoire ou offensant.
Enfin, dans certains scénarios, si une IA apprend continuellement à partir de contenus générés par d’autres IA, cela pourrait conduire à des boucles de rétroaction où l’information est répétée et amplifiée sans nouvelle entrée ou perspective. On parle ici de Feedback loops. Dans le “meilleur des cas”, ces boucles entraîneraient juste la génération de contenu répétitif. On pourrait toutefois rétorquer que la monotonie de ces contenus ne date pas d’hier, à l’ère de la primauté du référencement, obligeant les auteurs que nous sommes à répondre aux exigences algorithmiques des internet, qui restent nécessaire pour faire le tri dans la multitude de contenu publiée quotidiennement.
Cette étude pointe donc les limites de l’architecture actuelle. Tout comme les ordinateurs traditionnels ont atteint des limites avec la loi de Moore, il est possible que nous approchions des limites de l’architecture actuelle des IA génératives. De surcroît le sur-entraînement des IA conjugué à un manque de diversité des données, dont les ensembles traités sont toujours plus grands, il y a un risque que les modèles soient « sur-entraînés » sur des données spécifiques, perdant ainsi en généralité et en créativité, a fortiori lorsque l’on se penche sur la complexité croissante de ces modèles, dont l’effet “boîte noire” complexifie le “recalibrage” des ces technologies. Finalement, ces IA n’ont peut-être pas mis KO la créativité humaine.
Pour autant, l’utilisation de contenus générés par l’IA peut aussi permettre à une IA apprenante d’explorer des scénarios ou des idées qu’elle n’aurait pas rencontrés dans des données traditionnelles. Cela pourrait, dans certaines situations, conduire à des formes d’apprentissage créatif.
Peut-on, dès lors, sauver les IA de leur autodestruction ?
Malgré le Model Collapse, les IA génératives restent une technologie prometteuse avec un potentiel important. Les chercheurs travaillent à développer des techniques pour lutter contre ce phénomène. Si ces techniques sont efficaces, les IA génératives peuvent connaître une nouvelle croissance dans les années à venir.
Voici donc quelques pistes pour lutter contre le Model Collapse :
Utiliser des ensembles de données de haute qualité
Les IA génératives doivent être entraînées sur des ensembles de données de haute qualité qui sont exempts de défauts et de biais, ou du moins, qui sait les reconnaître et les mettre en exergue.
Utiliser des techniques de “débiasage”
Il existe des techniques de débiasage qui peuvent être utilisées pour réduire le biais dans les données.
Utiliser des techniques de diversification
Il existe des techniques de diversification qui peuvent être utilisées pour générer un contenu plus varié.
Bref, il s’agit de rester attentif
Ces techniques semblent assez sensées, pour peu qu’elles soient rendues efficientes. Une grande attention doit donc être portée sur les résultats de ces technologies. Des mises à jour régulières, des réentrainement, du monitoring, des nettoyages de données, des copies de prestige du jeu de données original produit par l’homme doivent être faites, etc. Comme toujours, si la prise de conscience est déjà un premier pas vers l’amélioration continue, encore faut-il mettre en oeuvre les solutions itératives, sans jamais se reposer sur ses lauriers.
Conclusion
La décroissance des IA génératives est un phénomène réel qui pourrait avoir des implications importantes pour le développement de cette technologie. Cependant, les IA génératives restent une technologie prometteuse avec un potentiel important. Les chercheurs travaillent à résoudre les problèmes qui limitent les performances des IA génératives, y compris le Model Collapse. Si ces problèmes sont résolus, les IA génératives peuvent connaître une nouvelle croissance dans les années à venir.
La maîtrise de ces technologies et la recherche d’un optimum reste un long travail sisyphien. Le mythe de l’autonomie reste donc encore lointain. En bref, le « Grand Remplacement technologique », ce n’est pas pour demain…
Je découvre la notion de Model Collapse, qui ouvre bien des perspectives aux débats actuels tels que IA & IP (intellectual property) ou bien les peurs qui concernent la détection des deepfake, ou tout simplement le marquage des contenus générés par IA (cf encore récemment un article du monde sur le déplacement du citoyen vers un paradigme de la méfiance devant toute source d’information). Du concept de Model Collapse, il découle que la finitude des sources et l’autophagie seraient deux risques existentiels pour un écosystème d’IA générative.
1. IA and IP
Partout les créateurs de contenus, auteurs, photographes, réalisateurs, musiciens, se lèvent en bloc et entament des procès pour réclamer l’arrêt du pillage de leurs oeuvres. Ils ont raison, comme le montre votre article, la création originale est la vraie source de création de valeur d’un moteur d’IA générative. Ces 10 dernières années ont vu les géants de la tech se faire une compétition acharnée, quoique souterraine pour l’accès à la data, sans que les institutions (bibliothèques, éditeurs) ou les citoyens n’en comprennent les enjeux, et sans rémunération des auteurs. La nécessite de continuer à alimenter les modèles avec des contenus originaux pourrait bien déplacer cette course à la data – sans distinction sur la source – à la course vers la data nouvelle et la création originale. Cela pourrait bien redonner du pouvoir de négociation et de la valeur aux créateurs de contenus et conduire à des accords plus équilibrés de partage de la valeur entre créateurs de contenus et développeurs de modèles.
2. IA and self-generated content
S’il l’autophagie est un danger mortel pour l’IA, peut-on rêver d’un auto-régulation de l’écosystème dans lequel les contenus générés par IA seraient digitalement marqués, afin d’être reconnus et exclus des datasets exploités par ces mêmes moteurs d’IA génératives ? Une telle évolution, souhaitable pour le citoyen qui lit son journal, le chercheur qui évalue l’article d’un autre chercheur ou le professeurs qui note ses étudiants, semblait jusqu’ici improbable tant Big Tech et éthique semblent vivre dans des univers parallèle. Quid ces deux univers convergent vers un même intérêt vital de distinguer créations humaines et artificielles ?
Ainsi se dessine un futur utopique dans lequel l’IA ne menace pas la création artistique. Il y émergerait une nouvelle éthique commune, selon laquelle la création humaine serait valorisée davantage que la création artificielle, et serait rémunérée en tant que telle. Dans un tel univers le marquage des contenus artificiels / humains serait obligatoire, probablement avec l’aide de technologies NFT. La falsification d’un contenu artificiel serait un délit passible de sanctions pénales, comme aujourd’hui la fausse monnaie. Une police de la data traquerait les fraudeurs, et les auteurs retrouveraient / garderaient un prestige intact. Le monde de la culture opèrerait une dichotomie entres créations industrielles IA generated – probablement gratuites d’accès et rémunérées par la pub – et les oeuvres authentiques, rémunérées par des modèles payants (achat, location, abonnement streaming).
J’adorerais lire une oeuvre fictionnelle décrivant une telle utopie.
Exercer un raisonnement juste sur des données erronées, biaisées ou mensongères conduit à un résultat inexact. Rien de nouveau si l’intelligence qui produit le raisonnement est artificielle. Ce que suggère Maxime relève des attitudes que doivent (devraient ?) s’imposer tout journaliste, générateur à intelligence naturelle: sélectionner des sources de bonnes qualité, les diversifier, et être attentif aux biais. Dans le cas des journalistes, le biais des opinions et convictions personnelles est difficile à contrecarrer, mais il est plus ou moins pris en compte par le lecteur avisé, celui qui, connaissant les convictions de l’auteur, se met en posture d’adhésion ou au contraire de méfiance vis-à-vis du texte. Les mêmes réflexes jouent déjà avec l’IA générative.