La diversité cachée de l'IA de Google suscite un tollé face à des images historiquement inexactes

[ad_1]

Jeudi matin, Google a annoncé qu'il suspendait sa fonction de synthèse d'images Gemini AI en réponse aux critiques selon lesquelles l'outil insérait de la diversité dans ses images d'une manière historiquement inexacte, par exemple en décrivant des nazis multiraciaux et des rois britanniques médiévaux avec des nationalités improbables.

« Nous travaillons déjà pour résoudre les problèmes récents liés à la fonctionnalité de génération d'images de Gemini. Pendant ce temps, nous allons suspendre la génération d'images de personnes et publierons bientôt une version améliorée », a écrit Google dans un communiqué jeudi matin. .

Alors que de plus en plus de personnes sur X commençaient à s'accumuler sur Google parce qu'elles étaient « réveillées », les générations Gémeaux ont inspiré des théories du complot selon lesquelles Google discriminait délibérément les Blancs et proposait une histoire révisionniste pour servir des objectifs politiques. Au-delà de cet angle, comme le souligne The Verge, certaines de ces représentations inexactes « effaçaient essentiellement l’histoire de la discrimination raciale et sexuelle ».

Un résultat du générateur d'images Gemini AI pour

Mercredi soir, Elon Musk est intervenu dans le débat politiquement chargé en publiant un dessin animé décrivant les progrès de l'IA comme ayant deux voies, l'une avec « Recherche maximale de la vérité » d'un côté (à côté d'un logo xAI pour son entreprise) et « Woke Racist ». de l'autre, à côté des logos pour OpenAI et Gemini.

Ce n’est pas la première fois qu’une entreprise disposant d’un produit de synthèse d’images IA rencontre des problèmes de diversité dans ses résultats. Lorsque la synthèse d’images IA a été rendue publique avec DALL-E 2 en avril 2022, les gens ont immédiatement remarqué que les résultats étaient souvent biaisés. Par exemple, les critiques se sont plaints du fait que les invites aboutissaient souvent à des images racistes ou sexistes (« les PDG » étaient généralement des hommes blancs, « l'homme en colère » aboutissait à des représentations d'hommes noirs, pour n'en nommer que quelques-uns). Pour contrer cela, OpenAI a inventé en juillet 2022 une technique grâce à laquelle son système insérer des termes reflétant la diversité (comme « Noir », « Femme » ou « Asiatique ») dans des invites de génération d'images d'une manière qui était cachée à l'utilisateur.

Le système Gemini de Google semble faire quelque chose de similaire, en prenant l'invite de génération d'image d'un utilisateur (l'instruction, telle que « faire une peinture des pères fondateurs ») et en insérant des termes pour la diversité raciale et de genre, tels que « Sud-Asiatique » ou « non ». -binary » dans l'invite avant qu'elle ne soit envoyée au modèle générateur d'images. Quelqu'un sur X prétend avoir convaincu Gemini de décrire le fonctionnement de ce système, et cela correspond à notre connaissance du fonctionnement des invites du système avec les modèles d'IA. Les invites système sont des instructions écrites qui indiquent aux modèles d’IA comment se comporter, à l’aide d’expressions en langage naturel.

Lorsque nous avons testé le générateur d'images « Imagine with Meta AI » de Meta en décembre, nous avons remarqué qu'un principe de diversité similaire était à l'œuvre pour tenter de contrecarrer les préjugés.

Une capture d'écran d'un article de juillet 2022 dans lequel OpenAI montre sa technique pour atténuer les préjugés raciaux et sexistes dans les sorties d'images de l'IA.  L'utilisation par Google d'une technique similaire a conduit à la controverse.

Alors que la controverse s'enflait mercredi, Google PR a écrit : « Nous travaillons immédiatement à améliorer ce type de représentations. La génération d'images IA de Gemini génère un large éventail de personnes. Et c'est généralement une bonne chose car des gens du monde entier l'utilisent. Mais ici, on manque le but. »

L’épisode reflète une lutte continue dans laquelle les chercheurs en IA se retrouvent coincés au milieu de batailles idéologiques et culturelles en ligne. Différentes factions exigent des résultats différents des produits d’IA (comme éviter les préjugés ou les conserver) sans qu’aucun point de vue culturel ne soit pleinement satisfait. Il est difficile de proposer un modèle d’IA monolithique qui répondrait à tous les points de vue politiques et culturels, et certains experts le reconnaissent.

« Nous avons besoin d'un ensemble d'assistants IA libres et diversifiés pour les mêmes raisons que nous avons besoin d'une presse libre et diversifiée », a écrit Yann LeCun, scientifique en chef de l'IA chez Meta, sur X. « Ils doivent refléter la diversité des langues, des cultures, des systèmes de valeurs, opinions politiques et centres d'intérêt à travers le monde.

Lorsqu'OpenAI a été confronté à ces problèmes en 2022, sa technique d'insertion de la diversité a conduit à des générations difficiles au début, mais comme OpenAI était une entreprise relativement petite (par rapport à Google) faisant de petits pas dans un nouveau domaine, ces faux pas n'ont pas attiré autant d'attention. Beaucoup d'attention. Au fil du temps, OpenAI a affiné ses invites système, désormais incluses avec ChatGPT et DALL-E 3, pour inclure délibérément la diversité dans ses sorties tout en évitant la situation à laquelle Google est actuellement confronté. Cela a pris du temps et des itérations, et Google passera probablement par le même processus d'essais et d'erreurs, mais sur une très grande scène publique. Pour y remédier, Google pourrait modifier ses instructions système pour éviter d'insérer de la diversité lorsque l'invite concerne un sujet historique par exemple.

Mercredi, Jack Kawczyk, membre du personnel de Gemini, a semblé le reconnaître et a écrit : « Nous sommes conscients que Gemini présente des inexactitudes dans certaines représentations de génération d'images historiques, et nous nous efforçons de résoudre ce problème immédiatement. Dans le cadre de nos principes d'IA ai.google/responsabilité, nous concevons nos capacités de génération d'images pour refléter notre base d'utilisateurs mondiale, et nous prenons la représentation et les préjugés au sérieux. Nous continuerons à le faire pour les invites ouvertes (les images d'une personne promenant un chien sont universelles !) Les contextes historiques sont plus nuancés et nous les ajusterons davantage pour tenir compte de cela. Cela fait partie du processus d'alignement – itération sur les commentaires. »


[ad_2]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*