Les compétences linguistiques de l’IA amènent les robots Google dans le monde réel

[ad_1]

Google a trouvé une nouvelle façon surprenante d’aider les robots à gérer la complexité ouverte du monde réel : leur apprendre à comprendre le langage.

Le géant de la technologie a greffé sa dernière technologie d’intelligence artificielle pour la gestion du langage, appelée PaLM, sur des robots de , l’une des divisions expérimentales de la société mère Alphabet. Il a révélé la technologie résultante, appelée , mardi.

Grâce à cette technologie, le modèle de langage IA de Google apporte suffisamment de connaissances sur le monde réel pour aider un robot à interpréter une vague commande humaine et à enchaîner une séquence d’actions pour y répondre. Cela contraste fortement avec les actions scénarisées avec précision que la plupart des robots suivent dans des circonstances étroitement contrôlées, comme l’installation de pare-brise sur une chaîne de montage de voitures.

La technologie est un projet de recherche qui est prêt pour les heures de grande écoute. Mais Google l’a testé dans une vraie cuisine de bureau, et non dans un environnement de laboratoire plus contrôlé, dans le but de construire des robots qui peuvent être utiles dans le chaos imprévisible de nos vies réelles. Avec des projets comme le bot bipède Optimus de Tesla, les créations de Boston Dynamics et Astro d’Amazon, il montre comment les robots pourraient éventuellement sortir de la science-fiction.

Lorsqu’un chercheur de Google AI dit à un robot PaLM-SayCan : « J’ai renversé mon verre, pouvez-vous m’aider ? » il glisse sur ses roues dans une cuisine d’un immeuble de bureaux de Google, repère une éponge sur le comptoir avec sa vision d’appareil photo numérique, la saisit avec un bras motorisé et la rapporte au chercheur. Le robot peut également reconnaître les canettes de Pepsi et de Coca, ouvrir les tiroirs et localiser les sacs de chips. Avec les capacités d’abstraction du PaLM, il peut même comprendre que les bols jaunes, verts et bleus peuvent représenter métaphoriquement un désert, une jungle et un océan, respectivement.

« Au fur et à mesure que nous améliorons les modèles de langage, les performances robotiques s’améliorent également », a déclaré Karol Hausman, chercheur principal chez Google, qui a aidé à démontrer la technologie.

L’IA a profondément transformé le fonctionnement de la technologie informatique et ce qu’elle peut faire. Avec la technologie moderne des réseaux de neurones, vaguement modélisée sur le cerveau humain et également appelée apprentissage en profondeur, les systèmes d’IA sont entraînés sur de vastes quantités de données désordonnées du monde réel. Après avoir vu des milliers de photos de chats, par exemple, les systèmes d’IA peuvent en reconnaître un sans avoir à se faire dire qu’il a généralement quatre pattes, des oreilles pointues et des moustaches.

Google a utilisé une énorme machine à 6 144 processeurs pour s’entraîner, sur une vaste collection multilingue de documents Web, de livres, d’articles de Wikipédia, de conversations et de code de programmation trouvés sur le site GitHub de Microsoft. Le résultat est un système d’IA capable d’expliquer des blagues, de compléter des phrases, de répondre à des questions et de suivre sa propre chaîne de pensées pour raisonner.

Le travail PaLM-SayCan marie cette compréhension du langage avec les capacités propres du robot. Lorsque le robot reçoit une commande, il associe les suggestions du modèle de langage à un ensemble d’environ 100 compétences qu’il a apprises. Le robot choisit l’action qui obtient le meilleur score à la fois sur le langage et sur les compétences du robot.

Le système est limité par sa formation et ses circonstances, mais il est beaucoup plus flexible qu’un robot industriel. Lorsque ma collègue Claire Reilly demande à un robot PaLM-SayCan de « me construire un hamburger », il empile des versions de blocs de bois de petits pains, galettes, laitue et une bouteille de ketchup dans le bon ordre.

Les compétences et l’environnement du robot offrent une base réelle pour les possibilités plus larges du modèle de langage, a déclaré Google. « Les compétences agiront comme le [language model’s] ‘mains et yeux' », ont-ils dit dans un .

Le résultat est un robot qui peut faire face à un environnement plus compliqué. « Notre niveau de performance est suffisamment élevé pour que nous puissions l’exécuter en dehors d’un laboratoire », a déclaré Hausman.

Une trentaine de robots du quotidien à roues patrouillent dans les bureaux de robotique de Google à Mountain View, en Californie. Chacun a une base large pour l’équilibre et la locomotion, une tige plus épaisse s’élevant jusqu’à la hauteur de la poitrine d’un humain pour soutenir une « tête » articulée, un visage avec diverses caméras et un anneau lumineux vert indiquant quand un robot est actif, un bras de préhension articulé et un capteur lidar rotatif qui utilise un laser pour créer un scan 3D de son environnement. Au dos se trouve un gros bouton d’arrêt rouge, mais les robots sont programmés pour éviter les collisions.

Certains des robots se tiennent à des stations où ils acquièrent des compétences telles que ramasser des objets. Cela prend du temps, mais une fois qu’un robot l’a appris, la compétence peut être transférée à d’autres.

D’autres robots glissent dans les bureaux, chacun avec un seul bras replié derrière et un visage pointant vers des codes QR collés aux fenêtres, des extincteurs et une grande statue de robot Android. Le travail de ces robots ambulatoires est d’essayer d’apprendre à se comporter poliment avec les humains, a déclaré Vincent Vanhoucke, scientifique distingué de Google et directeur du laboratoire de robotique.

« L’IA a eu beaucoup de succès dans les mondes numériques, mais elle doit encore faire une brèche significative en résolvant de vrais problèmes pour de vraies personnes dans le monde physique réel », a déclaré Vanhoucke. « Nous pensons que c’est un très bon moment en ce moment pour que l’IA migre dans le monde réel. »

[ad_2]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*