La révolution de l’IA générative a commencé. Comment en sommes-nous arrivés là ?

[ad_1]

Les progrès dans les systèmes d’IA semblent souvent cycliques. Toutes les quelques années, les ordinateurs peuvent soudainement faire quelque chose qu’ils n’ont jamais pu faire auparavant. « Voir! » proclament les vrais croyants de l’IA, « l’ère de l’intelligence artificielle générale est proche ! » « Absurdité! » disent les sceptiques. « Vous vous souvenez des voitures autonomes ? »

La vérité se situe généralement quelque part entre les deux.

Nous sommes dans un autre cycle, cette fois avec l’IA générative. Les gros titres des médias sont dominés par les nouvelles sur l’art de l’IA, mais il y a aussi des progrès sans précédent dans de nombreux domaines très disparates. Tout, des vidéos à la biologie, en passant par la programmation, l’écriture, la traduction, etc., voit l’IA progresser au même rythme incroyable.

Pourquoi tout cela se passe-t-il maintenant ?

Vous connaissez peut-être les derniers événements dans le monde de l’IA. Vous avez vu l’œuvre d’art primée, entendu les interviews entre personnes décédées et lu des informations sur les percées en matière de repliement des protéines. Mais ces nouveaux systèmes d’IA ne se contentent pas de produire des démos sympas dans les laboratoires de recherche. Ils sont rapidement transformés en outils pratiques et en véritables produits commerciaux que tout le monde peut utiliser.

Il y a une raison pour laquelle tout cela est arrivé en même temps. Les percées sont toutes étayées par une nouvelle classe de modèles d’IA qui sont plus flexibles et puissants que tout ce qui a précédé. Parce qu’ils ont d’abord été utilisés pour des tâches linguistiques telles que répondre à des questions et rédiger des essais, ils sont souvent connus sous le nom de grands modèles de langage (LLM). Le GPT3 d’OpenAI, le BERT de Google, etc. sont tous des LLM.

Mais ces modèles sont extrêmement flexibles et adaptables. Les mêmes structures mathématiques ont été si utiles en vision par ordinateur, en biologie et plus encore que certains chercheurs ont commencé à les appeler des « modèles de base » pour mieux articuler leur rôle dans l’IA moderne.

D’où viennent ces modèles de base et comment ont-ils dépassé le langage pour conduire une si grande partie de ce que nous voyons dans l’IA aujourd’hui ?

La fondation des modèles de fondation

Il existe une sainte trinité dans l’apprentissage automatique : les modèles, les données et le calcul. Les modèles sont des algorithmes qui prennent des entrées et produisent des sorties. Les données font référence aux exemples sur lesquels les algorithmes sont entraînés. Pour apprendre quelque chose, il doit y avoir suffisamment de données avec une richesse suffisante pour que les algorithmes puissent produire une sortie utile. Les modèles doivent être suffisamment flexibles pour saisir la complexité des données. Et enfin, il doit y avoir suffisamment de puissance de calcul pour exécuter les algorithmes.

La première révolution moderne de l’IA a eu lieu avec l’apprentissage en profondeur en 2012, lorsque la résolution de problèmes de vision par ordinateur avec des réseaux de neurones convolutifs (CNN) a décollé. Les CNN ont une structure similaire à celle du cortex visuel du cerveau. Ils existent depuis les années 1990 mais n’étaient pas encore pratiques en raison de leurs besoins intenses en puissance de calcul.

En 2006, cependant, Nvidia a publié CUDA, un langage de programmation qui permettait l’utilisation de GPU comme supercalculateurs à usage général. En 2009, les chercheurs de Stanford AI ont présenté Imagenet, une collection d’images étiquetées utilisées pour former des algorithmes de vision par ordinateur. En 2012, AlexNet a combiné des CNN formés sur des GPU avec des données Imagenet pour créer le meilleur classificateur visuel que le monde ait jamais vu. L’apprentissage en profondeur et l’IA ont explosé à partir de là.

Les CNN, l’ensemble de données ImageNet et les GPU étaient une combinaison magique qui a permis des progrès considérables dans la vision par ordinateur. 2012 a déclenché un boom d’excitation autour de l’apprentissage en profondeur et a engendré des industries entières, comme celles impliquées dans la conduite autonome. Mais nous avons rapidement compris qu’il y avait des limites à cette génération d’apprentissage en profondeur. Les CNN étaient parfaits pour la vision, mais d’autres domaines n’ont pas eu leur percée de modèle. Une énorme lacune concernait le traitement du langage naturel (TLN), c’est-à-dire faire en sorte que les ordinateurs comprennent et fonctionnent avec le langage humain normal plutôt qu’avec le code.

Le problème de la compréhension et du travail avec le langage est fondamentalement différent de celui du travail avec les images. Le traitement du langage nécessite de travailler avec des séquences de mots, où l’ordre compte. Un chat est un chat, peu importe où il se trouve dans une image, mais il y a une grande différence entre « ce lecteur apprend l’IA » et « l’IA apprend ce lecteur ».

Jusqu’à récemment, les chercheurs s’appuyaient sur des modèles tels que les réseaux de neurones récurrents (RNN) et la mémoire longue à court terme (LSTM) pour traiter et analyser les données dans le temps. Ces modèles étaient efficaces pour reconnaître de courtes séquences, comme des mots prononcés à partir de phrases courtes, mais ils avaient du mal à gérer des phrases et des paragraphes plus longs. La mémoire de ces modèles n’était tout simplement pas assez sophistiquée pour saisir la complexité et la richesse des idées et des concepts qui surgissent lorsque des phrases sont combinées en paragraphes et essais. Ils étaient parfaits pour les assistants vocaux simples de style Siri et Alexa, mais pas pour grand-chose d’autre.

Obtenir les bonnes données d’entraînement était un autre défi. ImageNet était une collection de cent mille images étiquetées qui nécessitaient un effort humain important pour être générées, principalement par des étudiants diplômés et des travailleurs d’Amazon Mechanical Turk. Et ImageNet a en fait été inspiré et calqué sur un projet plus ancien appelé WordNet, qui tentait de créer un ensemble de données étiquetées pour le vocabulaire anglais. Bien qu’il n’y ait pas de pénurie de texte sur Internet, la création d’un ensemble de données significatif pour apprendre à un ordinateur à travailler avec le langage humain au-delà des mots individuels prend énormément de temps. Et les étiquettes que vous créez pour une application sur les mêmes données peuvent ne pas s’appliquer à une autre tâche.

[ad_2]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*