La révolution de l’IA générative a commencé – comment en sommes-nous arrivés là ?

La révolution de l’IA générative a commencé – comment en sommes-nous arrivés là ?

Les progrès des systèmes d’intelligence artificielle semblent souvent être cycliques. Toutes les quelques années, les ordinateurs sont soudainement capables de faire quelque chose qu’ils n’avaient jamais pu faire auparavant. « Ici ! » les vrais croyants en l’IA proclament : « L’ère de l’intelligence artificielle générale est proche ! » « Non-sens ! » disent les sceptiques. « Vous vous souvenez des voitures autonomes ? »

La vérité se situe généralement quelque part au milieu.

Nous sommes dans un autre cycle, cette fois avec l’IA générative. Les gros titres des médias sont dominés par l’actualité de l’art de l’intelligence artificielle, mais il y a aussi des progrès sans précédent dans de nombreux domaines complètement disparates. Dans tous les domaines, de la vidéo à la biologie, en passant par la programmation, l’écriture, la traduction et plus encore, l’IA progresse au même rythme incroyable.

Pourquoi tout cela se passe-t-il maintenant ?

Vous connaissez peut-être les derniers développements dans le monde de l’IA. Vous avez vu des travaux primés, entendu des interviews de personnes décédées et lu des informations sur les percées dans le repliement des protéines. Mais ces nouveaux systèmes d’IA ne se contentent pas de créer des démos sympas dans les laboratoires de recherche. Ils évoluent rapidement vers des outils pratiques et de véritables produits commerciaux que tout le monde peut utiliser.

Il y a une raison pour laquelle tout est arrivé en même temps. Toutes les réalisations sont basées sur une nouvelle classe de modèles d’IA qui sont plus flexibles et puissants que tout ce qui a précédé. Parce qu’ils ont d’abord été utilisés pour des tâches linguistiques telles que répondre à des questions et rédiger des essais, ils sont souvent appelés grands modèles de langage (LLM). GPT3 d’OpenAI, BERT de Google, etc. sont tous des LLM.

Mais ces modèles sont extrêmement flexibles et adaptables. Les mêmes structures mathématiques se sont révélées si utiles en vision par ordinateur, en biologie et plus encore que certains chercheurs ont commencé à les appeler des « modèles maîtres » pour mieux articuler leur rôle dans l’IA moderne.

D’où viennent ces modèles de base et comment sont-ils sortis du langage pour conduire ce que nous voyons dans l’IA aujourd’hui ?

Base des modèles de fondation

Il existe une sainte trinité dans l’apprentissage automatique : modèles, données et calculs. Les modèles sont des algorithmes qui prennent des entrées et produisent des sorties. Les données se réfèrent aux exemples sur lesquels les algorithmes sont entraînés. Afin d’apprendre quelque chose, il doit y avoir suffisamment de données suffisamment complètes pour que les algorithmes puissent produire un résultat utile. Les modèles doivent être suffisamment flexibles pour refléter la complexité des données. Et enfin, il doit y avoir suffisamment de puissance de calcul pour exécuter les algorithmes.

La première révolution moderne de l’IA s’est produite avec l’apprentissage en profondeur en 2012, lorsque la résolution des problèmes de vision par ordinateur avec les réseaux de neurones convolutifs (CNN) a commencé. Les CNN ont une structure similaire à celle du cortex visuel. Ils existent depuis les années 1990 mais n’ont pas encore été pratiques en raison des exigences élevées en matière de puissance de calcul.

Cependant, en 2006, Nvidia a lancé CUDA, un langage de programmation qui permettait aux GPU d’être utilisés comme supercalculateurs à usage général. En 2009, des chercheurs en intelligence artificielle de Stanford ont présenté Imagenet, une collection d’images étiquetées utilisées pour former des algorithmes de vision par ordinateur. En 2012, AlexNet a combiné des CNN formés par GPU avec des données Imagenet pour créer le meilleur classificateur visuel que le monde ait jamais vu. L’apprentissage en profondeur et l’intelligence artificielle ont émergé de là.

CNN, l’ensemble de données ImageNet et les GPU étaient la combinaison magique qui a ouvert d’énormes progrès dans la vision par ordinateur. 2012 a suscité un boom de l’intérêt pour l’apprentissage en profondeur et a engendré des industries entières, telles que celles liées à la conduite autonome. Mais on s’est vite rendu compte qu’il y avait des limites à cette génération de deep learning. Les CNN étaient bons pour la vision, mais d’autres domaines n’avaient pas leur percée dans la modélisation. Une énorme lacune concernait le traitement du langage naturel (TAL), c’est-à-dire faire en sorte que les ordinateurs comprennent et fonctionnent avec le langage humain normal plutôt qu’avec le code.

Le problème de la compréhension et du travail avec le langage est fondamentalement différent du problème du travail avec les images. Le langage de traitement nécessite de travailler avec des séquences de mots où l’ordre est important. Un chat reste un chat, peu importe où il se trouve dans l’image, mais il y a une grande différence entre « ce lecteur apprendra sur l’IA » et « IA apprendra sur ce lecteur ».

Jusqu’à récemment, les chercheurs s’appuyaient sur des modèles tels que les réseaux de neurones récurrents (RNN) et la mémoire à court terme à long terme (LSTM) pour traiter et analyser les données en temps opportun. Ces modèles étaient efficaces pour reconnaître de courtes séquences, telles que des mots prononcés à partir de phrases courtes, mais avaient du mal avec des phrases et des paragraphes plus longs. C’est juste que la mémoire de ces modèles n’a pas été suffisamment développée pour saisir la complexité et la richesse des idées et des concepts qui surgissent lors de la combinaison de phrases dans des paragraphes et des essais. Ils étaient parfaits pour de simples assistants vocaux dans le style de Siri et Alexa, mais rien de plus.

Obtenir les bonnes données pour la formation était un autre défi. ImageNet était un ensemble de 100 000 images étiquetées dont la création nécessitait un effort humain important, principalement des étudiants diplômés et des travailleurs d’Amazon Mechanical Turk. Et ImageNet a en fait été inspiré et modélisé sur un projet plus ancien appelé WordNet qui tentait de créer un ensemble de données étiquetées pour le vocabulaire anglais. Bien qu’il n’y ait pas de pénurie de texte sur Internet, la génération d’un ensemble de données significatif pour entraîner un ordinateur à traiter le langage humain au-delà des mots individuels prend énormément de temps. Et les raccourcis que vous créez pour une application sur les mêmes données peuvent ne pas s’appliquer à une autre tâche.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *