La nouvelle IA de DeepMind peut effectuer plus de 600 tâches, du jeu au contrôle de robots


La réalisation ultime pour certains dans l’industrie de l’IA est la création d’un système doté d’une intelligence générale artificielle (AGI), ou la capacité de comprendre et d’apprendre n’importe quelle tâche qu’un humain peut. Longtemps relégué au domaine de la science-fiction, il a été suggéré que l’IAG apporterait des systèmes capables de raisonner, de planifier, d’apprendre, de représenter les connaissances et de communiquer en langage naturel.

Tous les experts ne sont pas convaincus que l’AGI est un objectif réaliste – ou même possible. Mais on pourrait affirmer que DeepMind, le laboratoire de recherche soutenu par Alphabet, s’y est engagé cette semaine avec la sortie d’un système d’IA appelé Gato,

Gato est ce que DeepMind décrit comme un système « à usage général », un système qui peut être enseigné pour effectuer de nombreux types de tâches différents. Les chercheurs de DeepMind ont formé Gato pour compléter 604, pour être exact, y compris sous-titrer des images, engager un dialogue, empiler des blocs avec un vrai bras de robot et jouer à des jeux Atari.

Jack Hessel, chercheur à l’Allen Institute for AI, souligne qu’un seul système d’IA capable de résoudre de nombreuses tâches n’est pas nouveau. Par exemple, Google a récemment commencé à utiliser un système dans la recherche Google appelé modèle unifié multitâche, ou MUM, qui peut gérer du texte, des images et des vidéos pour effectuer des tâches allant de la recherche de variations interlinguistiques dans l’orthographe d’un mot à la mise en relation d’une requête de recherche avec une image. . Mais quoi est potentiellement plus nouveau, ici, dit Hessel, c’est la diversité des tâches qui sont abordées et la méthode de formation.

L’architecture Gato de DeepMind.

« Nous avons déjà vu des preuves que des modèles uniques peuvent gérer des ensembles d’entrées étonnamment divers », a déclaré Hessel à TechCrunch par e-mail. « À mon avis, la question centrale en matière d’apprentissage multitâche… est de savoir si les tâches se complètent ou non. Vous pourriez imaginer un cas plus ennuyeux si le modèle sépare implicitement les tâches avant de les résoudre, par exemple, « Si je détecte la tâche A comme entrée, j’utiliserai le sous-réseau A. Si je détecte à la place la tâche B, j’utiliserai un autre sous-réseau B ». ‘ Pour cette hypothèse nulle, des performances similaires pourraient être atteintes en entraînant A et B séparément, ce qui est décevant. En revanche, si la formation A et B conduit conjointement à des améliorations pour l’un (ou les deux !), alors les choses sont plus excitantes. »

Comme tous les systèmes d’IA, Gato a appris par l’exemple, en ingérant des milliards de mots, des images d’environnements réels et simulés, des pressions sur des boutons, des couples articulaires, etc. sous la forme de jetons. Ces jetons servaient à représenter les données d’une manière que Gato pouvait comprendre, permettant au système – par exemple – de démêler les mécanismes de Breakout, ou quelle combinaison de mots dans une phrase pourrait avoir un sens grammatical.

Gato ne fait pas nécessairement ces tâches Bien. Par exemple, lorsque vous discutez avec une personne, le système répond souvent par une réponse superficielle ou factuellement incorrecte (par exemple, « Marseille » en réponse à « Quelle est la capitale de la France ? »). En sous-titrant les images, Gato trompe les gens. Et le système empile correctement les blocs à l’aide d’un robot du monde réel seulement 60 % du temps.

Mais sur 450 des 604 tâches susmentionnées, DeepMind affirme que Gato est plus performant qu’un expert plus de la moitié du temps.

« Si vous êtes d’avis que nous avons besoin d’informations générales [systems]ce qui représente beaucoup de gens dans le domaine de l’IA et de l’apprentissage automatique, alors [Gato is] un gros problème », a déclaré Matthew Guzdial, professeur adjoint de science informatique à l’Université de l’Alberta, à TechCrunch par e-mail. « Je pense que les gens qui disent que c’est une étape majeure vers l’AGI le surestiment quelque peu, car nous ne sommes toujours pas à l’intelligence humaine et nous n’y arriverons probablement pas bientôt (à mon avis). perso je suis plus dans le camp des nombreux petits modèles [and systems] étant plus utiles, mais il y a certainement des avantages à ces modèles généraux en termes de performances sur des tâches en dehors de leurs données d’entraînement.

Curieusement, d’un point de vue architectural, Gato n’est pas radicalement différent de la plupart des systèmes d’IA en production aujourd’hui. Il partage des caractéristiques communes avec le GPT-3 d’OpenAI en ce sens qu’il s’agit d’un « transformateur ». Datant de 2017, le Transformer est devenu l’architecture de choix pour les tâches de raisonnement complexes, démontrant une aptitude à résumer des documents, à générer de la musique, à classer des objets dans des images et à analyser des séquences de protéines.

DeepMind Gato

Les différentes tâches que Gato a appris à accomplir.

Peut-être encore plus remarquable, Gato est plus petit que les systèmes à tâche unique, y compris GPT-3, en termes de nombre de paramètres. Les paramètres sont les parties du système apprises à partir des données de formation et définissent essentiellement la compétence du système sur un problème, tel que la génération de texte. Gato n’a que 1,2 milliard, tandis que GPT-3 en a plus de 170 milliards.

Les chercheurs de DeepMind ont gardé Gato délibérément petit afin que le système puisse contrôler un bras de robot en temps réel. Mais ils émettent l’hypothèse que – s’il est mis à l’échelle – Gato pourrait s’attaquer à n’importe quelle « tâche, comportement et incarnation d’intérêt ».

En supposant que cela s’avère être le cas, plusieurs autres obstacles devraient être surmontés pour rendre Gato supérieur dans des tâches spécifiques aux systèmes à tâche unique de pointe, comme l’incapacité de Gato à apprendre en continu. Comme la plupart des systèmes basés sur Transformer, la connaissance du monde de Gato est fondée sur les données de formation et reste statique. Si vous posez à Gato une question sensible à la date, comme l’actuel président des États-Unis, il y a de fortes chances qu’il réponde de manière incorrecte.

Le Transformer – et Gato, par extension – a une autre limitation dans sa fenêtre contextuelle, ou la quantité d’informations dont le système peut « se souvenir » dans le contexte d’une tâche donnée. Même les meilleurs modèles de langage basés sur Transformer ne peuvent pas écrire un long essai, et encore moins un livre, sans oublier les détails clés et perdre ainsi la trace de l’intrigue. L’oubli se produit dans n’importe quelle tâche, qu’il s’agisse d’écrire ou de contrôler un robot, c’est pourquoi certains experts l’ont appelé le « talon d’Achille » de l’apprentissage automatique.

« Ce n’est pas que Gato rende de nouvelles choses possibles », a ajouté Guzdial, soulignant les lacunes du système. « [B]Mais cela montre clairement que nous pouvons faire plus avec les modèles d’apprentissage automatique modernes que nous ne le pensions.



#nouvelle #DeepMind #peut #effectuer #tâches #jeu #contrôle #robots #TechCrunch

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.