French - Measuring Intelligence — The Role of Benchmarks in Evaluating AGI

Source article: Measuring Intelligence — The Role of Benchmarks in Evaluating AGI | by SingularityNet | SingularityNET
Translation by: FranklynStein
Dework task link: https://app.dework.xyz/singularitynet-ambas/test-38287?taskId=6228b5b9-799d-45cd-acfa-97b6145a0413
Community review: Please leave comments below about translation quality or like this post if it is well translated

Mesurer l’Intelligence — Le Rôle des Référentiels dans l’Évaluation de l’AGI

Chers Singularitariens,

Le développement de l’intelligence générale artificielle (AGI) représente l’un des objectifs ultimes de la recherche en intelligence artificielle. Bien que la définition ou la caractérisation précise de l’AGI ne fasse pas l’unanimité, le terme « intelligence générale artificielle » a plusieurs significations étroitement liées, faisant référence à la capacité d’un système conçu pour :

  • afficher le même type d’intelligence générale que les êtres humains;
  • faire preuve d’une intelligence qui n’est pas liée à un ensemble de tâches très spécifique ;
  • généraliser ce qu’il a appris, y compris une généralisation à des contextes qualitativement
  • très différents de ceux qu’il a vus auparavant ;
  • adopter une vue d’ensemble et interpréter ses tâches de manière flexible dans le contexte
  • du monde en général et de sa relation avec celui-ci.

Atteindre ce jalon nécessite non seulement des méthodes robustes pour développer l’AGI, mais aussi des moyens pour mesurer et évaluer les progrès de l’AGI. Alors que les chercheurs du monde entier font constamment des avancées dans ce domaine, le rôle des référentiels devient de plus en plus important à mesure que nous nous rapprochons de l’avènement de l’intelligence générale.

Dans cet article, nous explorerons l’importance des référentiels dans l’évaluation de l’AGI, en étudiant comment certains tests standardisés peuvent nous fournir une mesure claire et objective du parcours d’une machine vers une véritable intelligence semblable à celle des humains.

Tout a commencé avec le test de Turing.

Le test de Turing, proposé par Alan Turing en 1950, est le benchmark le plus connu pour l’IA. Il implique trois terminaux : un contrôlé par l’ordinateur et deux par des humains.

Un humain agit en tant que questionneur, et l’autre humain ainsi que l’ordinateur répondent. Le questionneur doit déterminer lequel des répondants est la machine.

L’ordinateur réussit le test si le questionneur ne peut pas le distinguer de manière fiable de l’humain. Initialement, ce test n’était réalisable que pour les ordinateurs avec des questions simples de oui ou non. Cependant, il devient nettement plus difficile avec des questions conversationnelles ou explicatives.

Le Test de l’Étudiant Collège Robot

En 2012, le Test “de l’Étudiant Collège Robot” a été proposé par le Dr Ben Goertzel. Il repose sur un raisonnement simple : si une IA est capable d’obtenir un diplôme de la même manière qu’un être humain, alors elle devrait être considérée comme consciente. Ce test évalue la capacité d’une IA à apprendre, à s’adapter et à appliquer ses connaissances dans un environnement académique.

L’idée du Dr Ben Goertzel, présentée comme une alternative raisonnable au célèbre “test de Turing”, aurait pu rester un simple exercice de réflexion sans les succès de plusieurs IAs. Notamment, GPT-3, le modèle de langage créé par le laboratoire de recherche OpenAI. Cependant, Bina48, une IA robot humanoïde, a été la première à terminer un cours universitaire à l’Université de Notre Dame de Namur en 2017. Un autre exemple est ROBOT AI-MATHS, qui a réussi deux versions d’un examen de mathématiques en Chine. Bien qu’elles soient capables de suivre des cours et de passer des examens universitaires, ces IAs ont encore un long chemin à parcourir avant d’atteindre la conscience et une véritable intelligence générale.

Autres tests standardisés utilisés pour évaluer différents référentiels d’IA

Évaluer si une IA est sur la voie de devenir une IA Générale Artificielle (AGI) implique d’évaluer ses capacités à travers la plus large gamme possible de tâches cognitives, car elle doit démontrer une polyvalence, une généralisation et une adaptabilité semblables à l’intelligence humaine.

Voici quelques benchmarks clés et critères qui sont souvent pris en compte :

· Apprentissage et Adaptation

· Raisonnement du Sens Commun

· Créativité et Innovation

· Polyvalence dans la Résolution de Problèmes

· Compréhension (et Génération) du Langage Naturel

· Perception et Interaction

· Généralisation

· Raisonnement Éthique et Moral

Pour évaluer ces benchmarks, une combinaison de tests standardisés, de défis du monde réel et d’évaluation continue à travers plusieurs domaines est essentielle.

Voici quelques-uns des cadres d’évaluation proposés actuellement :

· Le Défi de Raisonnement AI2 (ARC) est un ensemble de données de référence créé par l’Institut Allen pour l’IA (AI2) et conçu pour évaluer les capacités de raisonnement du sens commun d’une IA. Il comporte deux ensembles de questions qu’une IA doit traverser : l’un avec des questions simples de surface et l’autre avec un ensemble de questions nécessitant un raisonnement complexe et l’intégration de plusieurs sources de connaissances pour trouver la bonne réponse. Son objectif principal est de repousser les limites de ce qu’une machine peut comprendre et raisonner.

· Le benchmark d’Évaluation de la Compréhension du Langage Général (GLUE) est une collection de diverses tâches de compréhension du langage naturel (NLU). Il est intéressant car il comprend différents ensembles de tâches, telles que l’analyse de sentiment (par exemple, un certain sentiment est-il exprimé dans un texte ?), l’implication textuelle (déterminer si une phrase découle logiquement d’une autre), et même la similarité sémantique (comme dans, à quel point deux phrases différentes sont-elles similaires en sens ?) GLUE a été conçu pour évaluer et favoriser les progrès dans le développement de systèmes d’IA capables de comprendre et de générer le langage humain.

· Le Défi de la Winograd Schema est un test conçu pour évaluer la capacité d’une IA à comprendre le contexte et à résoudre les ambiguïtés dans le langage naturel, en se concentrant spécifiquement sur la désambiguïsation des pronoms. Son objectif est de tester la compréhension plus profonde du langage et du contexte par les systèmes d’IA, quelque chose qui va au-delà de la simple reconnaissance de modèles statistiques pour inclure des connaissances et un raisonnement du monde réel. Si une IA est “réussie” dans le Défi de la Winograd Schema, cela signifie qu’elle est capable de faire des jugements contextuellement appropriés et démontre donc une compréhension plus humaine du langage.

Comment créons-nous un benchmark efficace pour l’IA générale artificielle (AGI) ?

La création de benchmarks efficaces pour l’AGI est un problème complexe, difficile et multifacette.

Et cela commence par définir d’abord ce qu’est l’intelligence - cela implique de prendre en compte un large éventail de capacités cognitives telles que le raisonnement, la résolution de problèmes, l’apprentissage, la perception et la compréhension émotionnelle, ce qui rend la création de benchmarks complets très difficile.

On s’attend à ce que AGI excelle dans diverses tâches, de l’arithmétique simple à la prise de décision complexe et à la pensée créative, et naturellement, cela complique encore plus la conception de benchmarks pour évaluer un spectre aussi large de capacités.

Étant donné que l’intelligence humaine évolue avec l’expérience et l’apprentissage, les benchmarks de l’IA générale artificielle (AGI) doivent tenir compte de cette nature dynamique, évaluant à la fois les performances statiques et la capacité à s’adapter au fil du temps.

Cela étant dit, il est juste de dire que les benchmarks jouent un rôle crucial dans l’évaluation du développement et des progrès vers l’AGI, car ils nous fourniront un moyen normalisé et objectif de mesurer ces progrès.

Cependant, nous avons encore un long chemin à parcourir avant de créer un benchmark efficace en raison de la magnitude et de la complexité impliquées. À mesure que la recherche en AGI avance, la sophistication et l’exhaustivité de nos benchmarks progresseront également, nous rapprochant ainsi de l’objectif d’atteindre une véritable intelligence générale artificielle.

À propos de SingularityNET

SingularityNET est une plateforme et un marché décentralisés d’IA (Intelligence Artificielle) proposant des services d’intelligence artificielle. Notre mission est la création d’une intelligence artificielle générale (AGI) décentralisée, démocratique, inclusive et bénéfique, en démocratisant l’accès aux technologies de l’IA et de l’AGI par le biais de :

  • Notre plateforme permet à quiconque de développer, de partager et de monétiser des algorithmes, des modèles et des données d’IA.
  • OpenCog Hyperon, notre framework AGI symbolique-neuronal de premier plan, sera un service central pour la prochaine vague d’innovation en matière d’IA.
  • Notre écosystème développe des solutions avancées en IA dans différents secteurs de marché afin de révolutionner les industries.

Restez à jour avec les dernières nouvelles, suivez-nous sur :