Spanish - Measuring Intelligence — The Role of Benchmarks in Evaluating AGI

Emaden · June 7, 2024, 10:40am

Source article: Measuring Intelligence — The Role of Benchmarks in Evaluating AGI | by SingularityNet | SingularityNET
Translation by: inesgav
Dework task link: https://app.dework.xyz/singularitynet-ambas/test-38287?taskId=605e7100-2337-4abe-a156-5b06ef3c7c22
Community review: Please leave comments below about translation quality or like this post if it is well translated

Midiendo la Inteligencia: El Papel de los Puntos de Referencia en la Evaluación de la IAG

Queridos Singularitarianos:

El desarrollo de la Inteligencia Artificial General (IAG) representa una de las metas más importantes de la investigación en IA. Aunque no existe una definición o caracterización precisa y ampliamente aceptada de la IAG, el término “Inteligencia Artificial General” tiene varios significados estrechamente relacionados, refiriéndose a la capacidad de un sistema diseñado para:

mostrar un tipo de inteligencia general similar a la de los seres humanos;
mostrar una inteligencia que no esté vinculada a un conjunto de tareas altamente específicas;
generalizar lo que ha aprendido, incluyendo la generalización a contextos cualitativamente muy diferentes de los que ha visto antes;
tener una visión amplia e interpretar sus tareas de manera flexible en el contexto del mundo en general y su relación con él.

Alcanzar este hito requiere no solo métodos robustos para desarrollar la IAG, sino también medios para medir y evaluar su progreso. A medida que los investigadores de todo el mundo avanzan constantemente en este campo, el papel de los puntos de referencia se vuelve cada vez más importante cuanto más nos acercamos al advenimiento de la inteligencia general.

En este artículo, exploraremos la importancia de los puntos de referencia en la evaluación de la IAG, estudiando cómo algunas pruebas estandarizadas pueden proporcionarnos una medida clara y objetiva del camino de una máquina hacia una verdadera inteligencia similar a la humana.

Todo comenzó con la prueba de Turing

La prueba de Turing, propuesta por Alan Turing en 1950, es el punto de referencia más conocido para la IA. Involucra tres terminales: una controlada por la computadora y dos por humanos.

Un humano actúa como interrogador, y el otro humano y la computadora responden. El interrogador debe determinar cuál de los dos respondientes es la máquina.

La computadora pasa la prueba si el interrogador no puede distinguir de manera confiable entre el humano y la máquina. Inicialmente, esta prueba solo era superable para computadoras con preguntas simples de sí/no. Sin embargo, se vuelve significativamente más desafiante con preguntas conversacionales o explicativas.

La prueba del Estudiante Universitario Robot

En 2012, el Dr. Ben Goertzel propuso la prueba del “Estudiante Universitario Robot”. Tiene un razonamiento simple: si una IA es capaz de obtener un título universitario de la misma manera que lo haría un humano, entonces debería considerarse consciente. Esta prueba evalúa la capacidad de una IA para aprender, adaptarse y aplicar conocimientos en un entorno académico.

La idea del Dr. Ben Goertzel, que se erige como una alternativa razonable a la famosa “prueba de Turing”, podría haber permanecido como un experimento mental de no ser por los éxitos de varias IAs. Más notablemente, GPT-3, el modelo de lenguaje creado por el laboratorio de investigación OpenAI. Sin embargo, Bina48, una IA humanoide, fue la primera en completar una clase universitaria en la Universidad de Notre Dame de Namur en 2017. Otro ejemplo es la IA-MATHS, que completó dos versiones de un examen de matemáticas en China. Aunque estas IAs son capaces de completar clases y exámenes universitarios, aún les queda un largo camino por recorrer hasta alcanzar la consciencia y la verdadera inteligencia general.

La prueba del Café

La prueba del Café, también propuesta por el Dr. Ben Goertzel y respaldada por Steve Wozniak, cofundador de Apple, involucra a una aplicación de IA haciendo café en un entorno doméstico. La IA debe encontrar los ingredientes y el equipo en cualquier cocina y realizar la simple tarea de hacer un café. Esta prueba evalúa la capacidad de la IA para entender y navegar en un nuevo entorno, reconocer objetos y ejecutar una secuencia compleja de acciones, reflejando su inteligencia práctica.

Otros tests estandarizados que se utilizan para evaluar diferentes puntos de referencia de IA

Evaluar si una IA está en el camino de convertirse en IAG implica analizar sus capacidades en la gama más amplia posible de tareas cognitivas, ya que debe demostrar versatilidad, generalización y adaptabilidad similar a la inteligencia humana.

Aquí hay algunos puntos de referencia y criterios clave que a menudo se consideran:

Aprendizaje y Adaptación
Razonamiento de Sentido Común
Creatividad e Innovación
Versatilidad en la Resolución de Problemas
Comprensión (y Generación) del Lenguaje Natural
Percepción e Interacción
Generalización
Razonamiento Ético y Moral

Para evaluar estos puntos de referencia, es esencial una combinación de pruebas estandarizadas, desafíos del mundo real y una evaluación continua en múltiples dominios.

Aquí están algunos de los marcos de evaluación propuestos actualmente:

El Desafío de Razonamiento de AI2 (ARC) es un conjunto de datos de referencia creado por el Instituto Allen para la IA (AI2) diseñado para evaluar las habilidades de razonamiento de sentido común de una IA. Hay dos conjuntos de preguntas que una IA debe pasar: uno con preguntas fáciles y superficiales y otro con un conjunto de preguntas que requieren razonamiento complejo e integración de múltiples fuentes de conocimiento para encontrar la respuesta correcta. Su objetivo principal es empujar los límites de lo que una máquina puede comprender y razonar.
El marco de Evaluación de Comprensión General del Lenguaje (GLUE) es una colección de diversas tareas de comprensión del lenguaje natural (NLU). Es interesante porque comprende diferentes conjuntos de tareas, como análisis de sentimientos (por ejemplo, ¿se expresa un cierto sentimiento en un texto?), inferencia textual (determinar si una oración se sigue lógicamente de otra) e incluso similitud semántica (como en, ¿qué tan similares son dos oraciones diferentes en significado?). GLUE fue diseñado para evaluar y fomentar el progreso en el desarrollo de sistemas de IA que pueden entender y generar lenguaje humano.
El Desafío del Esquema de Winograd es una prueba diseñada para evaluar la capacidad de una IA para entender el contexto y resolver ambigüedades en el lenguaje natural, centrándose específicamente en la desambiguación de pronombres. Su objetivo es probar la comprensión más profunda del lenguaje y el contexto por parte de los sistemas de IA, algo que va más allá del mero reconocimiento estadístico de patrones para incluir conocimiento y razonamiento del mundo real. Si una IA tiene éxito en el Desafío del Esquema de Winograd, esto significa que puede hacer juicios contextualmente apropiados y, por lo tanto, demuestra una comprensión más humana del lenguaje.

¿Cómo creamos un punto de referencia efectivo para la IAG?

Crear puntos de referencia efectivos para la IAG es un problema complejo, desafiante y multifacético.

Y comienza con definir primero qué es la inteligencia: implica tener en cuenta una amplia gama de habilidades cognitivas como el razonamiento, la resolución de problemas, el aprendizaje, la percepción y la comprensión emocional, lo que hace que la creación de puntos de referencia completos sea muy difícil.

Se espera que la IAG sobresalga en tareas diversas, desde aritmética simple hasta toma de decisiones complejas y pensamiento creativo, y naturalmente, esto complica aún más el diseño de puntos de referencia para evaluar un espectro tan amplio de capacidades.

Dado que la inteligencia humana evoluciona con la experiencia y el aprendizaje, los puntos de referencia de la IAG deben tener en cuenta esta naturaleza dinámica, evaluando tanto el rendimiento estático como la capacidad de adaptación a lo largo del tiempo.

Con todo esto dicho, es seguro decir que los puntos de referencia juegan un papel crucial en la evaluación del desarrollo y progreso hacia la IAG, ya que nos proporcionarán un medio estandarizado y objetivo para medir ese progreso.

Sin embargo, aún nos queda un largo camino por recorrer hasta que se cree un punto de referencia efectivo debido a la magnitud y complejidad involucradas. A medida que la investigación en IAG avance, también lo hará la sofisticación y exhaustividad de nuestros puntos de referencia, acercándonos al objetivo de lograr una verdadera inteligencia artificial general.

Acerca de SingularityNET

SingularityNET es una plataforma y mercado descentralizado para servicios de Inteligencia Artificial (IA) fundada por el Dr. Ben Goertzel con la misión de crear una Inteligencia Artificial General (IAG) descentralizada, democrática, inclusiva y beneficiosa.

Nuestra plataforma permite a cualquier persona desarrollar, compartir y monetizar algoritmos, modelos y datos de IA.
OpenCog Hyperon, nuestro marco de trabajo AGI neuronal-simbólico de primera categoría, será un servicio central para la próxima ola de innovación en IA.
Nuestro ecosistema, desarrollando soluciones avanzadas de IA en diversos sectores del mercado para revolucionar industrias.

Mantente al día con las últimas noticias, síguenos en:

SingularityNET Discord
SingularityNET Main Telegram Channel
SingularityNET Announcement Channel
Sitio web de SingularityNET
SingularityNET X
Página de empleos de SingularityNET
Calendario de eventos de la comunidad de SingularityNET — ¡Mantente al tanto de los eventos de la Comunidad, Embajadores y Deep Funding!