Portuguese - Measuring Intelligence — The Role of Benchmarks in Evaluating AGI

Emaden · June 7, 2024, 11:25am

Source article: Measuring Intelligence — The Role of Benchmarks in Evaluating AGI | by SingularityNet | SingularityNET
Translation by: Han TutuH
Dework task link: https://app.dework.xyz/singularitynet-ambas/test-38287?taskId=c02bdcc1-471f-4a2e-94c1-ad136b34e698
Community review: Please leave comments below about translation quality or like this post if it is well translated

Medindo a inteligência: o papel dos benchmarks na avaliação do IAG

Caros singularistas:

O desenvolvimento da Inteligência Artificial Geral (AGI) representa um dos objetivos mais importantes da pesquisa em IA. Embora não exista uma definição ou caracterização precisa e amplamente aceita de AGI, o termo “Inteligência Artificial Geral” tem vários significados intimamente relacionados, referindo-se à capacidade de um sistema projetado para:

apresentar um tipo de inteligência geral semelhante à do ser humano;
demonstrar inteligência não vinculada a um conjunto de tarefas altamente específicas;
generalizar o que foi aprendido, generalizando mesmo para contextos qualitativamente muito diferentes dos vistos anteriormente;
ter uma visão ampla e interpretar com flexibilidade as suas tarefas no contexto do mundo em geral e da sua relação com ele.

Alcançar este objetivo requer não apenas métodos robustos para desenvolver o IAG, mas também meios para medir e avaliar o seu progresso. À medida que os investigadores de todo o mundo avançam constantemente neste campo, o papel dos benchmarks torna-se cada vez mais importante à medida que nos aproximamos do advento da inteligência geral.

Neste artigo exploraremos a importância dos benchmarks na avaliação do IAG, estudando como alguns testes padronizados podem nos fornecer uma medida clara e objetiva do caminho de uma máquina em direção à verdadeira inteligência semelhante à humana.

Tudo começou com o teste de Turing

O Teste de Turing, proposto por Alan Turing em 1950, é o benchmark mais conhecido para inteligência artificial. Envolve três terminais: um controlado pelo computador e dois por humanos.

Um humano atua como interrogador e o outro humano e o computador respondem. O questionador deve determinar qual dos dois entrevistados é a máquina.

O computador passa no teste se o interrogador não conseguir distinguir com segurança entre homem e máquina. Inicialmente, este teste só era aceitável para computadores com perguntas simples de sim/não. No entanto, torna-se significativamente mais desafiador com perguntas conversacionais ou explicativas.

O teste de estudante da Robot University

Em 2012, o Dr. Ben Goertzel propôs o teste “Robot College Student”. O raciocínio é simples: se uma IA é capaz de obter um diploma da mesma forma que um ser humano faria, então deveria ser considerada consciente. Este teste avalia a capacidade de uma IA aprender, adaptar e aplicar conhecimento em um ambiente acadêmico.

A ideia do Dr. Ben Goertzel, que representa uma alternativa razoável ao famoso “teste de Turing”, poderia ter permanecido um experimento mental se não fosse pelo sucesso de várias IAs. Em particular, GPT-3, o modelo de linguagem criado pelo laboratório de investigação OpenAI. No entanto, Bina48, uma inteligência artificial humanóide, foi a primeira a concluir um curso universitário na Universidade de Notre Dame de Namur, em 2017. Outro exemplo é o AI-MATHS, que completou duas versões de um exame de matemática na China. Embora essas IAs sejam capazes de concluir aulas e exames universitários, elas ainda têm um longo caminho a percorrer para alcançar a consciência e a verdadeira inteligência geral.

O teste do café

O Teste do Café, também proposto pelo Dr. Ben Goertzel e apoiado pelo cofundador da Apple, Steve Wozniak, envolve um aplicativo de IA que prepara café em um ambiente doméstico. A IA deve encontrar os ingredientes e equipamentos em qualquer cozinha e realizar a simples tarefa de fazer café. Este teste avalia a capacidade da IA de compreender e navegar em um novo ambiente, reconhecer objetos e realizar uma sequência complexa de ações, refletindo sua inteligência prática.

Outros testes padronizados usados para avaliar diferentes benchmarks de IA

Avaliar se uma IA está a caminho de se tornar uma AGI envolve a análise das suas capacidades ao longo da mais ampla gama possível de tarefas cognitivas, uma vez que deve demonstrar versatilidade, generalização e adaptabilidade semelhantes à inteligência humana.

Aqui estão alguns parâmetros e critérios principais que são frequentemente levados em consideração:

Aprendizagem e adaptação
Raciocínio baseado no bom senso
Criatividade e inovação
Versatilidade na resolução de problemas
Compreensão (e geração) da linguagem natural
Percepção e interação
Generalização
Raciocínio ético e moral

Para avaliar esses benchmarks, é essencial uma combinação de testes padronizados, desafios do mundo real e avaliação contínua em vários domínios.

Aqui estão alguns dos quadros de avaliação atualmente propostos:

O Desafio de Raciocínio AI2 (ARC) é um conjunto de dados de referência criado pelo Allen Institute for AI (AI2) projetado para avaliar as capacidades de raciocínio de bom senso de uma inteligência artificial. Existem dois conjuntos de questões que uma IA deve superar: um com questões fáceis e superficiais e outro com um conjunto de questões que requerem um raciocínio complexo e a integração de múltiplas fontes de conhecimento para encontrar a resposta correta. Seu principal objetivo é ultrapassar os limites do que uma máquina pode compreender e raciocinar.
O Painel Geral de Compreensão Linguística (GLUE). é uma coleção de várias tarefas de compreensão de linguagem natural (NLU). É interessante porque inclui diferentes conjuntos de tarefas, como análise de sentimento (por exemplo, um certo sentimento é expresso em um texto?), inferência textual (determinar se uma frase segue logicamente de outra) e até mesmo semântica de similaridade (como em, Quão semelhantes são duas sentenças diferentes em significado?). O GLUE foi projetado para avaliar e promover o progresso no desenvolvimento de sistemas de inteligência artificial capazes de compreender e gerar a linguagem humana.
O desafio do projeto Winograd é um teste desenvolvido para avaliar a capacidade de uma inteligência artificial de compreender o contexto e resolver ambigüidades em linguagem natural, com foco específico na desambiguação de pronomes. Seu objetivo é testar a compreensão mais profunda da linguagem e do contexto dos sistemas de IA, algo que vai além do simples reconhecimento de padrões estatísticos para incluir conhecimento e raciocínio do mundo real. Se uma IA for bem-sucedida no Desafio do Esquema Winograd, isso significa que ela pode fazer julgamentos contextualmente apropriados e, portanto, demonstrar uma compreensão da linguagem mais humana.

Como podemos criar um ponto de referência eficaz para o IAG?

A criação de benchmarks eficazes para o IAG é um problema complexo, desafiador e multifacetado.

E começa com a definição do que é inteligência: envolve levar em conta uma ampla gama de habilidades cognitivas como raciocínio, resolução de problemas, aprendizagem, percepção e compreensão emocional, o que torna muito difícil criar benchmarks abrangentes.

Espera-se que o IAG se destaque em tarefas tão diversas, desde a simples aritmética até à complexa tomada de decisões e ao pensamento criativo, e é claro que isto complica ainda mais a concepção de parâmetros de referência para avaliar um espectro tão amplo de capacidades.

Como a inteligência humana evolui com a experiência e a aprendizagem, os benchmarks do IAG devem levar em conta esta natureza dinâmica, avaliando tanto o desempenho estático como a capacidade adaptativa ao longo do tempo.

Dito isto, é seguro dizer que os benchmarks desempenham um papel crucial na avaliação do desenvolvimento e do progresso rumo ao IAG, uma vez que nos fornecerão uma ferramenta padronizada e objectiva para medir esse progresso.

No entanto, dada a escala e a complexidade do processo, ainda temos um longo caminho a percorrer antes de ser criado um índice de referência eficaz. À medida que a pesquisa no IAG avança, a sofisticação e a abrangência dos nossos benchmarks também aumentarão, aproximando-nos do objetivo de alcançar a verdadeira inteligência artificial geral.

Sobre SingularityNET

SingularityNET é uma plataforma descentralizada e mercado para serviços de inteligência artificial (IA) fundada pelo Dr. Ben Goertzel com a missão de criar inteligência artificial geral (AGI) descentralizada, democrática, inclusiva e benéfica.

Nosso plataforma permite que qualquer pessoa desenvolva, compartilhe e monetize algoritmos, modelos e dados de inteligência artificial.
Hiperon OpenCog, nossa estrutura AGI neural-simbólica de classe mundial, será um serviço fundamental para a próxima onda de inovação em IA.
Nosso ecossistema, desenvolvendo soluções avançadas de inteligência artificial em diversos setores do mercado para revolucionar as indústrias.

Fique atualizado sobre as últimas notícias, siga-nos em:

Discord do SingularityNET
Principal canal Telegram da SingularityNET
Canal de anúncios SingularityNET
Site SingularityNET
SingularidadeNET X
Página de carreiras do SingularityNET
Calendário de eventos da comunidade SingularityNET — Fique atualizado sobre os eventos da Comunidade, Embaixadores e Deep Funding!