Italian - Measuring Intelligence — The Role of Benchmarks in Evaluating AGI

Mayordefi · June 10, 2024, 9:43am

Source article: Measuring Intelligence — The Role of Benchmarks in Evaluating AGI | by SingularityNet | SingularityNET
Translation by: Hugodove
Dework task link: https://app.dework.xyz/singularitynet-ambas/test-38287?taskId=c3a0c9b3-0485-4e68-bd2e-9026e7a93554
Community review: Please leave comments below about translation quality or like this post if it is well translated

Misurare l’intelligenza: il ruolo dei benchmark nella valutazione IAG

Cari singolaritari:

Lo sviluppo dell’Intelligenza Artificiale Generale (AGI) rappresenta uno degli obiettivi più importanti della ricerca sull’IA. Sebbene non esista una definizione o una caratterizzazione precisa e ampiamente accettata di AGI, il termine “Intelligenza Artificiale Generale” ha diversi significati strettamente correlati, riferendosi alla capacità di un sistema progettato per:

mostrare un tipo di intelligenza generale simile a quella umana;
mostrare un’intelligenza non legata a un insieme di compiti altamente specifici;
generalizzare ciò che ha imparato, compresa la generalizzazione a contesti qualitativamente molto diversi da quelli che ha visto in precedenza;
avere una visione ampia e interpretare in modo flessibile i propri compiti nel contesto del mondo più ampio e del proprio rapporto con esso.

Il raggiungimento di questo traguardo richiede non solo metodi solidi per lo sviluppo di GPI, ma anche mezzi per misurare e valutare i suoi progressi. I ricercatoride todo

Il ruolo dei benchmark diventa sempre più importante quanto più ci avviciniamo all’avvento dell’intelligenza generale.

In questo articolo esploreremo l’importanza dei benchmark nella valutazione dell’intelligenza generale, esaminando come alcuni test standardizzati possano fornirci una misura chiara e oggettiva del percorso di una macchina verso una vera intelligenza simile a quella umana.

Tutto è iniziato con il test di Turing

Il test di Turing, proposto da Alan Turing nel 1950, è il più noto parametro di riferimento per l’IA. Si tratta di tre terminali: uno controllato dal computer e due da esseri umani.

Un umano agisce come interrogatore, mentre l’altro umano e il computer rispondono. L’interrogatore deve determinare quale dei due rispondenti è la macchina.

Il computer supera il test se l’interrogatore non è in grado di distinguere in modo affidabile l’uomo dalla macchina. Inizialmente, questo test era superabile solo per i computer con domande semplici del tipo sì/no. Tuttavia, diventa significativamente più impegnativo con domande di tipo conversazionale o esplicativo.

Il test del robot studente universitario

Nel 2012, il dottor Ben Goertzel ha proposto il test “Robot College Student”. Il suo ragionamento è semplice: se un’intelligenza artificiale è in grado di conseguire una laurea allo stesso modo di un essere umano, allora dovrebbe essere considerata senziente. Questo test valuta la capacità di un’IA di apprendere, adattarsi e applicare le conoscenze in un ambiente accademico.

L’idea del dottor Ben Goertzel, che si pone come ragionevole alternativa al famoso “test di Turing”, sarebbe potuta rimanere un esperimento di pensiero se non fosse stato per i successi di diverse IA. In particolare, GPT-3, il modello di linguaggio creato dal laboratorio di ricerca OpenAI. Tuttavia, Bina48,una IA humanoide, fue la primera en completar una clase universitaria en la Universidad de Notre Dame de Namur en 2017. Otro ejemplo es la IA-MATHS, que completó dos versiones de un di matematica in Cina. Sebbene queste IA siano in grado di completare corsi ed esami universitari, hanno ancora molta strada da fare prima di raggiungere la coscienza e una vera intelligenza generale.

Il test del caffè

Il test del caffè, anch’esso proposto dal dottor Ben Goertzel e appoggiato dal cofondatore di Apple Steve Wozniak, prevede che un’applicazione AI prepari il caffè in un ambiente domestico. L’intelligenza artificiale deve trovare gli ingredienti e le attrezzature in una cucina qualsiasi ed eseguire il semplice compito di fare il caffè. Questo test valuta la capacità dell’IA di comprendere e navigare in un nuovo ambiente, riconoscere gli oggetti ed eseguire una sequenza complessa di azioni, riflettendo la sua intelligenza pratica.

Altri test standardizzati utilizzati per valutare diversi benchmark di IA

Valutare se un’IA è sulla strada per diventare un’IA implica l’analisi delle sue capacità attraverso la più ampia gamma possibile di compiti cognitivi, poiché deve dimostrare versatilità, generalizzabilità e adattabilità simili all’intelligenza umana.

Ecco alcuni parametri e criteri chiave che vengono spesso presi in considerazione:

Apprendimento e adattamento
Ragionamento di buon senso
Creatività e innovazione
Versatilità nella risoluzione dei problemi
Comprensione (e generazione) del linguaggio naturale
Percezione e interazione
Generalizzazione
Ragionamento etico e morale

Per valutare questi parametri di riferimento, è essenziale una combinazione di test standardizzati, sfide reali e valutazione continua in più ambiti.

Ecco alcuni dei quadri di valutazione attualmente proposti:

L’AI2 Reasoning Challenge (ARC) è un set di dati di riferimento creato dall’Allen Institute for AI (AI2) per valutare le capacità di ragionamento di senso comune di un’IA. Ci sono due serie di domande che un’IA deve superare: una con domande facili e superficiali e un’altra con una serie di domande che richiedono un ragionamento complesso e l’integrazione di più fonti di conoscenza per trovare la risposta corretta. L’obiettivo principale è spingere i confini di ciò che una macchina può capire e ragionare.
Il framework General Language Understanding Evaluation (GLUE) è una raccolta di vari compiti di comprensione del linguaggio naturale (NLU). È interessante perché comprende diverse serie di compiti, come l’analisi del sentimento (ad esempio, un certo sentimento è espresso in un testo?), l’inferenza testuale (determinare se una frase segue logicamente da un’altra) e persino la somiglianza semantica (ad esempio, quanto sono simili due frasi diverse nel significato?). GLUE è stato progettato per valutare e incoraggiare i progressi nello sviluppo di sistemi di intelligenza artificiale in grado di comprendere e generare il linguaggio umano.
La Winograd Scheme Challenge è un test progettato per valutare la capacità di un’IA di comprendere il contesto e risolvere le ambiguità nel linguaggio naturale, concentrandosi in particolare sulla disambiguazione dei pronomi. L’obiettivo è quello di testare una comprensione più profonda del linguaggio e del contesto da parte dei sistemi di intelligenza artificiale, qualcosa che vada oltre il semplice riconoscimento statistico dei modelli per includere la conoscenza e il ragionamento del mondo reale. Se un’IA riesce a vincere la Winograd Scheme Challenge, significa che è in grado di formulare giudizi appropriati al contesto e quindi dimostra una comprensione più umana del linguaggio.

Come creare un benchmark efficace per la IAG?

La creazione di benchmark efficaci per la IAG è un problema complesso, impegnativo e sfaccettato.

Per farlo, occorre innanzitutto definire che cos’è l’intelligenza: essa implica la considerazione di un’ampia gamma di abilità cognitive come il ragionamento, la risoluzione di problemi, l’apprendimento, la percezione e la comprensione emotiva, il che rende molto difficile la creazione di benchmark completi.

Il GSI dovrebbe eccellere in compiti che vanno dalla semplice aritmetica al complesso processo decisionale e al pensiero creativo, e naturalmente questo complica ulteriormente la progettazione di benchmark per valutare un così ampio spettro di abilità.

Dato che l’intelligenza umana si evolve con l’esperienza e l’apprendimento, i benchmark IAG devono tenere conto di questa natura dinamica, valutando sia le prestazioni statiche sia la capacità di adattarsi nel tempo.

Detto questo, si può affermare che i benchmark svolgono un ruolo cruciale nella valutazione dello sviluppo e dei progressi verso l’IAG, poiché ci forniranno uno strumento standardizzato e oggettivo per misurare tali progressi.

Tuttavia, la strada da percorrere per la creazione di un benchmark efficace è ancora lunga, a causa dell’ampiezza e della complessità del problema. Con il progredire della ricerca sulla IAG, aumenteranno anche la sofisticazione e la completezza dei nostri benchmark, avvicinandoci all’obiettivo di raggiungere una vera intelligenza artificiale generale.

Informazioni su SingularityNET

SingularityNET è una piattaforma decentralizzata e un mercato per i servizi di Intelligenza Artificiale (AI) fondata dal Dr. Ben Goertzel con la missione di creare un’Intelligenza Artificiale Generale (GIA) decentralizzata, democratica, inclusiva e redditizia.

La nostra piattaforma consente a chiunque di sviluppare, condividere e monetizzare algoritmi, modelli e dati di IA.
OpenCog Hyperon, il nostro framework AGI neurale-simbolico di livello mondiale, sarà un servizio centrale per la prossima ondata di innovazione dell’IA.
Il nostro ecosistema, che sviluppa soluzioni AI avanzate in diversi settori di mercato per rivoluzionare le industrie.

Per rimanere aggiornati sulle ultime novità, seguiteci su:

SingularityNET Discord
Canale Telegram principale di SingularityNET
Canale di annuncio di SingularityNET
Sito web di SingularityNET
SingularityNET X
Pagina delle carriere di SingularityNET
Calendario degli eventi della comunità SingularityNET - Tieniti aggiornato sugli eventi della comunità, degli ambasciatori e del Deep Funding!