Indonesian - Measuring Intelligence — The Role of Benchmarks in Evaluating AGI

Source article: Measuring Intelligence — The Role of Benchmarks in Evaluating AGI | by SingularityNet | SingularityNET
Translation by: gorga1103
Dework task link: https://app.dework.xyz/singularitynet-ambas/test-38287?taskId=a9a0d576-4cb6-4910-bce3-0bb110a60047
Community review: Please leave comments below about translation quality or like this post if it is well translated

Mengukur Kecerdasan - Peran Tolok Ukur dalam Mengevaluasi AGI

Para Singularitarian yang terhormat,

Pengembangan Artificial General Intelligence (AGI) mewakili salah satu tujuan akhir penelitian AI. Meskipun definisi atau karakterisasi AGI yang tepat belum disepakati secara luas, istilah “Kecerdasan Umum Buatan” memiliki banyak arti yang terkait erat, mengacu pada kapasitas sistem yang direkayasa untuk:

  • menunjukkan kecerdasan umum yang sama kasarnya dengan manusia;
  • menampilkan kecerdasan yang tidak terikat pada serangkaian tugas yang sangat spesifik;
  • menggeneralisasi apa yang telah dipelajari, termasuk generalisasi ke konteks secara kualitatif
  • sangat berbeda dari yang pernah dilihat sebelumnya;
  • mengambil pandangan yang luas, dan secara fleksibel menafsirkan tugas-tugasnya dalam konteks
  • dunia pada umumnya dan kaitannya dengan hal tersebut.

Pencapaian pencapaian ini tidak hanya membutuhkan metode yang kuat untuk mengembangkan AGI namun juga sarana yang dapat digunakan untuk mengukur dan mengevaluasi kemajuan AGI. Ketika para peneliti di seluruh dunia terus membuat kemajuan dalam bidang ini, peran tolok ukur menjadi semakin penting ketika kita semakin dekat dengan munculnya kecerdasan umum.

Dalam artikel ini, kita akan mengeksplorasi pentingnya tolok ukur dalam evaluasi AGI, mempelajari bagaimana beberapa pengujian standar dapat memberi kita ukuran yang jelas dan obyektif tentang perjalanan mesin menuju kecerdasan sejati yang mirip manusia.

Semuanya dimulai dengan tes Turing

Tes Turing, yang diusulkan oleh Alan Turing pada tahun 1950, adalah tolok ukur AI yang paling terkenal. Ini melibatkan tiga terminal: satu dikendalikan oleh komputer dan dua oleh manusia.

Satu manusia bertindak sebagai penanya, dan manusia lainnya serta komputer merespons. Penanya harus menentukan responden mana yang merupakan mesin.

Komputer lulus ujian jika penanya tidak dapat membedakannya dengan manusia. Awalnya, tes ini hanya dapat dilakukan pada komputer dengan pertanyaan sederhana ya/tidak. Namun, hal ini menjadi jauh lebih menantang dengan pertanyaan percakapan atau penjelasan.

Tes Mahasiswa Robot College

Pada tahun 2012, tes “Robot College Student” diusulkan oleh Dr. Ben Goertzel. Alasannya sederhana: jika AI mampu memperoleh gelar seperti manusia, maka AI harus dianggap sadar. Tes ini mengevaluasi kemampuan AI untuk belajar, beradaptasi, dan menerapkan pengetahuan dalam lingkungan akademis.

Gagasan Dr. Ben Goertzel, yang berdiri sebagai alternatif yang masuk akal terhadap “uji Turing” yang terkenal mungkin akan tetap menjadi eksperimen pemikiran jika bukan karena keberhasilan beberapa Ais. Terutama, GPT-3, model bahasa yang dibuat oleh laboratorium penelitian OpenAI. Namun, Bina48, robot humanoid AI, adalah orang pertama yang menyelesaikan kuliah di Universitas Notre Dame de Namur pada tahun 2017. Contoh lainnya adalah robot AI-MATHS, yang menyelesaikan dua versi ujian matematika di Tiongkok. Meskipun mampu menyelesaikan kelas dan ujian perguruan tinggi, perjalanan AI ini masih panjang untuk mencapai perasaan dan kecerdasan umum yang sebenarnya.

Tes Kopi

Uji Kopi, juga diusulkan oleh Dr. Ben Goertzel dan didukung oleh Steve Wozniak, salah satu pendiri Apple, melibatkan aplikasi AI yang membuat kopi di lingkungan rumah tangga. AI harus menemukan bahan dan peralatan di dapur mana pun dan melakukan tugas sederhana membuat kopi. Tes ini menilai kemampuan AI untuk memahami dan menavigasi lingkungan baru, mengenali objek, dan melakukan serangkaian tindakan kompleks, yang mencerminkan kecerdasan praktisnya.

Tes standar lainnya yang digunakan untuk mengevaluasi tolok ukur AI yang berbeda

Mengevaluasi apakah AI berada pada jalur untuk menjadi AGI melibatkan penilaian kemampuannya pada berbagai tugas kognitif yang seluas mungkin, karena AI harus menunjukkan keserbagunaan, generalisasi, dan kemampuan beradaptasi yang mirip dengan kecerdasan manusia.

Berikut beberapa tolok ukur dan kriteria utama yang sering menjadi pertimbangan:

· Pembelajaran dan Adaptasi

· Penalaran Akal Sehat

· Kreativitas dan Inovasi

· Fleksibilitas dalam Pemecahan Masalah

· Pemahaman Bahasa Alami (dan Generasi)

· Persepsi dan Interaksi

· Generalisasi

· Penalaran Etis dan Moral

Untuk menilai tolok ukur ini, kombinasi pengujian terstandar, tantangan dunia nyata, dan evaluasi berkelanjutan di berbagai bidang sangatlah penting.

Berikut adalah beberapa kerangka evaluasi yang diusulkan saat ini:

· Tantangan Penalaran AI2 (ARC) adalah kumpulan data benchmark yang dibuat oleh Allen Institute for AI (AI2) yang dirancang untuk menilai kemampuan penalaran AI yang masuk akal. Ada dua rangkaian pertanyaan yang harus diselesaikan oleh AI, satu dengan pertanyaan tingkat permukaan yang mudah dan satu lagi dengan serangkaian pertanyaan yang memerlukan penalaran kompleks dan integrasi berbagai sumber pengetahuan untuk menemukan jawaban yang tepat. Tujuan utamanya adalah untuk mendorong batas-batas apa yang dapat dipahami dan dinalar oleh mesin.

· Evaluasi Pemahaman Bahasa Umum (GLUE) benchmark adalah kumpulan beragam tugas pemahaman bahasa alami (NLU). Hal ini menarik karena terdiri dari serangkaian tugas yang berbeda, seperti analisis sentimen (misalnya, apakah sentimen tertentu diungkapkan dalam sebuah teks?), keterlibatan tekstual (menentukan apakah satu kalimat secara logis mengikuti kalimat lain), dan bahkan semantik. kesamaan (seperti, seberapa miripkah dua kalimat yang berbeda maknanya?) GLUE dirancang untuk mengevaluasi dan mendorong kemajuan dalam pengembangan sistem AI yang dapat memahami dan menghasilkan bahasa manusia.

· Tantangan Skema Winograd adalah tes yang dirancang untuk mengevaluasi kemampuan AI dalam memahami konteks dan menyelesaikan ambiguitas dalam bahasa alami, khususnya dengan fokus pada disambiguasi kata ganti. Hal ini bertujuan untuk menguji pemahaman sistem AI yang lebih dalam mengenai bahasa dan konteks, sesuatu yang lebih dari sekedar pengenalan pola statistik namun juga mencakup pengetahuan dan penalaran dunia nyata. Jika AI “berhasil” dalam Tantangan Skema Winograd, ini berarti AI mampu membuat penilaian yang sesuai secara kontekstual, dan oleh karena itu, AI menunjukkan pemahaman bahasa yang lebih manusiawi.

Bagaimana cara membuat tolok ukur AGI yang efektif?

Menciptakan tolok ukur yang efektif untuk AGI adalah masalah yang kompleks, menantang, dan memiliki banyak segi.

Dan hal ini dimulai dengan terlebih dahulu mendefinisikan apa itu kecerdasan – hal ini melibatkan mempertimbangkan berbagai kemampuan kognitif seperti penalaran, pemecahan masalah, pembelajaran, persepsi, dan pemahaman emosional, sehingga membuat pembuatan tolok ukur yang komprehensif menjadi sangat sulit.

AGI diharapkan unggul dalam beragam tugas, mulai dari aritmatika sederhana hingga pengambilan keputusan yang kompleks dan pemikiran kreatif, dan tentu saja, hal ini semakin mempersulit perancangan tolok ukur untuk mengevaluasi spektrum kemampuan yang begitu luas.

Karena kecerdasan manusia berkembang seiring dengan pengalaman dan pembelajaran, tolok ukur AGI harus memperhitungkan sifat dinamis ini, menilai kinerja statis dan kemampuan beradaptasi dari waktu ke waktu.

Dengan demikian, dapat dikatakan bahwa tolok ukur memainkan peran yang sangat besar dalam mengevaluasi perkembangan dan kemajuan menuju AGI, karena tolok ukur akan memberi kita sarana yang terstandarisasi dan obyektif untuk mengukur kemajuan tersebut.

Namun, perjalanan kita masih panjang hingga terciptanya tolok ukur yang efektif karena besarnya dan kompleksitas yang ada. Seiring dengan kemajuan penelitian di AGI, kecanggihan dan kelengkapan tolok ukur kami juga akan semakin maju, sehingga membawa kami lebih dekat ke tujuan untuk mencapai kecerdasan umum buatan yang sebenarnya.

Tentang SingularitasNET

SingularityNET adalah Platform dan Marketplace terdesentralisasi untuk layanan Artificial Intelligence (AI) yang didirikan oleh Dr. Ben Goertzel dengan misi menciptakan Artificial General Intelligence (AGI) yang terdesentralisasi, demokratis, inklusif, dan bermanfaat.

  • Platform Kita, tempat siapa pun dapat mengembangkan, berbagi, dan memonetisasi algoritme, model, dan data AI.
  • OpenCog Hyperon, Kerangka AGI neural-simbolis utama kami, akan menjadi layanan inti untuk gelombang inovasi AI berikutnya.
  • Ekosistem Kita, mengembangkan solusi AI canggih di seluruh pasar vertikal untuk merevolusi industri.

Ikuti terus Berita Terbaru, Ikuti Kami di: