Russian - Measuring Intelligence — The Role of Benchmarks in Evaluating AGI

Mayordefi · June 17, 2024, 4:33pm

Source article: Measuring Intelligence — The Role of Benchmarks in Evaluating AGI | by SingularityNet | SingularityNET
Translation by: log_tg
Dework task link: https://app.dework.xyz/singularitynet-ambas/test-38287?taskId=5193dce9-9272-4f9f-991b-23331ba8b0fa
Community review: Please leave comments below about translation quality or like this post if it is well translated

Измерение интеллекта - роль эталонов в оценке AGI

Уважаемые сингуляристы,

Разработка искусственного интеллекта общего назначения (AGI) представляет собой одну из конечных целей исследований в области ИИ. Хотя точное определение или характеристика AGI не является общепринятой, термин “искусственный интеллект” имеет несколько тесно связанных значений, относящихся к способности спроектированной системы:

Умение проявлять такой же грубый общий интеллект, как и люди;
Умение ппроявлять интеллект, не привязанный к узкоспециальному набору задач;
Умение обобщать полученные знания, включая обобщение в контекстах,

качественно отличающихся от тех, с которыми он сталкивался ранее;

Умение широко смотреть на вещи и гибко интерпретировать свои задачи в контексте мира в целом и своего отношения к нему.

Для достижения этой цели необходимы не только надежные методы разработки AGI, но и средства, с помощью которых мы сможем измерить и оценить прогресс AGI.
Поскольку исследователи по всему миру постоянно добиваются успехов в этой области, роль эталонов становится все более важной, чем ближе мы подходим к появлению общего интеллекта.

В этой статье мы рассмотрим важность эталонов в оценке AGI, изучим, как некоторые стандартизированные тесты могут дать нам четкую и объективную оценку пути машины к настоящему, человекоподобному интеллекту.

Все началось с теста Тьюринга

Тест Тьюринга, предложенный Аланом Тьюрингом в 1950 году, является наиболее известным эталоном ИИ. В нем участвуют три терминала: один управляется компьютером, а два - людьми.

Один человек выступает в роли вопрошающего, а другой и компьютер отвечают. Вопрошающий должен определить, кто из отвечающих является машиной.

Компьютер проходит тест, если задающий вопрос не может достоверно отличить его от человека. Изначально этот тест могли пройти только компьютеры с простыми вопросами типа “да/нет”. Однако он становится значительно сложнее, если задавать разговорные или поясняющие вопросы.

Тест для студентов колледжа "Робот

В 2012 году доктор Бен Герцель предложил тест “Робот-студент колледжа”. Суть его проста: если ИИ способен получить степень так же, как и человек, то его следует считать сознательным. Этот тест оценивает способность ИИ к обучению, адаптации и применению знаний в академической среде.

Идея доктора Бена Герцеля, представляющая собой разумную альтернативу знаменитому “тесту Тьюринга”, могла бы так и остаться мысленным экспериментом, если бы не успехи нескольких ИИ. Самый заметный из них - GPT-3, языковая модель, созданная исследовательской лабораторией OpenAI. Однако в 2017 году Bina48, человекоподобный робот ИИ, стал первым, кто прошел курс обучения в колледже при университете Нотр-Дам де Намюр. Другой пример - робот AI-MATHS, который сдал две версии экзамена по математике в Китае. Хотя эти ИИ способны выполнять задания и сдавать экзамены в колледже, им еще предстоит пройти долгий путь до обретения разумности и настоящего общего интеллекта.

Кофейный тест

Кофейный тест, также предложенный доктором Беном Герцелем и одобренный Стивом Возняком, соучредителем Apple, предполагает, что приложение ИИ готовит кофе в домашних условиях. ИИ должен найти ингредиенты и оборудование на любой кухне и выполнить простую задачу по приготовлению кофе. Этот тест оценивает способность ИИ понимать и ориентироваться в новой среде, распознавать объекты и выполнять сложную последовательность действий, что отражает его практический интеллект.

Другие стандартизированные тесты, используемые для оценки различных эталонов ИИ

Оценка того, находится ли ИИ на пути к становлению AGI, включает в себя оценку его возможностей в максимально широком диапазоне когнитивных задач, поскольку он должен демонстрировать универсальность, обобщенность и адаптивность сродни человеческому интеллекту.

Вот некоторые ключевые ориентиры и критерии, которые часто принимаются во внимание:

Обучение и адаптация
Здравый смысл рассуждений
Креативность и инновации
Универсальность в решении проблем
Понимание (и генерация) естественного языка
Восприятие и взаимодействие
Обобщение
Этические и моральные рассуждения

Для оценки этих показателей необходимо сочетание стандартизированных тестов, реальных задач и непрерывной оценки по нескольким направлениям.

Вот некоторые из предлагаемых в настоящее время систем оценки:

AI2 Reasoning Challenge (ARC) - эталонный набор данных, созданный Алленовским институтом искусственного интеллекта (AI2) и предназначенный для оценки способности ИИ рассуждать на основе здравого смысла. Есть два набора вопросов, которые должен пройти ИИ: один с простыми, поверхностными вопросами, а другой - с набором вопросов, требующих сложных рассуждений и интеграции нескольких источников знаний для поиска правильного ответа. Его главная цель - расширить границы того, что может постичь и осмыслить машина.
Эталон General Language Understanding Evaluation (GLUE) представляет собой набор разнообразных задач на понимание естественного языка (NLU). Он интересен тем, что включает в себя различные наборы задач, такие как анализ настроения (например, выражено ли в тексте определенное настроение?), текстовая энтальпия (определение того, логически ли одно предложение следует из другого) и даже семантическое сходство (например, насколько похожи два разных предложения по смыслу?) GLUE был разработан для оценки и стимулирования прогресса в разработке систем ИИ, которые могут понимать и генерировать человеческий язык.
Winograd Schema Challenge - это тест, предназначенный для оценки способности ИИ понимать контекст и разрешать неоднозначные ситуации в естественном языке, в частности, для определения местоимений. Его цель - проверить более глубокое понимание ИИ языка и контекста, то есть то, что выходит за рамки простого статистического распознавания образов и включает в себя знания и рассуждения о реальном мире. Если ИИ “преуспел” в Winograd Schema Challenge, это означает, что он способен выносить контекстуальные суждения, а значит, демонстрирует более человеческое понимание языка.

Как создать эффективный контрольный показатель AGI?

Создание эффективных эталонов для AGI - сложная, трудная и многогранная проблема.

И начинается она с определения понятия “интеллект” - оно включает в себя учет широкого спектра когнитивных способностей, таких как рассуждение, решение проблем, обучение, восприятие и эмоциональное понимание, что делает создание всеобъемлющих эталонов очень сложным.

Предполагается, что AGI будет отлично справляться с различными задачами, от простой арифметики до принятия сложных решений и творческого мышления, и это, естественно, еще больше усложняет разработку эталонов для оценки такого широкого спектра возможностей.

Поскольку человеческий интеллект развивается с опытом и обучением, эталоны AGI должны учитывать эту динамическую природу, оценивая как статическую производительность, так и способность адаптироваться с течением времени.

Учитывая все вышесказанное, можно с уверенностью сказать, что эталоны играют огромную роль в оценке развития и прогресса AGI, поскольку они предоставляют нам стандартизированные, объективные средства для измерения этого прогресса.

Однако нам еще предстоит пройти долгий путь до создания эффективного эталона из-за огромного объема и сложности задач. По мере развития исследований в области AGI будет расти сложность и полнота наших эталонов, что приблизит нас к цели создания настоящего искусственного интеллекта общего назначения.

О SingularityNET

SingularityNET - это децентрализованная ИИ-платформа и рынок услуг искусственного интеллекта (ИИ). Наша миссия - создание децентрализованного, демократического, инклюзивного и полезного искусственного интеллекта (ИИ), демократизация доступа к технологиям ИИ и ИИ посредством:

Нашей платформы, где каждый может разрабатывать, делиться и монетизировать алгоритмы, модели и данные ИИ.
OpenCog Hyperon, наша ведущая нейро-символическая платформа AGI Framework, станет основным сервисом для следующей волны инноваций в области ИИ.
Наша экосистема, разрабатывающая передовые решения в области ИИ для всех вертикалей рынка, чтобы совершить революцию в отраслях.

Будьте в курсе последних новостей:

Присоединяйтесь к нашему Discord
Следите за нами в социальных сетях Mindplex
Присоединяйтесь к нашему основному Telegram-каналу
Подписывайтесь на наш канал объявлений
Посетите наш сайт
Следите за нами в Twitter и Facebook
Подпишитесь на нашу рассылку
Изучите нашу страницу вакансий → Мы принимаем на работу.
Ссылка на календарь событий сообщества SingularityNET - следите за событиями сообщества, амбассадоров и глубокого финансирования!