Source article: Measuring Intelligence — The Role of Benchmarks in Evaluating AGI | by SingularityNet | SingularityNET
Translation by: log_tg
Dework task link: https://app.dework.xyz/singularitynet-ambas/test-38287?taskId=5193dce9-9272-4f9f-991b-23331ba8b0fa
Community review: Please leave comments below about translation quality or like this post if it is well translated
Измерение интеллекта - роль эталонов в оценке AGI
Уважаемые сингуляристы,
Разработка искусственного интеллекта общего назначения (AGI) представляет собой одну из конечных целей исследований в области ИИ. Хотя точное определение или характеристика AGI не является общепринятой, термин “искусственный интеллект” имеет несколько тесно связанных значений, относящихся к способности спроектированной системы:
- Умение проявлять такой же грубый общий интеллект, как и люди;
- Умение ппроявлять интеллект, не привязанный к узкоспециальному набору задач;
- Умение обобщать полученные знания, включая обобщение в контекстах,
качественно отличающихся от тех, с которыми он сталкивался ранее;
- Умение широко смотреть на вещи и гибко интерпретировать свои задачи в контексте мира в целом и своего отношения к нему.
Для достижения этой цели необходимы не только надежные методы разработки AGI, но и средства, с помощью которых мы сможем измерить и оценить прогресс AGI.
Поскольку исследователи по всему миру постоянно добиваются успехов в этой области, роль эталонов становится все более важной, чем ближе мы подходим к появлению общего интеллекта.
В этой статье мы рассмотрим важность эталонов в оценке AGI, изучим, как некоторые стандартизированные тесты могут дать нам четкую и объективную оценку пути машины к настоящему, человекоподобному интеллекту.
Все началось с теста Тьюринга
Тест Тьюринга, предложенный Аланом Тьюрингом в 1950 году, является наиболее известным эталоном ИИ. В нем участвуют три терминала: один управляется компьютером, а два - людьми.
Один человек выступает в роли вопрошающего, а другой и компьютер отвечают. Вопрошающий должен определить, кто из отвечающих является машиной.
Компьютер проходит тест, если задающий вопрос не может достоверно отличить его от человека. Изначально этот тест могли пройти только компьютеры с простыми вопросами типа “да/нет”. Однако он становится значительно сложнее, если задавать разговорные или поясняющие вопросы.
Тест для студентов колледжа "Робот
В 2012 году доктор Бен Герцель предложил тест “Робот-студент колледжа”. Суть его проста: если ИИ способен получить степень так же, как и человек, то его следует считать сознательным. Этот тест оценивает способность ИИ к обучению, адаптации и применению знаний в академической среде.
Идея доктора Бена Герцеля, представляющая собой разумную альтернативу знаменитому “тесту Тьюринга”, могла бы так и остаться мысленным экспериментом, если бы не успехи нескольких ИИ. Самый заметный из них - GPT-3, языковая модель, созданная исследовательской лабораторией OpenAI. Однако в 2017 году Bina48, человекоподобный робот ИИ, стал первым, кто прошел курс обучения в колледже при университете Нотр-Дам де Намюр. Другой пример - робот AI-MATHS, который сдал две версии экзамена по математике в Китае. Хотя эти ИИ способны выполнять задания и сдавать экзамены в колледже, им еще предстоит пройти долгий путь до обретения разумности и настоящего общего интеллекта.
Кофейный тест
Кофейный тест, также предложенный доктором Беном Герцелем и одобренный Стивом Возняком, соучредителем Apple, предполагает, что приложение ИИ готовит кофе в домашних условиях. ИИ должен найти ингредиенты и оборудование на любой кухне и выполнить простую задачу по приготовлению кофе. Этот тест оценивает способность ИИ понимать и ориентироваться в новой среде, распознавать объекты и выполнять сложную последовательность действий, что отражает его практический интеллект.
Другие стандартизированные тесты, используемые для оценки различных эталонов ИИ
Оценка того, находится ли ИИ на пути к становлению AGI, включает в себя оценку его возможностей в максимально широком диапазоне когнитивных задач, поскольку он должен демонстрировать универсальность, обобщенность и адаптивность сродни человеческому интеллекту.
Вот некоторые ключевые ориентиры и критерии, которые часто принимаются во внимание:
-
Обучение и адаптация
-
Здравый смысл рассуждений
-
Креативность и инновации
-
Универсальность в решении проблем
-
Понимание (и генерация) естественного языка
-
Восприятие и взаимодействие
-
Обобщение
-
Этические и моральные рассуждения
Для оценки этих показателей необходимо сочетание стандартизированных тестов, реальных задач и непрерывной оценки по нескольким направлениям.
Вот некоторые из предлагаемых в настоящее время систем оценки:
-
AI2 Reasoning Challenge (ARC) - эталонный набор данных, созданный Алленовским институтом искусственного интеллекта (AI2) и предназначенный для оценки способности ИИ рассуждать на основе здравого смысла. Есть два набора вопросов, которые должен пройти ИИ: один с простыми, поверхностными вопросами, а другой - с набором вопросов, требующих сложных рассуждений и интеграции нескольких источников знаний для поиска правильного ответа. Его главная цель - расширить границы того, что может постичь и осмыслить машина.
-
Эталон General Language Understanding Evaluation (GLUE) представляет собой набор разнообразных задач на понимание естественного языка (NLU). Он интересен тем, что включает в себя различные наборы задач, такие как анализ настроения (например, выражено ли в тексте определенное настроение?), текстовая энтальпия (определение того, логически ли одно предложение следует из другого) и даже семантическое сходство (например, насколько похожи два разных предложения по смыслу?) GLUE был разработан для оценки и стимулирования прогресса в разработке систем ИИ, которые могут понимать и генерировать человеческий язык.
-
Winograd Schema Challenge - это тест, предназначенный для оценки способности ИИ понимать контекст и разрешать неоднозначные ситуации в естественном языке, в частности, для определения местоимений. Его цель - проверить более глубокое понимание ИИ языка и контекста, то есть то, что выходит за рамки простого статистического распознавания образов и включает в себя знания и рассуждения о реальном мире. Если ИИ “преуспел” в Winograd Schema Challenge, это означает, что он способен выносить контекстуальные суждения, а значит, демонстрирует более человеческое понимание языка.
Как создать эффективный контрольный показатель AGI?
Создание эффективных эталонов для AGI - сложная, трудная и многогранная проблема.
И начинается она с определения понятия “интеллект” - оно включает в себя учет широкого спектра когнитивных способностей, таких как рассуждение, решение проблем, обучение, восприятие и эмоциональное понимание, что делает создание всеобъемлющих эталонов очень сложным.
Предполагается, что AGI будет отлично справляться с различными задачами, от простой арифметики до принятия сложных решений и творческого мышления, и это, естественно, еще больше усложняет разработку эталонов для оценки такого широкого спектра возможностей.
Поскольку человеческий интеллект развивается с опытом и обучением, эталоны AGI должны учитывать эту динамическую природу, оценивая как статическую производительность, так и способность адаптироваться с течением времени.
Учитывая все вышесказанное, можно с уверенностью сказать, что эталоны играют огромную роль в оценке развития и прогресса AGI, поскольку они предоставляют нам стандартизированные, объективные средства для измерения этого прогресса.
Однако нам еще предстоит пройти долгий путь до создания эффективного эталона из-за огромного объема и сложности задач. По мере развития исследований в области AGI будет расти сложность и полнота наших эталонов, что приблизит нас к цели создания настоящего искусственного интеллекта общего назначения.
О SingularityNET
SingularityNET - это децентрализованная ИИ-платформа и рынок услуг искусственного интеллекта (ИИ). Наша миссия - создание децентрализованного, демократического, инклюзивного и полезного искусственного интеллекта (ИИ), демократизация доступа к технологиям ИИ и ИИ посредством:
- Нашей платформы, где каждый может разрабатывать, делиться и монетизировать алгоритмы, модели и данные ИИ.
- OpenCog Hyperon, наша ведущая нейро-символическая платформа AGI Framework, станет основным сервисом для следующей волны инноваций в области ИИ.
- Наша экосистема, разрабатывающая передовые решения в области ИИ для всех вертикалей рынка, чтобы совершить революцию в отраслях.
Будьте в курсе последних новостей:
- Присоединяйтесь к нашему Discord
- Следите за нами в социальных сетях Mindplex
- Присоединяйтесь к нашему основному Telegram-каналу
- Подписывайтесь на наш канал объявлений
- Посетите наш сайт
- Следите за нами в Twitter и Facebook
- Подпишитесь на нашу рассылку
- Изучите нашу страницу вакансий → Мы принимаем на работу.
- Ссылка на календарь событий сообщества SingularityNET - следите за событиями сообщества, амбассадоров и глубокого финансирования!