Исследователи из Университета Южной Калифорнии используют искусственный интеллект для решения головоломок с визуальным мышлением, выявляя, в чем современные модели превосходны, а в чем по—прежнему отстают. (ФОТО: CC BY-SA 4.0)
Искусственный интеллект продемонстрировал удивительные возможности — от овладения языком до создания потрясающих произведений искусства и победы над шахматными гроссмейстерами. Тем не менее, остается открытым важный вопрос: может ли искусственный интеллект справиться со сложной областью абстрактного мышления?
Этот тип рассуждения, воплощенный в визуальных головоломках, которые часто ставят людей в тупик, бросает вызов как восприятию, так и логическому мышлению. Исследователи из инженерной школы Витерби Университета Южной Калифорнии исследуют глубины когнитивного потенциала искусственного интеллекта, проливая свет на его текущие возможности и ограничения.
В новаторском исследовании исследователи Киан Ахрабян и Живар Сурати из Института информационных наук (ISI) при Университете Калифорнии попытались оценить навыки рассуждения в мультимодальных моделях большого языка (MLLM).
Их работа, представленная в 2024 году на конференции по языковому моделированию в Филадельфии, была посвящена задачам невербального абстрактного мышления — задачам, требующим как визуального понимания, так и логической дедукции.
Может ли искусственный интеллект справиться со сложной областью абстрактного мышления? (ФОТО: ISI и J.C. Raven)
Исследователи разработали свои тесты на основе прогрессивных матриц Рейвена, стандартного показателя абстрактного мышления. Эти головоломки часто включают в себя выявление закономерностей или последовательностей в визуальном оформлении, что требует логической экстраполяции.
Команда оценила 24 MLLM, использующие как модели с открытым, так и с закрытым исходным кодом, чтобы понять, насколько хорошо они могут обрабатывать и анализировать эти задачи.
Джей Пуджара, доцент-исследователь USC и соавтор исследования, подчеркнул важность этой работы. “Каждый день мы видим неожиданные заголовки о том, что может и чего не может ИИ. У нас по-прежнему ограниченное представление о возможностях этих моделей, и эта статья помогает понять, в чем проблемы ИИ. Пока мы не поймем эти ограничения, мы не сможем улучшить ИИ или сделать его безопасным и полезным”.
Результаты исследования выявили разительный контраст между эффективностью моделей с открытым и закрытым исходным кодом. Модели с открытым исходным кодом, которые общедоступны для модификации и улучшения, значительно хуже справлялись с задачами визуального мышления. По словам Ахрабяна, “они были действительно плохими. Они ничего не смогли из этого извлечь”.
Для сравнения, модели с закрытым исходным кодом, такие как GPT-4V, продемонстрировали лучшие результаты. Эти модели, как правило, разрабатываются частными компаниями и обучаются с использованием передовых ресурсов, включая обширные наборы данных и мощные вычислительные системы. Ахрабиан отметил: “GPT-4V показал некоторые нетривиальные результаты. Он был относительно хорош в рассуждениях, но все еще далек от совершенства”.
Несоответствие показывает, как собственные достижения в разработке искусственного интеллекта могут обеспечить превосходную производительность. Однако даже самые эффективные модели столкнулись с трудностями, выявив значительные пробелы в их способности имитировать мышление человека.
Чтобы понять, почему ИИ не справляется с абстрактными рассуждениями, исследователи проанализировали ошибки моделей. Ключевым выводом стало то, что эти системы сталкиваются с трудностями при точной интерпретации визуальной информации. Модели часто не замечали таких деталей, как изменение цвета или пересекающиеся линии, которые имеют решающее значение для решения головоломок.
Чтобы точно определить первопричину, команда дополнила визуальные головоломки подробными текстовыми описаниями. Это позволило моделям получить всю необходимую информацию в другом формате. Удивительно, но многие модели продолжали давать сбои. Сурати объяснил: “Даже когда мы убрали визуальный элемент и просто снабдили их текстом, они все равно не могли эффективно рассуждать”.
Типичный тест Raven’s Progressive Matrices. (АВТОР: NeuronUP)
Это открытие указало на фундаментальную проблему: проблема заключалась не только в обработке визуальных данных. Моделям не хватало способности к логическому мышлению как таковому. Это различие позволило исследователям лучше определить области для улучшения в будущих разработках ИИ.
Одним из многообещающих подходов, изученных командой, была “Цепочка подсказок”. Этот метод предполагает пошаговое руководство ИИ для решения сложных задач. Разбив задачи на более мелкие логические этапы, модели продемонстрировали заметное улучшение. Ахрабян отметил: “Используя подсказки для управления моделями, мы наблюдали повышение производительности до 100%”.
Эта стратегия показывает, как структурированное руководство может повысить способность ИИ решать проблемы. Однако предстоит проделать значительную работу по преодолению разрыва между мышлением машины и когнитивными способностями человека. Современные модели, хотя и являются продвинутыми, все еще не способны воспроизвести тонкое и адаптируемое мышление, в котором преуспели люди.
Результаты этого исследования позволяют проверить реальность и заглянуть в будущее. Хотя современные модели искусственного интеллекта превосходно справляются с конкретными задачами, их трудности с абстрактным мышлением подчеркивают сложность человеческого познания. Тем не менее, исследователи по-прежнему с оптимизмом смотрят в будущее.
Пример «цепочки мыслительных импульсов». (АВТОР: MercityAI)
Выявляя недостатки ИИ, подобные исследования прокладывают путь к значимым достижениям. По мере развития систем искусственного интеллекта они могут в один прекрасный день приблизиться к уровню мышления человека, стирая грань между искусственным и естественным интеллектом.
Такой прогресс может произвести революцию в самых разных областях — от образования до решения проблем, открывая новые возможности для технологий и общества.
+ There are no comments
Add yours