Хрупкое мышление ИИ: риски для медицины, права и образования

Когда искусственный интеллект решает головоломку, это может выглядеть как настоящее мышление. Большие языковые модели, такие как GPT-4, демонстрируют впечатляющие результаты в тестах, измеряющих способность к рассуждению. Однако новое исследование, опубликованное в журнале Transactions on Machine Learning Research, предполагает, что эти ИИ-модели могут мыслить не так, как люди. Вместо формирования глубоких связей и абстрактных идей, они, возможно, просто распознают шаблоны из своих обучающих данных.

Это различие имеет большое значение. Искусственный интеллект все чаще используется в таких областях, как образование, медицина и право, где решающее значение имеет подлинное понимание, а не простое сопоставление с образцом.

Исследователи Марта Льюис из Амстердамского университета и Мелани Митчелл из Института Санта-Фе решили проверить, насколько хорошо модели GPT справляются с задачами на аналогии, особенно когда эти задачи незначительно изменены. Их результаты выявляют ключевые слабости в навыках рассуждения этих систем ИИ.

Рассуждение по аналогии помогает понимать новые ситуации, сравнивая их с уже известными вещами. Например, аналогия «стакан относится к кофе так же, как миска к супу» основана на сравнении отношения контейнера к его содержимому.

Такого рода задачи важны, поскольку они проверяют абстрактное мышление. Речь идет не просто о воспроизведении фактов, а об идентификации отношений и их применении к новым примерам. Люди от природы хорошо с этим справляются. Но ИИ, как выясняется, не всегда.

Чтобы определить возможности ИИ, Льюис и Митчелл протестировали модели GPT и людей на трех типах задач на аналогии: с последовательностями букв, числовыми матрицами и сюжетными аналогиями.

В каждом тесте исследователи сначала предлагали оригинальную версию задачи. Затем они вводили модифицированную версию, требующую того же типа рассуждений, но затрудняющую сопоставление с чем-либо, что ИИ мог видеть во время обучения. Уверенно мыслящий субъект должен был справиться с измененной задачей так же хорошо. Люди справились. ИИ – нет.

Задачи с последовательностями букв часто просты, например: если «abcd» меняется на «abce», на что должно измениться «ijkl»? Большинство людей ответят «ijkm», и модели GPT тоже. Но когда шаблон становится немного более абстрактным – например, удаление повторяющихся букв – ИИ начинает давать сбои.

Например, в задаче, где «abbcd» становится «abcd», цель – применить то же правило к «ijkkl». Большинство людей понимают, что повторяющаяся буква удаляется, и отвечают «ijkl». Однако GPT-4 часто дает неверный ответ.

Льюис поясняет, что эти модели, как правило, плохо справляются, когда шаблоны отличаются от тех, что встречались при обучении. Они могут имитировать ответы людей на знакомые задачи, но не понимают по-настоящему стоящую за ними логику.

Были протестированы два вида вариаций: изменение порядка или положения букв и замена букв небуквенными символами. В обоих случаях люди продолжали давать правильные ответы, но модели GPT испытывали трудности. Проблема усугублялась, когда шаблоны были новыми или незнакомыми.

Исследование также включало числовые матрицы, где человек или ИИ должны найти недостающее число на основе закономерности в сетке, подобно судоку, но с изюминкой.

Одна из версий проверяла, как ИИ отреагирует, если недостающее число будет находиться не всегда в правом нижнем углу. У людей не возникло проблем с адаптацией. Модели GPT, однако, показали резкое падение производительности.

В другой версии исследователи заменили числа символами. На этот раз ни у людей, ни у ИИ особых трудностей не возникло. Но тот факт, что точность GPT так резко упала в первой вариации, говорит о том, что модель полагалась на фиксированные ожидания, а не на гибкое рассуждение.

Митчелл отмечает, что эти результаты показывают, что ИИ часто привязан к конкретным форматам. Если немного изменить структуру, он «ломается».

Третий тип задач на аналогии основывался на коротких рассказах. Тест просил и людей, и модели GPT прочитать историю и выбрать наиболее похожую из двух вариантов. Это проверяет нечто большее, чем сопоставление с образцом; это требует понимания связи между событиями.

И снова модели GPT отстали. На их выбор влиял порядок представления ответов – то, на что люди не обращали внимания. Модели также испытывали больше трудностей, когда истории были переформулированы, даже если смысл оставался прежним. Это указывает на зависимость от поверхностных деталей, а не от глубинной логики.

Исследователи отмечают, что эти модели склонны отдавать предпочтение первому предложенному ответу, даже если он неверный. Они также сильно зависят от используемых формулировок, что показывает отсутствие истинного понимания содержания.

Это важно, потому что реальные жизненные ситуации не всегда описываются одинаково. В юриспруденции, например, небольшое изменение формулировки может скрыть или выявить критически важную деталь. Если система ИИ не способна заметить такое изменение, это может привести к ошибкам.

Ключевой вывод исследования заключается в том, что моделям GPT не хватает так называемого «нулевого выстрела» в рассуждениях (zero-shot reasoning). Это означает, что они испытывают трудности при решении задач, которых раньше не видели, даже если эти задачи следуют логическим правилам. Люди, напротив, хорошо умеют выявлять эти правила и применять их в новых ситуациях.

Как говорит Льюис, люди могут абстрагироваться от шаблонов и применять их широко. Модели GPT на это не способны – они застряли на сопоставлении с тем, что уже видели.

Этот разрыв между рассуждениями ИИ и человека – не просто академический вопрос. Он влияет на то, как ИИ работает в таких ответственных областях, как залы суда или больницы. Например, правовые системы полагаются на аналогии для толкования законов. Если модель не сможет распознать, как прецедент применим к новому делу, последствия могут быть серьезными.

ИИ также играет все большую роль в образовании, предлагая репетиторство и обратную связь. Но если ему не хватает истинного понимания концепций, он может скорее ввести в заблуждение, чем помочь студентам. В здравоохранении он может неверно интерпретировать записи пациентов или рекомендации по лечению, если формат окажется незнакомым.

Авторы исследования подчеркивают, что высокие баллы по стандартным тестам не отражают всей картины. Системы ИИ могут казаться умными на поверхности, но давать сбой, когда требуется гибкое рассуждение. Это означает, что тесты должны выходить за рамки точности – они должны измерять надежность и устойчивость (робастность).

В одном из экспериментов модели GPT выбирали неверные ответы просто потому, что формат был немного изменен. В другом их производительность падала, когда знакомые символы заменялись незнакомыми. Эти изменения не должны иметь значения для системы, которая действительно понимает аналогии. Но они имеют значение для ИИ.

Льюис утверждает, что способность к обобщению необходима для безопасного и полезного ИИ. Нужно перестать предполагать, что высокие баллы в тестах означают глубокое рассуждение. Часто это не так.

Исследователи ИИ давно знают, что модели работают лучше всего, когда обучаются на больших объемах данных. Чем больше примеров видит система, тем лучше она распознает шаблоны. Но распознавание – это не то же самое, что мышление.

Льюис указывает, что дело не столько в том, что содержится в данных, сколько в том, как система их использует.

В конечном счете, это исследование напоминает нам, что ИИ может быть полезным инструментом, но он не заменяет человеческое мышление. Когда проблемы новы, расплывчаты или сложны, люди по-прежнему справляются лучше. И это важно в реальном мире, где никакие две проблемы никогда не бывают абсолютно одинаковыми.

 

Может ли искусственный интеллект мыслить как Эйнштейн?

Человек и ИИ: как сохранить ценность личности в мире технологий?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *