Крах логики: исследование Apple показало пределы мышления ИИ



Новое исследование Apple поставило под сомнение, способны ли современные продвинутые системы искусственного интеллекта на глубокие логические рассуждения. Эти так называемые большие модели рассуждений (LRM) были созданы для решения сложных задач путем генерации длинных «цепочек мыслей» перед тем, как прийти к выводу. Такой подход, имитирующий человеческое мышление, впечатлил многих экспертов, однако недавняя работа Apple предполагает, что эти системы могут быть не такими «умными», как кажутся.

Исследователи из Apple оценили, как ведущие модели ИИ справляются с решением классических логических головоломок, сложность которых постепенно нарастала. В качестве тестов были выбраны такие задачи, как «Башня Ханоя», игры на переправу через реку и перемещение блоков. Все они подчиняются четким правилам, а сложность увеличивается простым добавлением новых элементов, что делает их идеальным инструментом для проверки способности ИИ к масштабированию мышления.

На начальных этапах модели вроде Claude 3.7 Sonnet и DeepSeek R1 достаточно хорошо справлялись с простыми и умеренно сложными головоломками. Но когда исследователи повышали уровень сложности, производительность систем резко падала. Даже при добавлении вычислительных мощностей модели начинали «сдаваться», прерывая цепочку рассуждений и не доходя до финального решения.

Команда Apple осознанно отказалась от традиционных математических и программных тестов, которые часто страдают от «загрязнения данных» — ситуации, когда модель уже видела похожие задачи во время обучения. Вместо этого контролируемая среда головоломок заставляла ИИ демонстрировать подлинные логические способности. Результаты оказались неутешительными: по мере роста сложности головоломок точность ответов падала до нуля.

Это говорит о более глубокой проблеме. Модели были ограничены не объемом текста, который они могли сгенерировать, а своей неспособностью справиться с самой логикой. Даже когда в подсказке исследователи давали ИИ правильный алгоритм действий, системы все равно заходили в тупик. Это породило критический вопрос: действительно ли эти системы рассуждают или они просто очень хорошо имитируют паттерны мышления?

Публикация вызвала бурную реакцию. Скептики увидели в ней подтверждение того, что возможности современного ИИ сильно переоценены. Однако другие эксперты поставили под сомнение саму методологию исследования. Одной из самых громких стала критика Алекса Лоусена из Open Philanthropy, который утверждал, что команда Apple неверно истолковала собственные результаты.

Лоусен указал на несколько серьезных недостатков в подходе Apple. Во-первых, он показал, что некоторые модели просто достигали лимита на объем ответа и обрывали рассуждения на середине, хотя явно понимали решение. Apple засчитывала такие ответы как провал. Во-вторых, часть головоломок в тестах Apple были нерешаемыми по определению, и модели наказывались за то, что распознавали это и отказывались искать ответ. В-третьих, система оценки считала любой неполный список ходов полным провалом, не разделяя реальные проблемы с логикой и технические ограничения.

Чтобы доказать свою правоту, Лоусен провел тесты заново, но с другим подходом. Вместо того чтобы просить модели перечислить каждый ход, он попросил их написать компьютерную программу, которая сгенерирует решение. В таких условиях модели от Google, OpenAI и Anthropic легко решали головоломки, сложность которых вдвое превышала ту, на которой, по утверждению Apple, происходил полный коллапс.

Таким образом, главный спор разгорелся вокруг вопроса: терпят ли модели ИИ неудачу, потому что не умеют мыслить, или потому что наши тесты не могут справедливо измерить их мышление? Как отметил эксперт по ИИ Гэри Маркус, большинство людей также не смогут решить головоломку «Башня Ханоя» с восьмью дисками. По его мнению, исследование Apple доказывает главное: «большие языковые модели не заменят хорошо прописанные классические алгоритмы».

В конечном счете, обе стороны конфликта сходятся в одном: методы оценки ИИ необходимо менять. Будущие тесты должны отделять способность к рассуждению от ограничений формата вывода. Эти результаты подчеркивают необходимость создания гибридных моделей, которые будут сочетать гибкость языковых систем с мощью традиционных вычислительных алгоритмов. Понимание не только того, что ИИ может делать, но и того, где находятся его пределы, является единственным путем к созданию по-настоящему интеллектуальных машин.

ИИ на работе: почему невидимые помощники заменят десятки чат-ботов

Проданная мечта: почему ИИ создавался не для нас

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *