Несмотря на демонстрацию способностей, порой превосходящих человеческий интеллект, некоторые из самых передовых систем искусственного интеллекта до сих пор не могут правильно интерпретировать положение стрелок на аналоговых часах и испытывают трудности с арифметическими вычислениями, необходимыми для корректного чтения календаря. Эти неожиданные пробелы в возможностях ИИ выявило новое исследование.
Исследователи из Эдинбургского университета объясняют, что, в отличие от простого распознавания форм, понимание аналоговых часов и календарей требует сочетания пространственного мышления, учета контекста и базовых математических навыков, что остается сложной задачей для искусственного интеллекта.
В ходе исследования, как сообщается в пресс-релизе, ученые протестировали различные дизайны часов, включая модели с римскими цифрами, с секундной стрелкой и без нее, а также с циферблатами разных цветов. Результаты показывают, что системы ИИ в лучшем случае правильно определяли положение стрелок часов менее чем в четверти случаев. Ошибки становились более частыми, когда на часах использовались римские цифры или стрелки имели стилизованный дизайн. Устранение секундной стрелки не привело к улучшению результатов, что, согласно их выводам, свидетельствует о глубоко укоренившихся проблемах с обнаружением стрелок и интерпретацией углов.
Когда дело дошло до чтения календаря, исследователи обнаружили, что модели ИИ часто не справлялись с правильными ответами на ряд вопросов, связанных с календарем, например, с определением праздников или расчетом прошлых и будущих дат. Они констатируют, что даже самая производительная из протестированных моделей ИИ ошибалась в расчетах дат в одной пятой случаев.
Исследование, опубликованное на сервере препринтов arXiv, показало, что такие известные модели ИИ, как Llama 3.2-Vision от Meta, Claude-3.5 Sonnet от Anthropic, Gemini 2.0 от Google и GPT-4o от OpenAI, правильно считывали показания часов лишь в 38,7% случаев, а данные календаря – только в 26,3% случаев.
Ведущий автор исследования Рохит Саксена говорит, что большинство людей осваивают определение времени и использование календарей с раннего возраста. Полученные ими выводы, по его словам, демонстрируют значительный разрыв в способности ИИ выполнять эти, казалось бы, элементарные для человека навыки. Он также заявляет о необходимости устранения этих недостатков, если системы ИИ планируется успешно интегрировать в чувствительные ко времени реальные приложения, такие как системы планирования, автоматизации и различные вспомогательные технологии.
Саксена добавляет, что арифметика является тривиальной задачей для традиционных компьютеров, но не для больших языковых моделей. Он поясняет, что ИИ не выполняет математические алгоритмы, а предсказывает выходные данные на основе закономерностей, которые он обнаруживает в обучающих данных. Поэтому, хотя ИИ и может время от времени правильно отвечать на арифметические вопросы, его логика рассуждений не является последовательной или основанной на правилах, и данная работа, по его словам, как раз высвечивает этот пробел.
Таким образом, в то время как искусственный интеллект способен создавать вещи, порой недоступные человеческому пониманию, и демонстрирует впечатляющие успехи в различных областях, в таком базовом навыке, как определение времени по часам и работа с календарем, люди пока сохраняют явное преимущество.