Модели ИИ в роли ученых: прогресс впечатляет, но проблемы остаются

Современные большие языковые модели (LLM) стремительно развиваются, предлагая все более широкие возможности в качестве мощных ассистентов для проведения исследований. Они уже не просто отвечают на фактологические вопросы, но и берутся за задачи так называемого «глубокого исследования», требующие многоэтапных рассуждений, оценки противоречивой информации, поиска данных в интернете и их синтеза в связный результат. Новый отчет исследовательской компании FutureSearch, озаглавленный «Deep Research Bench (DRB): Evaluating Web Research Agents», представляет собой наиболее тщательную на сегодняшний день оценку этих возможностей, выявляя как впечатляющие способности, так и критические недостатки существующих систем.

Ведущие лаборатории уже активно продвигают эту новую функциональность под различными брендами: OpenAI называет ее Deep Research, Anthropic упоминает как Extended Thinking, Gemini от Google предлагает функции Search + Pro, а Perplexity маркирует свои разработки как Pro Search или Deep Research. Чтобы оценить их реальную эффективность, команда FutureSearch создала Deep Research Bench (DRB) — тщательно разработанный набор тестов для оценки производительности ИИ-агентов в многоэтапных исследовательских задачах, основанных на поиске в интернете. Эти задачи отражают сложные, открытые проблемы, с которыми сталкиваются аналитики, политики и исследователи в реальной работе, а не простые вопросы с очевидными ответами.

Бенчмарк включает 89 различных заданий в 8 категориях, таких как поиск конкретных числовых данных (например, вопрос о количестве отзывов медицинских устройств класса II FDA), проверка утверждений (например, действительно ли ChatGPT в 10 раз более энергоемок, чем Google Search) и компиляция наборов данных (например, тенденции на рынке труда для разработчиков ПО в США с 2019 по 2023 год). Каждый тип задач тщательно структурирован, с ответами, проверенными людьми, и оценивается с использованием замороженного набора данных веб-страниц, известного как RetroSearch. Это обеспечивает согласованность оценок различных моделей, избегая влияния постоянно меняющегося состояния реального интернета.

В основе Deep Research Bench лежит архитектура ReAct, что означает «Рассуждай + Действуй». Этот метод имитирует подход человека-исследователя: обдумывание задачи, выполнение действия (например, веб-поиск), анализ результатов и принятие решения о продолжении или завершении. Хотя ранние модели явно следуют этому циклу, более новые «думающие» модели часто оптимизируют процесс, более плавно встраивая рассуждения в свои действия. Для обеспечения единообразия оценок DRB использует RetroSearch — специально созданную статическую версию интернета. Вместо обращения к живому, постоянно меняющемуся интернету, агенты используют курируемый архив веб-страниц, собранных с помощью инструментов Serper, Playwright и ScraperAPI. Масштаб впечатляет: для задач высокой сложности, таких как «Сбор доказательств», RetroSearch может предоставить доступ к более чем 189 000 страниц, все они «заморожены» во времени, обеспечивая справедливую и воспроизводимую среду тестирования.

Среди всех участников модель o3 от OpenAI показала наилучший результат, набрав 0,51 балла из возможных 1,0 на Deep Research Bench. Хотя это может показаться скромным, важно понимать сложность бенчмарка: из-за неоднозначности в определениях задач и системе подсчета очков, даже безупречный агент, по оценкам исследователей, вероятно, достиг бы максимума около 0,8 балла — уровня, который они называют «потолком шума». Иными словами, даже лучшие современные модели все еще уступают хорошо информированным и методичным людям-исследователям.

Тем не менее, таблица лидеров дает показательные результаты. Модель o3 не только возглавила список, но и сделала это быстро и стабильно, продемонстрировав высокую производительность почти по всем типам задач. Claude 3.7 Sonnet от Anthropic следует за ней, показывая универсальность как в «думающем», так и в «недумающем» режимах. Gemini 2.5 Pro, флагманская модель Google, выделилась способностью справляться с задачами, требующими структурированного планирования и пошаговых рассуждений. Между тем, модель с открытым кодом DeepSeek-R1 преподнесла приятный сюрприз, идя в ногу с GPT-4 Turbo и сокращая разрыв в производительности между открытыми и закрытыми моделями.

В целом выявилась четкая закономерность: более новые модели с поддержкой «мышления» стабильно превосходили своих предшественников, а модели с закрытым исходным кодом сохраняли заметное преимущество над альтернативами с открытым кодом.

Анализ типичных ошибок, подробно описанных в отчете Deep Research Bench, выявляет проблемы, знакомые многим пользователям ИИ. Одной из самых неприятных особенностей, особенно при длительных исследовательских сессиях или создании контента, является то, что ИИ-агент просто «забывает» суть задачи. По мере увеличения контекстного окна модель часто начинает терять нить рассуждений: ключевые детали стираются, цели размываются, и ответы внезапно становятся несвязными или бесцельными. Это явление «забывчивости» является наиболее значимым фактором неудач при оценке в рамках Deep Research Bench.

Однако это не единственная повторяющаяся проблема. В отчете также подчеркивается, как некоторые модели впадают в повторяющееся использование инструментов, запуская один и тот же поиск снова и снова, будто застревая в цикле. Другие демонстрируют плохое составление поисковых запросов, лениво сопоставляя ключевые слова вместо критического осмысления эффективных методов поиска. И слишком часто агенты становятся жертвами преждевременных выводов, предоставляя наполовину сформированный ответ, который технически соответствует требованиям, но не дает реального понимания.

Даже среди топовых моделей различия разительны. Например, GPT-4 Turbo продемонстрировал заметную склонность забывать предыдущие шаги, в то время как DeepSeek-R1 чаще генерировал «галлюцинации» или выдумывал правдоподобно звучащую, но неверную информацию. Повсеместно модели часто не проверяли источники или не подтверждали выводы перед завершением работы. Эти проблемы подчеркивают, как много еще предстоит сделать для создания агентов, способных действительно мыслить и исследовать подобно людям.

Интересно, что Deep Research Bench также оценил так называемых «безынструментальных» агентов — языковые модели, работающие без доступа к внешним инструментам, таким как веб-поиск или извлечение документов. Эти агенты полагаются исключительно на свои внутренние обучающие данные и память, генерируя ответы только на основе того, что они ранее усвоили во время обучения. На практике это означает, что они не могут ничего искать или проверять информацию — они предполагают, основываясь на том, что «помнят».

Удивительно, но эти «безынструментальные» агенты показали почти такие же хорошие результаты, как и полноценные исследовательские агенты, на определенных задачах. Например, в задаче «Проверка утверждения», где цель состоит в оценке правдоподобия заявления, они набрали 0,61 балла, почти сравнявшись со средним показателем 0,62 у агентов, использующих инструменты. Это говорит о том, что модели, подобные o3 и Claude, обладают сильными внутренними «представлениями» и часто могут распознавать истинность распространенных утверждений без необходимости поиска в интернете.

Однако на более сложных задачах, таких как «Извлечение числа», требующей сбора нескольких значений из различных источников, или «Сбор доказательств», которая зависит от поиска и оценки разнообразных фактов в контексте, эти «безынструментальные» модели потерпели полный провал. Без свежей информации или возможностей поиска в реальном времени у них просто не было средств для получения точных или всеобъемлющих ответов.

Этот контраст подчеркивает важный нюанс: хотя сегодняшние LLM могут имитировать «знание» большого объема информации, глубокое исследование зависит не только от запоминания, но и от рассуждений с использованием актуальной, проверяемой информации — то, что могут обеспечить только агенты, дополненные инструментами.

Отчет по итогам использования Deep Research Bench ясно показывает: хотя лучшие современные ИИ-агенты могут превосходить среднестатистического человека в узкоспециализированных задачах, они все еще отстают от квалифицированных исследователей-универсалов, особенно когда речь идет о стратегическом планировании, адаптации в процессе работы и нюансированных рассуждениях.

Этот разрыв становится особенно очевидным во время длительных или сложных сессий, когда агент постепенно теряет из виду цель задачи, что приводит к досадному нарушению согласованности и полезности. Ценность Deep Research Bench заключается в том, что он проверяет не только поверхностные знания — он исследует пересечение использования инструментов, памяти, рассуждений и адаптации, предлагая более близкую аналогию реальным исследованиям, чем такие бенчмарки, как MMLU или GSM8k.

По мере того как большие языковые модели продолжают интегрироваться в серьезную интеллектуальную работу, инструменты FutureSearch, подобные Deep Research Bench, будут необходимы для оценки не только того, что эти системы знают, но и насколько хорошо они действительно работают.

 

Самосохранение ИИ: почему нейросети не хотят отключаться по приказу?

Подросток создал ИИ-приложение для диагностики сердца за секунды

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *