Новый подход к созданию систем искусственного интеллекта, известный как Retrieval-Augmented Generation или RAG, сочетает возможности языковой модели с доступом к внешним источникам знаний. Проще говоря, ИИ сначала ищет релевантные документы, такие как статьи или веб-страницы, связанные с запросом пользователя, а затем использует найденные материалы для генерации более точного ответа. Этот метод получил признание за способность помогать большим языковым моделям (LLM) оставаться фактологически точными и снижать вероятность «галлюцинаций», основывая ответы на реальных данных.
Интуитивно может показаться, что чем больше документов ИИ получает для анализа, тем более информированным и точным будет его ответ. Однако недавнее исследование преподносит сюрприз: когда дело доходит до предоставления информации искусственному интеллекту, иногда меньше значит лучше.
Исследование, проведенное учеными из Еврейского университета в Иерусалиме, изучило, как количество документов, предоставляемых системе RAG, влияет на ее производительность. Важно отметить, что общее количество текста оставалось неизменным: если документов было меньше, они немного расширялись, чтобы общая длина соответствовала сценарию с большим количеством документов. Таким образом, различия в производительности можно отнести именно к количеству источников, а не к общему объему входных данных.
Ученые использовали набор данных для ответов на вопросы MuSiQue, содержащий вопросы-викторины, каждый из которых изначально сопровождался 20 параграфами из Википедии. Лишь немногие из этих параграфов содержали ответ, остальные служили отвлекающими факторами. Исследователи сократили количество документов с 20 до 2–4 наиболее релевантных, дополнив их небольшим количеством контекста для сохранения общей длины. Это позволило создать сценарии, где ИИ рассматривал меньше фрагментов материала, но примерно тот же объем текста.
Результаты оказались поразительными. В большинстве случаев модели ИИ давали более точные ответы, когда им предоставляли меньше документов, а не полный набор. Производительность значительно улучшилась – в некоторых случаях точность (по метрике F1) возрастала до 10%, когда система использовала лишь несколько подтверждающих документов вместо большой подборки. Этот нелогичный, на первый взгляд, прирост наблюдался у нескольких различных языковых моделей с открытым исходным кодом, включая варианты Llama от Meta и другие, что указывает на универсальность феномена.
Одна модель, Qwen-2, стала заметным исключением, справляясь с множеством документов без снижения точности, но почти все остальные протестированные модели работали лучше при меньшем количестве документов. Другими словами, добавление справочного материала сверх ключевых релевантных фрагментов чаще вредило производительности, чем помогало.
Этот результат «меньше значит лучше» становится понятным, если рассмотреть, как языковые модели ИИ обрабатывают информацию. Когда ИИ получает только самые релевантные документы, контекст становится сфокусированным и свободным от отвлекающих факторов, подобно студенту, которому дали только нужные страницы для изучения. Модели показали значительно лучшие результаты при работе только с подтверждающими документами после удаления нерелевантных материалов. Оставшийся контекст был не только короче, но и чище – он содержал факты, прямо указывающие на ответ, и ничего лишнего. Имея меньше документов для обработки, модель могла сосредоточить все свое внимание на существенной информации, что снижало вероятность сбиться с толку.
Напротив, при получении множества документов ИИ приходилось просеивать смесь релевантного и нерелевантного контента. Часто эти дополнительные документы были «похожими, но не относящимися к делу» – они могли разделять тему или ключевые слова с запросом, но не содержать ответа. Такой контент может ввести модель в заблуждение. ИИ может тратить ресурсы, пытаясь связать информацию из разных источников, которые не ведут к правильному ответу, или, что еще хуже, некорректно объединить данные. Это увеличивает риск галлюцинаций – случаев, когда ИИ генерирует правдоподобный на вид ответ, не основанный ни на одном из источников. По сути, предоставление слишком большого количества документов модели может размыть полезную информацию и внести противоречивые детали, затрудняя для ИИ определение истины.
Интересно, что исследователи обнаружили: если дополнительные документы были очевидно нерелевантными (например, случайный текст на другую тему), модели лучше справлялись с их игнорированием. Настоящая проблема возникает из-за отвлекающих данных, которые выглядят релевантно. Когда все извлеченные тексты посвящены схожим темам, ИИ предполагает, что должен использовать их все, и может испытывать трудности с определением действительно важных деталей. Это согласуется с наблюдением исследования о том, что случайные отвлекающие факторы вызывали меньше путаницы, чем реалистичные. ИИ может отфильтровать явный абсурд, но слегка нерелевантная информация – это хитрая ловушка, маскирующаяся под полезные данные и сбивающая с пути. Сокращая количество документов до действительно необходимых, мы избегаем создания таких ловушек.
Существует и практическая выгода: извлечение и обработка меньшего количества документов снижает вычислительную нагрузку на систему RAG. Каждый извлеченный документ требует анализа (встраивания, чтения и обработки моделью), что затрачивает время и вычислительные ресурсы. Исключение лишних документов делает систему более эффективной – она может находить ответы быстрее и с меньшими затратами. В сценариях, где точность повышалась за счет фокусировки на меньшем количестве источников, достигается двойной выигрыш: лучшие ответы и более экономичный, эффективный процесс.
Новые данные о том, что качество часто превосходит количество при извлечении информации, имеют важные последствия для будущего систем ИИ, полагающихся на внешние знания. Это предполагает, что разработчикам систем RAG следует отдавать приоритет интеллектуальной фильтрации и ранжированию документов, а не их чистому объему. Вместо того чтобы извлекать сотню возможных фрагментов в надежде, что ответ где-то там затерялся, может быть разумнее извлечь лишь несколько наиболее релевантных.
Авторы исследования подчеркивают необходимость того, чтобы методы извлечения информации находили баланс между релевантностью и разнообразием предоставляемых модели данных. Другими словами, нужно обеспечить достаточное покрытие темы для ответа на вопрос, но не настолько большое, чтобы ключевые факты утонули в море постороннего текста.
В будущем исследователи, вероятно, будут изучать методы, помогающие моделям ИИ более эффективно обрабатывать несколько документов. Один из подходов – разработка улучшенных систем извлечения или переранжирования, способных определять, какие документы действительно добавляют ценность, а какие лишь вносят противоречия. Другое направление – совершенствование самих языковых моделей: если одна модель, такая как Qwen-2, смогла справиться с множеством документов без потери точности, изучение ее обучения или структуры может подсказать, как сделать другие модели более устойчивыми к таким условиям. Возможно, будущие LLM будут включать механизмы для распознавания схожей или противоречивой информации из разных источников и соответствующей фокусировки. Цель состоит в том, чтобы позволить моделям использовать богатое разнообразие источников, не становясь жертвой путаницы – эффективно сочетая широту информации и ясность фокуса.
Стоит также отметить, что по мере увеличения контекстных окон у систем ИИ (способности обрабатывать больше текста за раз) простое добавление большего количества данных в запрос не является универсальным решением. Больший контекст не означает автоматически лучшего понимания. Данное исследование показывает, что даже если ИИ технически может прочитать 50 страниц одновременно, предоставление ему 50 страниц информации смешанного качества может не дать хорошего результата. Модель по-прежнему выигрывает от работы с отобранным, релевантным контентом, а не с неразборчивым потоком данных. Фактически, интеллектуальное извлечение может стать еще более важным в эпоху гигантских контекстных окон – чтобы гарантировать, что дополнительная емкость используется для ценных знаний, а не для шума.
Выводы исследования побуждают пересмотреть наши предположения в области исследований ИИ. Иногда предоставление ИИ всех имеющихся данных не так эффективно, как мы думаем. Сосредоточившись на наиболее релевантных фрагментах информации, мы не только повышаем точность генерируемых ИИ ответов, но и делаем системы более эффективными и заслуживающими доверия. Это нелогичный урок, но он имеет захватывающие последствия: будущие системы RAG могут стать и умнее, и экономичнее благодаря тщательному отбору меньшего числа лучших документов.