Длинные тексты: где заканчиваются возможности ИИ

Новое исследование, проведенное учеными из Мюнхенского университета Людвига-Максимилиана (LMU Munich), Мюнхенского центра машинного обучения и Adobe Research, выявило неожиданную слабость моделей искусственного интеллекта (ИИ), работающих с языком: им сложно обрабатывать длинные документы так, как это делает человек. Результаты показывают, что даже самые передовые модели ИИ испытывают трудности с установлением связей между фрагментами информации, если не могут опираться на простое сопоставление слов.

Многие модели ИИ, по сути, ищут точные словесные совпадения, подобно использованию функции «Ctrl+F» на компьютере, вместо того, чтобы устанавливать смысловые связи между различными частями текста. Исследовательская группа разработала новый тест под названием NOLIMA («No Literal Matching» – «Без дословных совпадений»), чтобы оценить различные модели ИИ. Результаты показали, что при работе с текстами длиной более 2000 слов производительность моделей ИИ резко падает. При достижении 32 000 слов (объем небольшой книги) большинство моделей работают вдвое хуже обычного. Тестирование прошли такие крупные модели, как GPT-4o, Gemini 1.5 Pro и Llama 3.3 70B.

Это может иметь серьезные последствия в таких областях, как медицина и юриспруденция. Например, если ИИ, анализирующий медицинские записи или юридические документы, пропустит важные связи между данными из-за того, что в запросе и в тексте использованы разные слова, результаты могут быть неверными или неполными.

Современные модели ИИ обрабатывают текст с помощью так называемого механизма внимания. Эта система помогает ИИ фокусироваться на различных частях текста, чтобы понимать взаимосвязь между словами и идеями. При работе с более короткими текстами этого достаточно. Однако, как показывают исследования, этот механизм перегружается по мере увеличения длины текстов, особенно когда он не может полагаться на точные совпадения слов. Тест NOLIMA показал, что способность моделей ИИ устанавливать смысловые связи, а не искать совпадающие слова, значительно снижается по мере увеличения длины текста. Даже специализированные модели, предназначенные для задач, требующих логического мышления, показали точность ниже 50% при работе с более длинными документами.

Без опоры на словесные совпадения моделям ИИ сложно связывать концепции, выраженные разными словами, следовать многоступенчатым логическим цепочкам, находить релевантную информацию и игнорировать вводящие в заблуждение словесные совпадения в нерелевантных разделах.

Наилучшие результаты показала модель GPT-4o, сохраняя эффективность примерно до 8000 токенов (около 6000 слов). Однако даже у этого лидера наблюдалось значительное снижение производительности при работе с более длинными текстами. Большинство других моделей, включая Gemini 1.5 Pro и Llama 3.3 70B, испытали резкое падение производительности между 2000 и 8000 токенами. Снижение производительности становилось еще более выраженным, когда задачи требовали нескольких этапов рассуждений. Исследование показало, что такого рода многоступенчатые рассуждения становятся особенно сложными в текстах, превышающих 16 000 токенов, даже при использовании методов, предназначенных для улучшения логического мышления, таких как «цепочка мыслей» («Chain-of-Thought»).

Эти результаты ставят под сомнение заявления о способности моделей ИИ обрабатывать длинные контексты. Хотя многие модели заявляют о поддержке больших контекстных окон, тест NOLIMA показывает, что эффективное понимание снижается задолго до достижения этих теоретических пределов.

Эти ограничения имеют серьезные последствия для использования ИИ в реальных приложениях. Например, юридическая система ИИ может пропустить важные прецеденты просто потому, что в них используется иная терминология, чем в поисковом запросе. Система может вместо этого сосредоточиться на менее релевантных случаях, которые имеют больше общих слов с поисковыми терминами.

Влияние на поиск и анализ документов особенно велико. Современные поисковые системы на основе ИИ часто используют метод, называемый генерацией с расширенным поиском (RAG). Даже когда эти системы успешно извлекают документ, содержащий нужную информацию, ИИ может не распознать его релевантность, если формулировка отличается от запроса. Вместо этого ИИ может склоняться к менее релевантным документам, которые имеют поверхностное сходство с поисковыми терминами.

Для пользователей ИИ эти выводы предполагают несколько важных моментов. Во-первых, более короткие запросы и документы, скорее всего, дадут более надежные результаты. При работе с более длинными текстами их разбиение на более мелкие, целенаправленные сегменты может помочь поддерживать производительность ИИ. Во-вторых, пользователям следует быть особенно осторожными, когда они просят ИИ установить связи между различными частями длинного документа. Исследования показывают, что модели ИИ испытывают наибольшие трудности, когда им нужно собрать воедино информацию из разных разделов, особенно когда связь неочевидна из-за общего словаря. Наконец, эти ограничения подчеркивают сохраняющуюся важность человеческого контроля. Хотя ИИ может быть мощным инструментом для обработки и анализа текста, на него не следует полагаться как на единственное средство выявления важных связей в длинных или сложных документах.

Результаты напоминают, что, несмотря на быстрые достижения в области технологий ИИ, эти системы по-прежнему обрабатывают информацию иначе, чем люди. Понимание этих ограничений имеет решающее значение для эффективного использования инструментов ИИ и понимания того, когда человеческое суждение остается важным.

Понимание ограничений текущих моделей ИИ в обработке длинных текстов поднимает важные вопросы о будущем развития ИИ. Исследование, лежащее в основе теста NOLIMA, показало, что текущие подходы к обработке текста ИИ, возможно, нуждаются в существенной доработке, особенно в том, как модели обрабатывают информацию в более длинных отрывках.

Текущие решения показали лишь частичный успех. Метод «цепочки мыслей», побуждающий модели ИИ разбивать свои рассуждения на этапы, несколько улучшает производительность. Однако этот подход по-прежнему неэффективен при работе с текстами, превышающими 16 000 токенов, что указывает на необходимость более фундаментальных решений. Механизм внимания, составляющий основу обработки текста современными моделями ИИ, нуждается в переосмыслении.

Исследователи изучают несколько многообещающих направлений. Один из подходов включает разработку новых способов организации и приоритизации информации в длинных текстах, выходя за рамки простого сопоставления слов для понимания более глубоких концептуальных связей. Это может работать больше похоже на то, как люди создают ментальные карты информации, соединяя идеи на основе смысла, а не только общего словаря. Другая область разработки сосредоточена на улучшении того, как модели ИИ обрабатывают логические шаги, необходимые для соединения различных фрагментов информации.

Для тех, кто сегодня работает с инструментами ИИ, эти выводы предполагают несколько практических подходов. Рекомендуется разбивать более длинные документы на значимые сегменты при работе с ИИ. При обращении к ИИ с просьбой проанализировать более длинные тексты, следует конкретизировать связи, которые необходимо установить. И самое главное, сохранять реалистичные ожидания относительно возможностей ИИ в отношении длинных текстов. Человеческая способность поддерживать контекст и устанавливать концептуальные связи в длинных текстах остается выше возможностей современного ИИ.

Путь развития ИИ в этой области сложен и интересен. По мере того, как будут лучше поняты эти ограничения, можно будет работать над созданием систем ИИ, которые действительно понимают длинные тексты, а не просто обрабатывают их. А пока эффективное использование ИИ означает работу с его текущими ограничениями, одновременно оценивая его сильные стороны.

 

Как ИИ формирует будущее сетей 6G

Будущее ИИ: оптимизация больших языковых моделей

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *