Искусственный интеллект нового поколения, известный как мультимодальный ИИ, меняет технологический ландшафт, позволяя системам одновременно обрабатывать и анализировать различные типы данных, такие как текст, изображения, видео и аудио. Такой подход имитирует человеческое восприятие мира, основанное на использовании нескольких органов чувств, и позволяет ИИ получать более глубокое и контекстуальное понимание информации. Например, в медицине ИИ может анализировать рентгеновские снимки или МРТ, одновременно учитывая историю болезни пациента и текстовые записи врачей, что способствует постановке более точных диагнозов.
Мультимодальные системы уже находят широкое применение. Виртуальные ассистенты могут анализировать голосовую команду пользователя, сверяться с его календарем для уточнения контекста и предлагать задачи на основе недавних взаимодействий. В автомобильной промышленности беспилотные автомобили используют комбинацию данных с камер, лидаров и радаров для навигации и принятия решений в реальном времени. Стриминговые сервисы и игровые компании анализируют поведение пользователей, включая текстовые запросы, голосовые команды и просмотренный видеоконтент, чтобы лучше понимать их предпочтения и предлагать персонализированный контент.
Однако по мере усложнения технологий ИИ возрастает и сложность обеспечения надежности и точности их результатов. Мультимодальные системы сталкиваются с рядом проблем. Одной из ключевых является несоответствие данных, когда информация из разных источников может быть не полностью согласована, что приводит к ошибкам. ИИ-системы также часто испытывают трудности с пониманием контекста взаимодействия различных типов данных, в отличие от человека, что может вести к неверным интерпретациям. Кроме того, существует риск наследования предвзятостей из обучающих данных, что особенно опасно в таких критически важных сферах, как здравоохранение и правоохранительная деятельность.
Одной из специфических проблем являются так называемые «галлюцинации» ИИ, когда модели, генерирующие текст по изображению, создают неточные или полностью вымышленные описания. ИИ может ошибочно назвать собаку «кошкой» или упустить важные детали на сложной фотографии. Причинами могут быть недостаточно репрезентативные или предвзятые обучающие данные, сложность самого изображения с наложением объектов или абстрактными понятиями, а также переобучение модели на небольших наборах данных, из-за чего она плохо справляется с новыми, незнакомыми входными данными.
Для решения этих проблем компания Patronus AI разработала инструмент Judge-Image, работающий на базе технологии Google Gemini. Этот инструмент представляет собой инновационное решение для оценки моделей, преобразующих изображение в текст. Он предоставляет разработчикам четкую и масштабируемую систему для повышения точности и надежности мультимодальных ИИ-систем. Judge-Image тщательно проверяет сгенерированные ИИ описания на соответствие фактическому изображению, включая корректность распознанного текста (OCR), правильность расположения объектов и общий контекст сцены.
Judge-Image отличается от других инструментов, таких как GPT-4V, своим более сбалансированным подходом к оценке, что позволяет снизить предвзятость и получить более точные результаты. Используя полученные оценки, разработчики могут дорабатывать свои ИИ-модели, улучшая их точность и способность сохранять контекст. Это помогает не только исправлять технические недочеты, но и решать реальные проблемы бизнеса, связанные с недовольством клиентов или операционной неэффективностью из-за неточных описаний.
Инструмент Judge-Image уже оказывает заметное влияние на различные отрасли. Одним из первых его пользователей стала глобальная торговая площадка Etsy, специализирующаяся на товарах ручной работы и винтажных изделиях. Имея более 100 миллионов товарных позиций, Etsy использует Judge-Image для проверки точности описаний товаров, генерируемых ИИ. Это помогает гарантировать, что описания не содержат ошибок, таких как неправильные ярлыки или пропущенные детали, что улучшает поиск товаров, повышает доверие клиентов и снижает риски возвратов или недовольства покупателей из-за неточных данных.
Потенциал Judge-Image распространяется и на другие сектора. В маркетинге бренды могут использовать инструмент для проверки соответствия визуального контента рекламных креативов текстовому сообщению и бренд-гайдам. В юридической сфере и при обработке документов Judge-Image помогает проверять текст, извлеченный из PDF-файлов или сканированных документов, таких как контракты или финансовые отчеты, обеспечивая корректность ключевых данных. Медиа-платформы и сервисы, заботящиеся о доступности, могут применять Judge-Image для проверки точности альтернативного текста (alt-text) к изображениям для слабовидящих пользователей, гарантируя правильность описания сцен и объектов.
В будущем Patronus AI планирует расширить возможности Judge-Image, добавив поддержку оценки аудио- и видеоконтента. Это позволит проверять ИИ-системы, обрабатывающие речь, видео или сложный мультимедийный контент, что будет особенно полезно в здравоохранении для валидации резюме медицинских изображений или в медиапроизводстве для проверки соответствия видео-субтитров визуальному ряду.
Предоставляя возможности оценки в реальном времени и адаптивность для различных отраслей, Judge-Image устанавливает новый стандарт для надежных систем ИИ. Этот инструмент демонстрирует, что прозрачность и точность являются достижимыми целями для мультимодальных технологий, решая критические проблемы, такие как «галлюцинации» ИИ, неверная идентификация объектов и пространственные неточности. По мере роста внедрения мультимодального ИИ такие инструменты оценки становятся необходимыми для обеспечения соответствия систем этическим нормам, ожиданиям пользователей и требованиям точности.