Недавнее исследование, проведенное LG AI Research, выявило, что «открытые» наборы данных, используемые для обучения моделей искусственного интеллекта (ИИ), могут создавать ложное чувство безопасности. Оказалось, что почти четыре из пяти наборов данных ИИ, помеченных как «коммерчески пригодные», содержат скрытые юридические риски.
Эти риски варьируются от включения необъявленных материалов, защищенных авторским правом, до ограничительных условий лицензирования, скрытых в зависимостях набора данных. Если выводы исследования верны, компаниям, полагающимся на общедоступные наборы данных, возможно, придется пересмотреть свои текущие процессы разработки ИИ, иначе они могут столкнуться с юридическими проблемами в будущем.
Исследователи предлагают радикальное и потенциально спорное решение: агенты соответствия на основе ИИ, способные сканировать и проверять историю наборов данных быстрее и точнее, чем юристы.
Исследователи утверждают, что юридический риск наборов данных для обучения ИИ нельзя определить исключительно путем рассмотрения поверхностных условий лицензии. Для обеспечения соответствия необходим тщательный, сквозной анализ повторного распространения набора данных. Поскольку такой анализ выходит за рамки человеческих возможностей из-за своей сложности и масштаба, агенты ИИ могут преодолеть этот разрыв, проводя его с большей скоростью и точностью. Без автоматизации критические юридические риски остаются в значительной степени неизученными, ставя под угрозу этичное развитие ИИ и соблюдение нормативных требований.
Исследователи призывают сообщество исследователей ИИ признать сквозной юридический анализ в качестве фундаментального требования и принять подходы, основанные на ИИ, как жизнеспособный путь к масштабируемому соответствию наборов данных.
Изучив 2852 популярных набора данных, которые казались коммерчески пригодными на основе их индивидуальных лицензий, автоматизированная система исследователей обнаружила, что только 605 (около 21%) были фактически юридически безопасны для коммерциализации после того, как все их компоненты и зависимости были отслежены.
Новая статья называется «Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing» («Не доверяйте лицензиям, которые вы видите — соответствие наборов данных требует масштабного отслеживания жизненного цикла с помощью ИИ») и написана восемью исследователями из LG AI Research.
Авторы подчеркивают проблемы, с которыми сталкиваются компании, продвигающиеся вперед в разработке ИИ во все более неопределенной правовой среде, поскольку прежний академический подход к «добросовестному использованию» в отношении обучения наборов данных уступает место фрагментированной среде, где правовая защита неясна, а безопасная гавань больше не гарантируется.
Компании становятся все более осторожными в отношении источников своих данных для обучения. OpenAI раскрыла основные источники данных для GPT-3, но в документе, представляющем GPT-4, сообщается только, что данные, на которых обучалась модель, представляли собой смесь «общедоступных данных (таких как данные из Интернета) и данных, лицензированных у сторонних поставщиков». Мотивы такого отхода от прозрачности не были подробно сформулированы разработчиками ИИ, которые во многих случаях вообще не давали никаких объяснений. Со своей стороны, OpenAI оправдала свое решение не разглашать дальнейшие подробности о GPT-4 соображениями, касающимися «конкурентной среды и последствий для безопасности крупномасштабных моделей», без каких-либо дополнительных объяснений в отчете.
Прозрачность может быть неискренним или просто ошибочным термином. Например, флагманская генеративная модель Adobe Firefly, обученная на стоковых данных, на использование которых у Adobe были права, предположительно предлагала клиентам гарантии законности использования ими системы. Позже появились некоторые свидетельства того, что набор данных Firefly был «обогащен» потенциально защищенными авторским правом данными с других платформ.
Существуют растущие инициативы, направленные на обеспечение соблюдения лицензий в наборах данных, в том числе одна, которая будет извлекать только видео YouTube с гибкими лицензиями Creative Commons. Проблема в том, что сами лицензии могут быть ошибочными или предоставленными по ошибке, как, по-видимому, показывает новое исследование.
Трудно разработать систему оценки, такую как Nexus авторов, когда контекст постоянно меняется. Поэтому в статье говорится, что система платформы соответствия данных NEXUS основана на «различных прецедентах и правовых основаниях на данный момент времени».
NEXUS использует управляемый ИИ агент под названием AutoCompliance для автоматизированного соответствия данных. AutoCompliance состоит из трех ключевых модулей: навигационного модуля для веб-исследований; модуля вопросов и ответов (QA) для извлечения информации; и модуля оценки для оценки юридических рисков.
Эти модули основаны на точно настроенных моделях ИИ, включая модель EXAONE-3.5-32B-Instruct, обученную на синтетических и размеченных человеком данных. AutoCompliance также использует базу данных для кэширования результатов, чтобы повысить эффективность.
AutoCompliance начинает с предоставленного пользователем URL-адреса набора данных и рассматривает его как корневую сущность, ищет его условия лицензии и зависимости и рекурсивно отслеживает связанные наборы данных для построения графа зависимостей лицензий. После того, как все соединения сопоставлены, он вычисляет баллы соответствия и назначает классификации рисков.
Платформа соответствия данных, описанная в новой работе, определяет различные типы сущностей, участвующих в жизненном цикле данных, включая наборы данных, которые составляют основную входную информацию для обучения ИИ; программное обеспечение для обработки данных и модели ИИ, которые используются для преобразования и использования данных; и поставщиков платформенных услуг, которые облегчают обработку данных.
Система целостно оценивает юридические риски, учитывая эти различные сущности и их взаимозависимости, выходя за рамки обычного анализа лицензий наборов данных, чтобы включить более широкую экосистему компонентов, участвующих в разработке ИИ.
Авторы извлекли URL-адреса 1000 самых загружаемых наборов данных на Hugging Face, случайным образом выбрав 216 элементов для формирования тестового набора.
Модель EXAONE была точно настроена на пользовательском наборе данных авторов, при этом навигационный модуль и модуль вопросов и ответов использовали синтетические данные, а модуль оценки — данные, размеченные человеком.
Основные метки истинности были созданы пятью экспертами-юристами, прошедшими обучение в течение не менее 31 часа для выполнения аналогичных задач. Эти эксперты-люди вручную определили зависимости и условия лицензии для 216 тестовых случаев, а затем агрегировали и уточнили свои выводы путем обсуждения.
С обученной, откалиброванной человеком системой AutoCompliance, протестированной на ChatGPT-4o и Perplexity Pro, в условиях лицензии было обнаружено значительно больше зависимостей.
AutoCompliance значительно превосходит всех других агентов и экспертов-людей, достигая точности 81,04% и 95,83% в каждой задаче. Напротив, и ChatGPT-4o, и Perplexity Pro показывают относительно низкую точность для задач Source и License соответственно. Эти результаты подчеркивают превосходную производительность AutoCompliance, демонстрируя его эффективность в решении обеих задач с замечательной точностью, а также указывая на существенный разрыв в производительности между моделями на основе ИИ и экспертами-людьми в этих областях.
Что касается эффективности, подход AutoCompliance занял всего 53,1 секунды, в отличие от 2418 секунд для эквивалентной человеческой оценки тех же задач.
Кроме того, оценочный запуск стоил 0,29 доллара США по сравнению с 207 долларами США для экспертов-людей. Однако следует отметить, что это основано на ежемесячной аренде узла GCP a2-megagpu-16gpu по цене 14 225 долларов США в месяц, что означает, что такая экономическая эффективность связана в первую очередь с крупномасштабной операцией.
Для анализа исследователи выбрали 3612 наборов данных, объединив 3000 самых загружаемых наборов данных из Hugging Face с 612 наборами данных из Инициативы происхождения данных 2023 года.
Исследователи сообщают, что, начав с 3612 целевых объектов, они идентифицировали в общей сложности 17 429 уникальных объектов, из которых 13 817 объектов оказались прямыми или косвенными зависимостями целевых объектов. Для эмпирического анализа они рассматривают объект и его граф зависимостей лицензий как имеющие однослойную структуру, если объект не имеет зависимостей, и многослойную структуру, если он имеет одну или несколько зависимостей. Из 3612 целевых наборов данных 2086 (57,8%) имели многослойные структуры, тогда как остальные 1526 (42,2%) имели однослойные структуры без зависимостей.
Наборы данных, защищенные авторским правом, могут распространяться только с юридическим разрешением, которое может исходить из лицензии, исключений из закона об авторском праве или условий контракта. Несанкционированное повторное распространение может привести к юридическим последствиям, включая нарушение авторских прав или нарушение контракта. Поэтому четкая идентификация несоблюдения требований имеет важное значение.
Исследование выявило 9905 случаев несоблюдения требований при повторном распространении наборов данных, разделенных на две категории: 83,5% были явно запрещены условиями лицензирования, что делало повторное распространение явным нарушением закона; и 16,5% включали наборы данных с противоречивыми условиями лицензии, когда повторное распространение было разрешено в теории, но не соответствовало требуемым условиям, создавая юридический риск для последующих пользователей.
Авторы признают, что предложенные в NEXUS критерии риска не являются универсальными и могут варьироваться в зависимости от юрисдикции и применения ИИ, и что будущие улучшения должны быть сосредоточены на адаптации к меняющимся глобальным нормам при одновременном совершенствовании юридического анализа, управляемого ИИ.
Это многословная и в значительной степени недружелюбная статья, но она затрагивает, возможно, самый большой сдерживающий фактор в текущем принятии ИИ в отрасли — возможность того, что на «открытые» данные позже будут претендовать различные организации, отдельные лица и компании. В соответствии с DMCA, нарушения могут повлечь за собой огромные штрафы в каждом конкретном случае. Там, где нарушения могут исчисляться миллионами, как в случаях, обнаруженных исследователями, потенциальная юридическая ответственность действительно значительна. Кроме того, компании, которые, как можно доказать, извлекли выгоду из данных, полученных выше по течению, не могут (как обычно) ссылаться на незнание в качестве оправдания, по крайней мере, на влиятельном рынке США. Также в настоящее время у них нет каких-либо реалистичных инструментов, с помощью которых можно было бы проникнуть в лабиринт последствий, скрытых в лицензионных соглашениях на наборы данных, предположительно с открытым исходным кодом.
Проблема в формулировании такой системы, как NEXUS, заключается в том, что было бы достаточно сложно откалибровать ее для каждого штата в США или для каждой страны в ЕС; перспектива создания действительно глобальной структуры («своего рода Интерпола для происхождения наборов данных») подрывается не только противоречивыми мотивами различных вовлеченных правительств, но и тем фактом, что и эти правительства, и состояние их текущих законов в этом отношении постоянно меняются.