Синтетические данные и ИИ: панацея или угроза?

Синтетические данные, генерируемые искусственным интеллектом, становятся все более востребованными в сфере разработки и обучения ИИ-систем. Однако, как выясняется, их использование может приводить к неожиданным последствиям, в частности, к увеличению так называемых «галлюцинаций» ИИ – ложных или нелогичных выводов и утверждений, которые делает система.

Синтетические данные создаются алгоритмами ИИ на основе реальных данных. Они имитируют основные характеристики и закономерности исходного набора данных, но не содержат идентифицирующей информации. Это позволяет компаниям использовать их, не нарушая правил конфиденциальности и авторских прав, а также свободно обмениваться ими. Кроме того, синтетические данные часто применяются для дополнения и расширения небольших выборок, что делает их пригодными для обучения ИИ-систем.

В некоторых случаях, при условии тщательной подготовки и контроля, синтетические данные действительно могут помочь уменьшить количество «галлюцинаций» ИИ. Это происходит за счет увеличения объема и разнообразия данных для обучения, а также за счет возможности устранения смещений и дисбалансов в исходных данных, которые могут приводить к неверным выводам системы.

Однако, чаще всего использование синтетических данных, наоборот, усугубляет проблему «галлюцинаций». ИИ, не обладая способностью к рассуждению и пониманию контекста, может воспроизводить и усиливать предубеждения, заложенные в данных. Это может привести к искаженным результатам и неверным решениям, особенно в чувствительных областях, таких как медицина или подбор персонала.

Еще одна проблема – возникновение «перекрестных галлюцинаций». При генерации синтетических данных ИИ может создавать комбинации характеристик, которые не встречаются в реальности или являются логически невозможными. Например, как показало исследование профессора Эрики Джонсон, могут появляться такие категории, как «жена и одинокий» или «никогда не состоявшие в браке мужья». Это происходит из-за того, что алгоритм не учитывает сложные взаимосвязи между различными социальными категориями.

Кроме того, чрезмерное использование синтетических данных может привести к так называемому «коллапсу модели», когда производительность алгоритма резко снижается из-за его неспособности адаптироваться к реальным данным. Это особенно актуально для генеративных моделей ИИ нового поколения, которые при обучении на синтетических данных могут попадать в «самопотребляющий цикл», что приводит к постепенному ухудшению качества их работы.

Несмотря на эти риски, рынок синтетических данных стремительно растет. В 2022 году компании, работающие в этой сфере, привлекли около 328 миллионов долларов инвестиций, что на 518% больше, чем в 2020 году. Это говорит о высокой заинтересованности бизнеса в данном инструменте.

Однако, по мнению экспертов, дальнейшее использование синтетических данных без должного контроля и устранения смещений может привести к снижению производительности ИИ-систем и увеличению числа ошибок. В таких областях, как здравоохранение, это может иметь серьезные последствия, например, привести к неправильным диагнозам и неэффективному лечению.

В то же время, полный отказ от синтетических данных и возврат к использованию исключительно реальных данных вряд ли возможен. Дело в том, что ИИ-системы нуждаются в огромных объемах информации для обучения, и люди просто не успевают создавать столько контента. Эксперты опасаются, что в ближайшем будущем может наступить «информационный голод», когда все доступные данные в интернете будут исчерпаны. По некоторым оценкам, это может произойти уже к 2026 году.

Кроме того, развитие генеративного ИИ обостряет вопросы, связанные с авторскими правами и защитой информации. Все больше владельцев сайтов используют протокол исключения роботов (robots.txt), чтобы запретить поисковым системам сканировать их контент. Исследование, проведенное группой под руководством Массачусетского технологического института, показало, что более 28% наиболее важных и активных источников в наборе данных C4 (Colossal Cleaned Common Crawl) полностью закрыты для сканирования, а 45% — ограничены условиями использования.

Если компании будут соблюдать эти ограничения, то актуальность и точность реальных данных в интернете снизится, что вынудит их еще больше полагаться на синтетические данные. Кроме того, судебные решения могут признать использование альтернативных источников нарушением авторских прав, что еще больше ограничит возможности компаний.

Таким образом, по мере развития законодательства в области авторского права и увеличения числа сайтов, скрывающих свой контент от поисковых систем, генерация искусственных наборов данных будет становиться все более востребованной. В этих условиях организациям необходимо готовиться к решению проблемы «галлюцинаций» ИИ, чтобы обеспечить эффективность и надежность своих систем.

 

Трансформеры: революция в ИИ и за его пределами

Deep Research от OpenAI: новая эра автономного поиска знаний

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *