Монокультуры данных в искусственном интеллекте: угрозы разнообразию и инновациям

ИИ меняет мир: от преобразования здравоохранения до реформирования образования. Это решение давних задач и открытие возможностей, которые мы никогда не считали возможными. Данные находятся в центре этой революции— топлива, которое питает каждую модель искусственного интеллекта. Именно это позволяет этим системам делать прогнозы, находить закономерности и предлагать решения, влияющие на нашу повседневную жизнь.

Но, хотя такое обилие данных стимулирует инновации, доминирование единых наборов данных, часто называемых монокультурами данных, создает значительные риски для разнообразия и творчества в разработке искусственного интеллекта. Это похоже на монокультуру сельского хозяйства, где посадка одной и той же культуры на больших полях делает экосистему хрупкой и уязвимой для вредителей и болезней. В искусственном интеллекте использование единых наборов данных создает жесткие, предвзятые и часто ненадежные модели.

В этой статье рассматривается концепция монокультур данных, исследуется, что они собой представляют, почему они сохраняются, риски, которые они несут, а также шаги, которые мы можем предпринять для создания систем искусственного интеллекта, которые будут умнее, справедливее и инклюзивнее.

Понимание монокультур данных

Монокультура данных происходит, когда один набор данных или узкий набор источников данных доминируют в обучении систем искусственного интеллекта. Распознавание лиц является хорошо документированным примером монокультуры данных в искусственном интеллекте. Исследования Медиа-лаборатории Массачусетского технологического института показали, что модели, тренирующиеся в основном на изображениях светлокожих людей, боролись с темнокожими лицами. Уровень ошибок у темнокожих женщин достиг 34,7% по сравнению с 0,8% у светлокожих мужчин. Эти результаты подчеркивают влияние тренировочных данных, которые не включали достаточное разнообразие тонов кожи.

Аналогичные вопросы возникают и в других областях. Например, большие языковые модели (LLM), такие как GPT OpenAI и Bard от Google, обучаются на наборах данных, которые в значительной степени полагаются на англоязычный контент, преимущественно полученный из западного контекста. Отсутствие разнообразия делает их менее точными в понимании языка и культурных нюансов из других частей мира. Такие страны, как Индия, разрабатывают программы LLM, которые лучше отражают местные языки и культурные ценности.

Этот вопрос может иметь решающее значение, особенно в таких областях, как здравоохранение. Например, медицинский диагностический инструмент, обученный главным образом данным европейского населения, может работать плохо в регионах с различными генетическими факторами и факторами окружающей среды.

Откуда берутся монокультуры данных

Монокультуры данных в ИИ происходят по разным причинам. Популярные наборы данных, такие как ImageNet и COCO, огромны, легко доступны и широко используются. Но они часто отражают узкий, западноцентричный взгляд. Сбор разнообразных данных обходится недешево, поэтому многие более мелкие организации полагаются на эти существующие наборы данных. Эта зависимость усиливает отсутствие разнообразия.

Стандартизация также является ключевым фактором. Исследователи часто используют широко признанные наборы данных для сравнения своих результатов, непреднамеренно препятствуя изучению альтернативных источников. Эта тенденция создает петлю обратной связи, в которой каждый оптимизируется для одних и тех же тестов вместо решения реальных проблем.

Иногда эти проблемы возникают из-за надзора. Создатели наборов данных могут непреднамеренно исключить определенные группы, языки или регионы. Например, ранние версии голосовых помощников вроде Siri плохо справлялись с незападными акцентами. Причиной стало то, что разработчики не включили достаточно данных из тех регионов. Эти оплошности создают инструменты, которые не отвечают потребностям глобальной аудитории.

Почему это важно

Поскольку ИИ играет более заметную роль в принятии решений, монокультуры данных могут иметь реальные последствия. Модели искусственного интеллекта могут усилить дискриминацию, когда они наследуют предубеждения из своих данных обучения. Алгоритм найма, обученный на основе данных из отраслей, где доминируют мужчины, может непреднамеренно отдавать предпочтение кандидатам-мужчинам, исключая из рассмотрения квалифицированных женщин.

Культурное представительство — еще одна проблема. Системы рекомендаций, такие как Netflix и Spotify, часто отдают предпочтение западным предпочтениям, оттесняя контент из других культур. Эта дискриминация ограничивает пользовательский опыт и ограничивает инновации, сохраняя идеи узкими и повторяющимися.

Системы искусственного интеллекта также могут стать хрупкими при обучении на ограниченных данных. Во время пандемии COVID-19 медицинские модели, обученные на данных до пандемии, не смогли адаптироваться к сложностям глобального кризиса здравоохранения. Такая жесткость может сделать системы искусственного интеллекта менее полезными при столкновении с неожиданными ситуациями.

Монокультура данных также может привести к этическим и правовым проблемам. Такие компании, как Twitter и Apple, столкнулись с негативной реакцией общественности на предвзятые алгоритмы. Инструмент для обрезки изображений Twitter обвинили в расовой предвзятости, в то время как кредитный алгоритм Apple Card якобы предлагал женщинам более низкие лимиты. Эти разногласия подрывают доверие к продуктам и поднимают вопросы об ответственности за разработку искусственного интеллекта.

Как исправить монокультуры данных

Решение проблемы монокультур данных требует расширения спектра данных, используемых для обучения систем искусственного интеллекта. Эта задача требует разработки инструментов и технологий, облегчающих сбор данных из различных источников. Например, такие проекты, как «Общий голос» Mozilla, собирают образцы голоса людей со всего мира, создавая более богатый набор данных с различными акцентами и языками. Аналогичным образом, такие инициативы, как «Данные ЮНЕСКО для искусственного интеллекта», сосредоточены на включении недостаточно представленных сообществ.

Установление этических принципов является еще одним важным шагом. Такие структуры, как Декларация Торонто, способствуют прозрачности и инклюзивности, чтобы гарантировать, что системы искусственного интеллекта справедливы по своей конструкции. Сильная политика управления данными, вдохновленная правилами GDPR, также может иметь большое значение. Они требуют четкого документирования источников данных и возлагают на организации ответственность за обеспечение разнообразия.

Платформы с открытым исходным кодом также могут изменить ситуацию. Например, объятие репозитория наборов данных Face позволяет исследователям получать доступ к разнообразным данным и делиться ими. Эта совместная модель способствует развитию экосистемы искусственного интеллекта, уменьшая зависимость от узких наборов данных. Прозрачность также играет значительную роль. Использование объяснимых систем искусственного интеллекта и внедрение регулярных проверок могут помочь выявить и исправить предвзятости. Это объяснение жизненно важно для того, чтобы модели были справедливыми и адаптируемыми.

Создание разнообразных команд может быть самым эффективным и простым шагом. Команды с разным опытом лучше выявляют слепые зоны в данных и разрабатывают системы, которые работают для более широкого круга пользователей. Инклюзивные команды приводят к лучшим результатам, делая ИИ ярче и справедливее.

Итог

ИИ обладает невероятным потенциалом, но его эффективность зависит от качества данных. Монокультуры данных ограничивают этот потенциал, создавая предвзятые, негибкие системы, оторванные от реальных потребностей. Чтобы преодолеть эти проблемы, разработчики, правительства и сообщества должны сотрудничать для диверсификации наборов данных, внедрения этических практик и развития инклюзивных команд.
Решая эти проблемы напрямую, мы можем создать более интеллектуальный и справедливый ИИ, отражающий разнообразие мира, которому он призван служить.

+ There are no comments

Add yours