Крупные языковые модели, ставшие основой для перевода, общения и создания контента в сфере искусственного интеллекта, все чаще применяются для анализа контрактов, предоставления консультаций по психическому здоровью, разработки учебных материалов и моделирования межкультурного диалога. Однако системы, лежащие в основе таких популярных инструментов, как Google Translate, ChatGPT, Gemini и другие, систематически воспроизводят западные культурные нормы, гендерные стереотипы и иерархическое отношение к языкам, что ставит под сомнение их объективность.
Такие проявления рассматриваются как цифровые следы имперских систем знаний, которые исторически отдавали предпочтение одним голосам, заглушая или полностью стирая другие. Специалисты, такие как Камран в работе «Decolonizing Artificial Intelligence», утверждают, что эти технологии наследуют и воспроизводят логику колониализма в цифровом формате. Таким образом, современный искусственный интеллект рискует стать продолжением исторического эпистемического насилия, закрепляя существующие дисбалансы.
Многочисленные исследования подтверждают эти опасения. Так, всесторонний анализ культурных предубеждений в крупных языковых моделях, проведенный Лю в 2024 году, показал, что точность и адекватность результатов значительно снижаются, когда запросы основываются на незападных культурных контекстах или диалектных вариантах языков. В том же году Тао, Виберг, Бейкер и Кызылчеч выявили, что современные модели демонстрируют измеримое соответствие западным культурным рамкам, особенно при тестировании на разнообразных наборах данных, охватывающих образовательные и социально-политические темы. Эти и другие выводы убедительно доказывают, что цифровая нейтральность является мифом, а языковое поведение искусственного интеллекта отражает более широкие геополитические диспропорции.
Аналогичная тенденция наблюдается и в образовательной сфере. Исследование Боатенга и Боатенга 2025 года, озаглавленное «Algorithmic Bias in Educational Systems», установило, что инструменты алгоритмического принятия решений, используемые в школах и университетах, усугубляют структурное неравенство. Это происходит из-за приоритезации академических профилей, ориентированных на западные стандарты, и подавления альтернативных образовательных путей. Их работа критически освещает, как учебные программы, созданные с помощью генеративного ИИ, способствуют маргинализации, отдавая предпочтение доминирующим культурным ссылкам и игнорируя глобальное разнообразие.
Ярким примером служит эмпирическое исследование Пратеса, Авелара и Лэмба 2020 года. Оно показало, что системы машинного перевода демонстрируют явную склонность к использованию мужского рода по умолчанию, особенно для профессий, традиционно считающихся мужскими, например, в сферах науки, технологий, инженерии и математики (STEM). В ходе исследования выяснилось, что гендерно-нейтральные предложения на таких языках, как финский и турецкий, при переводе на английский язык непропорционально часто получали мужские местоимения для профессиональных ролей (например, «он врач») и женские — для ролей, связанных с домашним хозяйством или уходом (например, «она медсестра»).
Такие результаты не являются случайными или ситуативными. Они обусловлены огромными массивами данных, на которых обучаются машины, заставляя их воспроизводить укоренившиеся культурные установки. Вследствие этого предвзятость не только закрепляется, но и масштабируется, распространяясь с высокой скоростью через цифровые системы.
Колониальная динамика, встроенная в крупные языковые модели, неразрывно связана с их обучающими наборами данных. Большинство коммерческих моделей создаются на основе огромных объемов информации, собранной преимущественно из англоязычных и западноцентричных интернет-источников. Основную массу этих данных составляют материалы из Wikipedia, оцифрованных новостных сайтов, открытых библиотек, форумов и социальных платформ – ресурсов, где доминирует английский язык, а глобальные языковые иерархии практически не подвергаются сомнению. В результате языки, на которых говорят народы Глобального Юга, часто грубо искажаются: их культурные реалии неверно переводятся, лишаются нюансов или вовсе игнорируются.
Исследование под названием «AI-Driven Biases in Curriculum» показывает, что эта проблема выходит за рамки простого перевода и затрагивает содержание образовательных материалов. При анализе более тысячи учебных планов, сгенерированных искусственным интеллектом, выяснилось, что 72% культурных отсылок были взяты из западных традиций, в то время как в программах, разработанных людьми, этот показатель составлял 50%. Незападные точки зрения присутствовали лишь в 8% материалов, созданных ИИ. Подобные расхождения наблюдались и в задачах обработки естественного языка, где диалекты коренных народов, африканских и юго-восточноазиатских языков либо не поддерживались, либо отображались некорректно. Такое отсутствие отражает продолжающуюся маргинализацию, насаждаемую колониальными и постколониальными системами знаний.
Из этого информационного ландшафта формируется цифровой режим знаний, который повторяет исторические практики исключения. Искусственный интеллект не просто неправильно понимает языки маргинализированных групп — он зачастую их «не видит» вовсе. Когда обучающий набор данных становится своего рода каноном, наследие колониального доминирования сохраняется в тех самых моделях, которые, по идее, должны способствовать глобальной инклюзивности.
Как описывается в работе «Data Feedback Loops», подготовленной студентами Стэнфордского университета, наборы данных, собранные из интернета, сыграли ключевую роль в развитии крупномасштабного машинного обучения. Однако этот успех порождает новый риск: по мере того как результаты, сгенерированные моделями, начинают заменять аннотации, сделанные людьми, в качестве источников для последующего обучения, они возвращаются обратно в тренировочный цикл.
Это создает самоусиливающийся цикл: чем больше информационные системы поглощают данных, отражающих доминирующие языки и идеологии, тем активнее эти системы воспроизводят и усиливают их. Для языков коренных народов такое отсутствие — не просто техническое ограничение, а форма цифрового стирания. Искусственный интеллект не способен сохранить то, чего он никогда «не видел», не может перевести то, что никогда не было размечено, и не может уважать то, что не было подтверждено в его обучающей экосистеме.
Последствия этого весьма значительны. Неправильное отображение местоимения может показаться незначительной ошибкой перевода, но на самом деле оно сигнализирует, какие идентичности считаются нормой, а какие — нет. Игнорирование целых концепций ограничивает межкультурное понимание и сужает доступ к системам знаний, выходящим за рамки западных представлений. Это также обедняет учебные программы, создаваемые ИИ, с которыми сталкиваются учащиеся в школах, университетах и на онлайн-платформах.
Искусственный интеллект не просто отражает существующие предубеждения — он их усиливает. Помимо языковых искажений, крупные языковые модели закрепляют стереотипные ассоциации между гендером и профессией. Как показали Пратес и его коллеги, инструменты ИИ регулярно приписывают мужские местоимения таким ролям, как врач, инженер и ученый, в то время как женские местоимения ассоциируются с ролями сиделки, учителя или уборщицы. Эти, казалось бы, незначительные предпочтения, повторяясь в миллиардах взаимодействий, приобретают статистическую и социальную значимость. Они влияют на системы найма, алгоритмы анализа резюме и инструменты профориентации, тем самым укрепляя предвзятые карьерные траектории.
Дальнейшее развитие требует деколониальной переориентации подходов к созданию и использованию ИИ, включающей несколько ключевых направлений.
Во-первых, системы ИИ должны диверсифицировать свои обучающие данные, включая в них тексты коренных народов, африканские, азиатские и латиноамериканские источники. Эти материалы должны служить не символическими вкраплениями, а фундаментальными источниками знаний. Их разметка и интерпретация должны осуществляться лингвистами и культурологами, обладающими глубоким пониманием соответствующих языков и мировоззрений.
Во-вторых, архитектуры обработки естественного языка необходимо дополнять алгоритмами, учитывающими справедливость, методами состязательного устранения предвзятости и техниками перевзвешивания, способными выявлять и смягчать стереотипы в результатах работы моделей в реальном времени. Прозрачная документация моделей, такая как карточки данных и резюме обучения, должна раскрывать информацию о лингвистическом распределении и культурном весе исходных материалов.
В-третьих, на смену методам экстенсивного сбора данных должны прийти этические механизмы добровольного участия, позволяющие сообществам предоставлять свои языковые данные на собственных условиях, обеспечивая их суверенитет над культурным наследием.
В-четвертых, образование в области ИИ должно эволюционировать, включив лингвистическую справедливость в число ключевых тем. Разработчиков, дизайнеров и политиков необходимо обучать тому, как язык, власть и история взаимодействуют в цифровых системах. Колониализм, заложенный в коде, можно преодолеть, только если его сначала распознать и осознать.
Когда крупные языковые модели переводят, прогнозируют и обучают, чей голос они на самом деле отражают? Если они неспособны представить знания коренных народов, феминизированный труд или незападные мировоззренческие системы, какое цифровое будущее они конструируют? Если не принять меры, лингвистические и культурные паттерны, заложенные в ИИ, приведут к окостенению старых иерархий в новых технологических системах. Таким образом, миф о нейтральности искусственного интеллекта развеивается. Борьба за алгоритмическую справедливость является не только технической, но и лингвистической, исторической и глубоко политической задачей. Чтобы деколонизировать ИИ, необходимо прежде всего задаться вопросом: какому языку мы учим машины и чье молчание мы тем самым кодируем в ответ?