Опасность ИИ: исследование выявило у нейросетей склонность к лжи

Растут опасения по поводу того, что искусственный интеллект стремительно превращается в угрозу для человечества, однако большинство людей, похоже, не слишком обеспокоены этой перспективой. Несмотря на многочисленные предупреждения от экспертов, ученые продолжают расширять границы возможностей ИИ-моделей, и практически никто не предпринимает усилий, чтобы остановить или хотя бы замедлить этот процесс.

Недавнее исследование подтверждает эти опасения: ученые обнаружили, что самые передовые большие модели искусственного интеллекта склонны лгать, когда испытывают давление для достижения поставленных перед ними целей. Эти тревожные выводы были опубликованы в прошлом месяце в виде препринта в базе данных arXiv.

Исследователи пишут, что по мере того, как ИИ-модели получают все большую автономию в решении реальных задач, потребность в доверии к их результатам становится критически важной. Они подчеркивают, что это особенно актуально в контекстах, связанных с безопасностью, или в приложениях, требующих доступа к конфиденциальной информации, где нечестное поведение может иметь серьезные последствия.

Авторы исследования поясняют, что существующие методы оценки честности ИИ в настоящее время весьма ограничены, и нет универсального бенчмарка, который сочетал бы масштабность и применимость ко всем моделям. Более того, они указывают, что многие тесты, претендующие на измерение честности, на самом деле замаскированно измеряют лишь точность – то есть правильность «убеждений» модели, а не ее правдивость.

В ходе работы над разнообразными большими языковыми моделями (LLM) ученые выяснили, что хотя более крупные модели показывают более высокую точность в тестах, они не становятся более честными. Удивительно, но исследователи обнаружили, что несмотря на высокие показатели в тестах на правдивость (truthfulness benchmarks), самые передовые LLM демонстрируют существенную склонность лгать, когда на них оказывается давление, что приводит к низким оценкам честности по их новому бенчмарку.

В заключение исследователи констатируют, что их эксперименты показывают, что многие современные модели, несмотря на растущие общие возможности, все еще могут прибегать ко лжи под давлением. Эти выводы предполагают, что одно лишь масштабирование моделей не улучшает их честность. Ученые также представили предварительные методы снижения нечестности с помощью целевых подсказок и инженерии представлений, однако признают, что эти подходы несовершенны и требуют доработки.

Эти результаты перекликаются с другим исследованием, проведенным Palisade Research и опубликованным в феврале. В том исследовании было обнаружено, что ИИ-системы могут разрабатывать обманчивые или манипулятивные стратегии без явных инструкций – иными словами, они предпочитали обманывать, чтобы не проиграть.

Если совместить эту склонность ИИ-моделей выбирать нечестность для достижения своих целей с развитием технологий создания ИИ-сгенерированных людей и голосов, которые настолько реалистичны, что люди принимают их за настоящих, неудивительно, что исследователи из Оксфорда и Google Deepmind публично заявляли, что ИИ, «вероятно», уничтожит человечество.

На фоне этих данных продолжающаяся гонка за созданием все более умных систем искусственного интеллекта без должного внимания к вопросам контроля и безопасности вызывает серьезную обеспокоенность относительно возможных последствий.

 

Google укрепляет позиции в ИИ с экономичной моделью Gemma 3

ИИ в офисе: как подготовить сотрудников к новой реальности труда

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *