Согласно новому исследованию, ChatGPT демонстрирует посредственные результаты в диагностике медицинских состояний, правильно определяя диагноз лишь в 49% случаев. Ученые подчеркивают, что эти данные свидетельствуют о невозможности использования искусственного интеллекта (ИИ) в качестве единственного источника медицинской информации. Они также акцентируют внимание на важности сохранения человеческого фактора в здравоохранении.
С развитием технологий многие люди предпочитают обращаться к онлайн-ресурсам вместо посещения врача, самостоятельно ища симптомы в интернете. Однако, как показывает практика, такой подход далек от идеального. Например, исследование 2020 года, проведенное в Австралии, выявило, что веб-платформы и мобильные приложения для проверки симптомов ставили правильный диагноз с первой попытки только в 36% случаев.
С тех пор ИИ, безусловно, шагнул вперед. ChatGPT, разработанный OpenAI, достиг значительных успехов и даже способен сдать экзамен на получение медицинской лицензии в США. Однако остается открытым вопрос: насколько точна его диагностика по сравнению с теми же онлайн-ресурсами? Чтобы ответить на него, исследователи из Университета Западного Онтарио в Канаде провели новое исследование.
Ученые использовали ChatGPT 3.5 — языковую модель, обученную на массиве данных объемом более 400 миллиардов слов, включая книги, статьи и веб-сайты. Модель протестировали на основе медицинских кейсов из базы Medscape Case Challenges, которые представляют собой сложные клинические случаи, требующие от врачей глубоких знаний и навыков диагностики. Каждый кейс содержал четыре варианта ответа, из которых только один был верным. Для чистоты эксперимента исследователи выбрали только те случаи, которые были опубликованы после августа 2021 года, чтобы исключить возможность того, что ChatGPT уже был знаком с ними.
Всего было проанализировано 150 кейсов, охватывающих широкий спектр медицинских проблем, от астмы до неврологических расстройств. Каждый случай был преобразован в стандартизированный запрос, а ответы ChatGPT оценивались по нескольким критериям: точность диагноза, когнитивная нагрузка (сложность и ясность предоставленной информации) и качество медицинской информации (полнота и релевантность).
Результаты показали, что ChatGPT правильно ответил на 49% вопросов. При этом общая точность модели составила 74%, что объясняется ее способностью исключать заведомо неверные варианты ответов. Однако исследователи отметили, что модель демонстрирует недостаточную чувствительность и точность в определении правильного диагноза. Кроме того, в 13% случаев ChatGPT выдавал ложноположительные результаты, а в 13% — ложноотрицательные, что ставит под сомнение его надежность как диагностического инструмента.
Более половины ответов (52%) были полными и релевантными, а 43% — неполными, но все же полезными. При этом большинство ответов отличались низкой (51%) или умеренной (41%) когнитивной нагрузкой, что делает их легко понятными для пользователей. Однако ученые предупреждают, что такая простота в сочетании с потенциально неверной информацией может создать у пользователей ложное чувство уверенности в своих знаниях, особенно если ChatGPT используется в образовательных целях.
Исследователи также отметили, что модель иногда генерировала некорректную или неправдоподобную информацию, известную как «галлюцинации ИИ». Это подчеркивает риски, связанные с использованием ChatGPT в качестве единственного источника медицинских рекомендаций, и необходимость участия врачей в процессе диагностики.
Авторы исследования признают, что их работа имеет ограничения. Например, ChatGPT 3.5 — лишь одна из множества моделей ИИ, и будущие версии могут стать более точными. Кроме того, проанализированные кейсы в основном касались дифференциальной диагностики, где требуется различить заболевания со схожими симптомами. Тем не менее, результаты исследования служат важным напоминанием о том, что ИИ пока не может заменить профессиональное медицинское заключение.
«Высокая релевантность информации, предоставляемой ChatGPT, в сочетании с относительно низкой точностью, указывает на то, что полагаться на эту модель для медицинских консультаций опасно, — заключили исследователи. — Хотя ChatGPT демонстрирует стабильность в предоставлении информации, его недостатки в точности диагностики подчеркивают необходимость человеческого контроля».
Исследование было опубликовано в журнале PLOS One, и его результаты могут стать важным шагом в понимании роли ИИ в медицине, а также в разработке более надежных инструментов для диагностики и обучения.