Медицинский искусственный интеллект Google разрушает эталон GPT и превосходит врачей по эффективности

Ежедневно врачи обслуживают множество пациентов, потребности которых варьируются от простых до очень сложных. Для оказания эффективной медицинской помощи они должны быть знакомы с историей болезни каждого пациента и быть в курсе новейших процедур. Кроме того, существуют чрезвычайно важные отношения между врачом и пациентом, построенные на эмпатии, доверии и общении. Для того чтобы ИИ мог имитировать работу врача в реальном мире, он должен уметь делать все эти вещи.

Взаимодействие ИИ и медицины действительно набирает обороты. За последние шесть месяцев New Atlas сообщал о моделях искусственного интеллекта, которые помогают менее опытным врачам выявлять предвестники рака толстой кишки, диагностировать детский аутизм по изображениям глаз и предсказывать в режиме реального времени, удалил ли хирург все раковые ткани во время операции по удалению рака молочной железы. Но Med-Gemini — это нечто другое.

Модели Google Gemini представляют собой новое поколение мультимодальных моделей искусственного интеллекта, что означает, что они могут обрабатывать информацию из различных источников, включая текст, изображения, видео и аудио. Модели хорошо владеют языком и разговорной речью, понимают разнообразную информацию, которой их обучают, и то, что называется «логикой в широком контексте», или рассуждениями на основе больших объемов данных, таких как часы видео или десятки часов аудио.

Med-Gemini обладает всеми преимуществами базовых моделей Gemini, но они были доработаны. Исследователи протестировали эти усовершенствования, ориентированные на медицину, и включили их результаты в статью. В 58-страничном документе много интересного; мы выбрали наиболее впечатляющие фрагменты.

Возможности самообучения и поиска в Интернете

Для постановки диагноза и составления плана лечения врачам необходимо объединить свои собственные медицинские знания с большим количеством другой важной информации: симптомами пациента, медицинским, хирургическим и социальным анамнезом, результатами лабораторных исследований и других исследовательских тестов, а также реакцией пациента на предшествующее лечение. Методы лечения — это «подвижный праздник», когда существующие методы обновляются, а новые вводятся в действие. Все это влияет на клинические рассуждения врача.

Именно поэтому в Med-Gemini Google включил доступ к веб-поиску, чтобы обеспечить более продвинутые клинические рассуждения. Как и многие другие крупные языковые модели (LLM), ориентированные на медицину, Med-Gemini прошла обучение по MedQA — вопросам с множественным выбором, которые представляют собой вопросы для экзамена на получение медицинской лицензии в США (USMLE), предназначенные для проверки медицинских знаний и рассуждений в различных ситуациях.

Как работают инструменты самообучения и веб-поиска в Med-GeminiSaab и др.

Однако Google также разработала два новых набора данных для своей модели. Первый, MedQA-R (Reasoning), расширяет MedQA с помощью синтетически сгенерированных логических объяснений, называемых «Цепочкой мыслей» (CoTs). Второй, MedQA-RS (Рассуждение и поиск), предоставляет модели инструкции по использованию результатов веб-поиска в качестве дополнительного контекста для повышения точности ответа. Если медицинский вопрос приводит к неопределенному ответу, модели предлагается выполнить поиск в Интернете для получения дополнительной информации, позволяющей устранить неопределенность.

Med-Gemini был протестирован на 14 медицинских тестах и показал новые современные характеристики (SoTA) на 10, превзойдя семейство моделей GPT-4 по всем показателям, с которыми можно было провести сравнение. В тестовом тесте MedQA (USMLE) Med-Gemini достигла точности в 91,1%, используя свою стратегию поиска с учетом неопределенности, опередив предыдущую медицинскую программу Google LLM, Med-PaLM 2, на 4,5%.

По семи мультимодальным критериям, включая Медицинский журнал Новой Англии (NEJM) image challenge (изображения сложных клинических случаев, на основании которых ставится диагноз из списка из 10), Med-Gemini показал лучшие результаты, чем GPT-4, со средним относительным отрывом в 44,5%.

“Несмотря на то, что результаты… многообещающие, необходимы значительные дальнейшие исследования”, — заявили исследователи. “Например, мы не рассматривали возможность ограничения результатов поиска более авторитетными медицинскими источниками, использования мультимодального поиска или проведения анализа точности и релевантности результатов поиска, а также качества цитат. Кроме того, еще предстоит выяснить, можно ли научить более мелкие магистратуры также пользоваться веб-поиском. Мы оставляем эти исследования для будущей работы”.

Поиск конкретной информации из длинных электронных медицинских карт

Электронные медицинские карты (EHR) могут быть объемными, но врачи должны знать, что в них содержится. Еще больше усложняет ситуацию то, что они обычно содержат текстовые сходства (“сахарный диабет” и “диабетическая нефропатия”), орфографические ошибки, сокращения (“Rx” и “рецепт”) и синонимы (“нарушение мозгового кровообращения” и “инсульт”). – вещи, которые могут представлять угрозу для искусственного интеллекта.

Чтобы проверить способность Med-Gemini понимать медицинскую информацию в широком контексте и делать выводы на ее основе, исследователи выполнили так называемую «задачу поиска иголки в стоге сена», используя большую общедоступную базу данных Medical Information Mart для интенсивной терапии или MIMIC-III, содержащую неидентифицированные данные о состоянии здоровья. данные о пациентах, поступивших в отделение интенсивной терапии.

Цель модели состояла в том, чтобы найти соответствующее упоминание о редком и малозаметном заболевании, симптоме или процедуре («игла») из большой коллекции клинических заметок в EHR («стог сена»).

Было отобрано двести примеров, и каждый пример состоял из коллекции неидентифицированных записей о состоянии здоровья 44 пациентов отделения интенсивной терапии с длительной историей болезни. Они должны были соответствовать следующим критериям:

  • Более 100 медицинских заметок, объем каждой из которых составляет от 200 000 до 700 000 слов
  • В каждом примере заболевание упоминалось только один раз
  • В каждом примере было указано одно заболевание, представляющее интерес

Задача «найти иголку в стоге сена» состояла из двух этапов. Во-первых, Med-Gemini должна была извлечь все упоминания о конкретной медицинской проблеме из обширных записей. Во-вторых, модель должна была оценить значимость всех упоминаний, классифицировать их и сделать вывод о том, были ли у пациента в анамнезе подобные проблемы, предоставив четкое обоснование для их решения.

Пример возможностей Med-Gemini в долгосрочном контексте: Сааб и др.

По сравнению с методом SoTA, Med-Gemini хорошо справился с задачей поиска иголки в стоге сена. Он получил оценку 0,77 по точности по сравнению с методом SoTA (0,85) и превзошел метод SoTA по отзыву: 0,76 против 0,73.

“Пожалуй, наиболее примечательным аспектом Med-Gemini являются возможности обработки данных в долгосрочном контексте, поскольку они открывают новые горизонты производительности и новые, ранее неосуществимые возможности применения для медицинских систем искусственного интеллекта”, — говорят исследователи. “Эта задача поиска «иголки в стоге сена» отражает реальную проблему, с которой сталкиваются клиницисты, а производительность Med-Gemini-M 1.5 демонстрирует ее потенциал для значительного снижения когнитивной нагрузки и расширения возможностей клиницистов за счет эффективного извлечения и анализа информации из огромных массивов данных о пациентах”.

Чтобы ознакомиться с простым для понимания обсуждением этих ключевых моментов исследования и обновленной информацией о противостоянии Google и Microsoft, посмотрите видео с объяснениями в области искусственного интеллекта, начиная с 13:38.

Новая модель OpenAI «Неизбежна», и ставки на искусственный интеллект будут повышены (плюс Med Gemini, чат-бот GPT 2 и Scale AI)

Беседы с Med-Gemini

В ходе теста на полезность в реальных условиях один из пользователей-пациентов задал Med-Gemini вопрос о зудящей коже. Попросив предоставить изображение, модель задала соответствующие дополнительные вопросы и правильно диагностировала редкое поражение, рекомендовав пользователю, что делать дальше.

Пример диагностического диалога Med-Gemini в дерматологической клинике Сааб и др.

Med-Gemini также попросили интерпретировать рентгеновский снимок грудной клетки для врача, пока они ожидали официального заключения рентгенолога, и сформулировать простую версию отчета на английском языке, которую можно было бы предоставить пациенту.

Med-Gemini поддерживает диагностический диалог в радиологических установкахsaab и др.

“Возможности мультимодального диалога в Med-Gemini-M 1.5 являются многообещающими, поскольку они реализуются без какой-либо специальной настройки медицинского диалога”, — говорят исследователи. “Такие возможности обеспечивают беспрепятственное и естественное взаимодействие между людьми, врачами и системами искусственного интеллекта”.

Однако исследователи признают, что необходима дальнейшая работа.

“Эта возможность обладает значительным потенциалом для полезного применения в реальных условиях, включая оказание помощи клиницистам и пациентам, но, конечно, также сопряжена с весьма значительными рисками”, — сказали они. “Несмотря на то, что мы подчеркиваем потенциал будущих исследований в этой области, в этой работе мы не проводили строгого сравнительного анализа возможностей клинической беседы, которые ранее были изучены другими специалистами в рамках специальных исследований в области разговорного диагностического ИИ”.

Видение будущего

Что делать дальше? Исследователи признают, что предстоит проделать гораздо больше работы, но первоначальные возможности модели Med-Gemini, безусловно, многообещающие. Важно отметить, что они планируют внедрять принципы ответственного ИИ, включая конфиденциальность и справедливость, на протяжении всего процесса разработки модели.

“Соображения конфиденциальности, в частности, должны основываться на существующей политике здравоохранения и нормативных актах, регулирующих и защищающих информацию о пациентах”, — заявили исследователи. “Справедливость — это еще одна область, которая может потребовать внимания, поскольку существует риск того, что системы искусственного интеллекта в здравоохранении могут непреднамеренно отражать или усиливать исторические предубеждения и неравенство, что потенциально может привести к несоответствию характеристик моделей и пагубным последствиям для маргинализированных групп”.

Но, в конечном счете, Med-Gemini рассматривается как инструмент во благо.

“Большие мультимодальные языковые модели открывают новую эру возможностей для здравоохранения и медицины”, — говорят исследователи. “Возможности, продемонстрированные Gemini и Med-Gemini, предполагают значительный скачок вперед в плане глубины и широты возможностей для ускорения биомедицинских открытий и оказания помощи в оказании медицинской помощи. Однако крайне важно, чтобы усовершенствование возможностей моделей сопровождалось пристальным вниманием к надежности и безопасности этих систем. Уделяя приоритетное внимание обоим аспектам, мы можем ответственно относиться к будущему, в котором возможности систем искусственного интеллекта станут значимыми и безопасными ускорителями как научного прогресса, так и медицинской помощи”.

С исследованием можно ознакомиться на веб-сайте arXiv, подготовленном к печати.

© «ПостИИ» (postii.ru), перевод на русский язык

+ There are no comments

Add yours