Масс-спектрометрия, мощный инструмент для изучения мельчайших молекул, давно помогает ученым раскрывать тайны, скрытые в растениях, микробах и даже тканях человека. Однако, несмотря на свою силу, этот метод имеет существенное ограничение: сложность интерпретации получаемых данных. Каждый анализ образца порождает сложный «отпечаток», состоящий из пиков и чисел, называемый масс-спектром. Понимание значения каждого такого спектра оставалось серьезной проблемой, особенно по мере накопления огромных объемов данных. Теперь эту задачу помогает решить искусственный интеллект.
Команда ученых под руководством доктора Томаша Плускала из Института органической химии и биохимии Чешской академии наук (IOCB Prague) совместно с Романом Бушуевым и другими коллегами, включая Антона Бушуева и доктора Йозефа Шивича из Чешского технического университета, а также Рамана Самусевича из IOCB Prague, создала новую модель искусственного интеллекта под названием DreaMS (Deep Representations Empowering the Annotation of Mass Spectra). Эта система способна выявлять структуру молекул из необработанных спектральных данных быстрее и точнее, чем предыдущие методы. Их работа, опубликованная в журнале Nature Biotechnology, представляет собой значительный шаг вперед в расшифровке скрытого языка химии природы.
Модель DreaMS обучалась с использованием метода самоконтролируемого обучения. Она изучила более 700 миллионов необработанных масс-спектров из репозитория GNPS, который содержит данные, собранные из образцов окружающей среды и биологических материалов со всего мира. Не имея информации о значении какого-либо конкретного спектра, модель научилась выявлять закономерности, сходства и скрытые особенности в данных.
Доктор Йозеф Шивич, один из исследователей, сравнивает этот процесс с тем, как языковые модели, подобные ChatGPT, учатся понимать текст. Он говорит, что ChatGPT может выводить значение слов и связи между ними из больших объемов текста, а DreaMS аналогичным образом учится распознавать, какие молекулярные структуры скрыты в спектрах, опираясь на данные из миллионов примеров.
Несмотря на десятилетия исследований, ученые предполагают, что открыто менее 10% существующих в природе малых молекул. Это означает, что большая часть химического разнообразия мира остается неисследованной. Эти неизвестные молекулы могут стать ключом к прорывам в медицине, обеспечении экологической безопасности и даже к нашему пониманию жизни за пределами Земли.
Основная проблема заключается не в способности собирать данные, а в трудностях их анализа. При работе масс-спектрометра генерируются два типа данных: MS1, дающий общий обзор присутствующих молекул, и MS2, который детализирует фрагменты конкретной молекулы. Именно спектры MS2 содержат ключевые подсказки к идентификации молекулы, но лишь около 2% из них удается сопоставить с известными структурами с помощью справочных библиотек. Даже передовые инструменты машинного обучения не могут уверенно аннотировать более 10% спектров.
Предыдущие инструменты сильно зависели от ограниченных спектральных библиотек или ручной интерпретации экспертами. Например, известное программное обеспечение SIRIUS использует сложные этапы, включающие комбинаторику, оптимизацию и машины опорных векторов, для предположения молекулярного «отпечатка». Хотя оно работает хорошо, оно все еще зависит от правил, разработанных вручную, и курируемых данных, что замедляет процесс и ограничивает его охват. DreaMS, напротив, обходит большинство этих этапов. Модель учится непосредственно на необработанных данных, не нуждаясь в разработанных человеком «коротких путях» или аннотированных обучающих наборах. Она предсказывает замаскированные пики в спектрах и оценивает, когда определенные химические вещества появятся во время хроматографического разделения. В ходе этого процесса DreaMS строит 1024-мерное математическое представление каждого спектра, которое фиксирует подробную информацию о молекулярной структуре.
Одним из наиболее впечатляющих результатов этого проекта является DreaMS Atlas. Это огромная взаимосвязанная сеть, объединяющая более 200 миллионов масс-спектров. Каждый спектр в этой сети подобен веб-странице в обширном интернете. Подобно тому, как веб-сайты связаны гиперссылками, спектры в DreaMS Atlas соединены на основе химического сходства.
Доктор Плускал объясняет, что эта сеть помогает ученым исследовать связи, которые они никогда раньше не замечали. Например, DreaMS обнаружила неожиданные связи между пестицидами, продуктами питания и кожей человека. Это даже заставило исследователей задуматься, могут ли определенные пестициды вызывать аутоиммунные заболевания, такие как псориаз. Подобные выводы было практически невозможно сделать ранее.
Модель не просто теоретическая разработка; она уже помогает в решении реальных задач. Она может предполагать, какие химические элементы присутствуют в молекуле, сколько у нее фрагментов и даже содержит ли она специфические атомы, например, фтор. Последняя задача оказалась особенно удивительной.
Роман Бушуев сообщает, что фтор присутствует примерно в трети всех лекарств и агрохимикатов, но ранее его не могли надежно обнаружить по масс-спектру. После обучения DreaMS на миллионах спектров и дообучения всего на нескольких тысячах фторсодержащих образцов модель научилась правильно идентифицировать фтор.
DreaMS представляет собой поворотный момент в использовании машинного обучения в химии. Вместо того чтобы полагаться на небольшие наборы данных или медленные, основанные на правилах инструменты, исследователи теперь имеют фундаментальную модель, способную адаптироваться к множеству различных задач. Она работает с различными типами данных и экспериментальными условиями, что делает ее достаточно гибкой для использования в таких областях, как разработка лекарств, экология и даже поиск жизни за пределами Земли.
Особенно захватывающим DreaMS делает ее потенциал для дальнейшего развития. Исследователи сейчас работают над следующим шагом: обучением модели предсказанию полных молекулярных структур. В случае успеха это могло бы значительно ускорить открытие новых химических веществ и позволить ученым с гораздо большей точностью ориентироваться в неизвестных областях химического мира.
Эта работа также демонстрирует мощь самоконтролируемого обучения в науке. Позволяя моделям изучать закономерности из необработанных данных без человеческой разметки, исследователи могут раскрывать скрытые взаимосвязи и идеи, которые ранее были недоступны.
Доктор Плускал отмечает, что модель была обучена на десятках миллионов спектров из разнообразных организмов и сред — образцов растений, микробов, пищи, тканей и почвы. Благодаря этому она может выявлять скрытые сходства между спектрами, которые на первый взгляд кажутся несвязанными. Для ученых, стремящихся лучше понять строительные блоки жизни, DreaMS предлагает новый путь вперед, основанный не на догадках, а на глубоком анализе данных и более умных машинах.