Мир, в котором поведение живых организмов можно предсказывать, анализируя последовательность букв, перестает быть научной фантастикой и становится реальностью благодаря усилиям ученых. Генетические последовательности, состоящие из четырех нуклеотидов (A, T, C и G), содержат фундаментальные инструкции для жизни на Земле. Расшифровка этих последовательностей открывает путь к пониманию сложных биологических процессов, что может привести к революционным изменениям в персонализированной медицине и обеспечении экологической устойчивости.
Несмотря на огромный потенциал, расшифровка даже самых простых микробных геномов – чрезвычайно сложная задача. Геномы состоят из миллионов пар оснований ДНК, которые регулируют взаимодействие между ДНК, РНК и белками – тремя ключевыми элементами центральной догмы молекулярной биологии. Эта сложность проявляется на разных уровнях, от отдельных молекул до целых геномов, создавая обширное поле генетической информации, эволюционировавшей на протяжении миллиардов лет.
Традиционные вычислительные инструменты не справлялись со сложностью биологических последовательностей. Однако с развитием генеративного искусственного интеллекта появилась возможность масштабироваться до триллионов последовательностей и понимать сложные взаимосвязи между ними. Исследователи из Arc Institute, Стэнфордского университета и NVIDIA работают над созданием системы искусственного интеллекта, способной понимать биологические последовательности так же, как большие языковые модели понимают человеческий текст. Недавно они совершили прорыв, создав модель, которая учитывает как мультимодальную природу центральной догмы, так и сложности эволюции. Эта инновация может привести к прогнозированию и разработке новых биологических последовательностей, от отдельных молекул до целых геномов.
В конце 2024 года NVIDIA и ее партнеры представили Evo 1, революционную модель для анализа и генерации биологических последовательностей ДНК, РНК и белков. Модель, обученная на 2,7 миллионах геномов прокариот и фагов, содержащих в общей сложности 300 миллиардов нуклеотидных токенов, была сосредоточена на интеграции центральной догмы молекулярной биологии, моделируя поток генетической информации от ДНК к РНК и белкам. Архитектура StripedHyena, гибридная модель, использующая сверточные фильтры и вентили, эффективно обрабатывала длинные контексты до 131 072 токенов. Эта конструкция позволила Evo 1 связать небольшие изменения последовательности с более широкими системными эффектами на уровне организма, устраняя разрыв между молекулярной биологией и эволюционной геномикой.
Evo 1 стал первым шагом в вычислительном моделировании биологической эволюции. Модель успешно предсказывала молекулярные взаимодействия и генетические вариации, анализируя эволюционные паттерны в генетических последовательностях. Однако, когда ученые попытались применить ее к более сложным эукариотическим геномам, стали очевидны ограничения модели. Evo 1 испытывала трудности с разрешением отдельных нуклеотидов на длинных последовательностях ДНК и была вычислительно дорогой для больших геномов. Эти проблемы привели к необходимости создания более продвинутой модели, способной интегрировать биологические данные в разных масштабах.
Основываясь на уроках, извлеченных из Evo 1, исследователи запустили Evo 2 в феврале 2025 года, продвигая область моделирования биологических последовательностей. Модель, обученная на 9,3 триллионах пар оснований ДНК, научилась понимать и предсказывать функциональные последствия генетических вариаций во всех областях жизни, включая бактерии, археи, растения, грибы и животных. Модель Evo 2, содержащая более 40 миллиардов параметров, может обрабатывать беспрецедентную длину последовательности до 1 миллиона пар оснований, что было недоступно предыдущим моделям, включая Evo 1.
Evo 2 отличается от своих предшественников способностью моделировать не только последовательности ДНК, но и взаимодействия между ДНК, РНК и белками – всю центральную догму молекулярной биологии. Это позволяет Evo 2 точно предсказывать влияние генетических мутаций, от мельчайших изменений нуклеотидов до более крупных структурных вариаций, способами, которые ранее были невозможны.
Ключевой особенностью Evo 2 является ее способность к прогнозированию «с нуля», которая позволяет ей предсказывать функциональные эффекты мутаций без необходимости тонкой настройки для конкретной задачи. Например, она точно классифицирует клинически значимые варианты BRCA1, важного фактора в исследованиях рака молочной железы, анализируя только последовательности ДНК.
Возможности Evo 2 открывают новые горизонты в геномике, молекулярной биологии и биотехнологии. К наиболее перспективным областям применения относятся: здравоохранение и разработка лекарств (Evo 2 может предсказывать, какие варианты генов связаны с конкретными заболеваниями, помогая в разработке таргетной терапии; например, в тестах с вариантами гена BRCA1, связанного с раком молочной железы, Evo 2 достигла более 90% точности в прогнозировании того, какие мутации являются доброкачественными, а какие – потенциально патогенными), синтетическая биология и генная инженерия (способность Evo 2 генерировать целые геномы открывает новые возможности в разработке синтетических организмов с желаемыми признаками), сельскохозяйственная биотехнология (модель можно использовать для разработки генетически модифицированных культур с улучшенными характеристиками, такими как устойчивость к засухе или вредителям), наука об окружающей среде (Evo 2 можно применять для разработки биотоплива или создания белков, которые расщепляют загрязнители окружающей среды, такие как нефть или пластик).
Несмотря на впечатляющие возможности, Evo 2 сталкивается с проблемами. Одним из ключевых препятствий является вычислительная сложность, связанная с обучением и запуском модели. С окном контекста в 1 миллион пар оснований и 40 миллиардами параметров Evo 2 требует значительных вычислительных ресурсов для эффективной работы. Это затрудняет полноценное использование ее потенциала небольшими исследовательскими группами без доступа к высокопроизводительной вычислительной инфраструктуре.
Кроме того, хотя Evo 2 превосходно предсказывает эффекты генетических мутаций, еще многое предстоит узнать о том, как использовать ее для разработки новых биологических систем с нуля. Генерация реалистичных биологических последовательностей – это только первый шаг; настоящая проблема заключается в понимании того, как использовать эту силу для создания функциональных, устойчивых биологических систем.
Одним из наиболее интересных аспектов Evo 2 является ее доступность с открытым исходным кодом. Чтобы демократизировать доступ к передовым инструментам геномного моделирования, NVIDIA сделала параметры модели, код обучения и наборы данных общедоступными. Этот подход с открытым доступом позволяет исследователям со всего мира изучать и расширять возможности Evo 2, ускоряя инновации в научном сообществе.
Evo 2 – значительный шаг вперед в геномном моделировании, использующий искусственный интеллект для расшифровки сложного генетического языка жизни. Способность моделировать последовательности ДНК и их взаимодействие с РНК и белками открывает новые возможности в здравоохранении, разработке лекарств, синтетической биологии и науке об окружающей среде. Evo 2 может предсказывать генетические мутации и разрабатывать новые биологические последовательности, предлагая преобразующий потенциал для персонализированной медицины и устойчивых решений. Однако ее вычислительная сложность создает проблемы, особенно для небольших исследовательских групп. Предоставляя Evo 2 с открытым исходным кодом, NVIDIA дает возможность исследователям во всем мире изучать и расширять ее возможности, стимулируя инновации в геномике и биотехнологии. По мере развития технологий она может изменить будущее биологических наук и экологической устойчивости.