Как языковые модели покорили мир белков

07 марта 2024

Спецпроект: ИИ в биологии

Как языковые модели покорили мир белков

2801
0,6
1
18

Добавить в избранное

Каждый слышал про машинное обучение, но не каждый знает, что белки и другие биомолекулы очень даже пригодны для создания разного рода моделей. Искусственный интеллект уже проникает на наноуровень и оказывается полезен и там!

Рисунок в оригинальном разрешении.

*иллюстрация Анастасии Самоукиной*

Темы

На фоне конкуренции между Microsoft, Google, Meta, Amazon и другими техногигантами за звание обладателя лучшего чат-бота, достижения аналогичных моделей в биохимии и структурной биологии остаются слегка за кадром. А успехи есть, и еще какие! В этой статье спецпроекта «Искусственный интеллект в биологии» «Биомолекула» постарается исправить несправедливость и расскажет, как работают «большие языковые модели» на последовательностях биомолекул и к чему их можно применить в биологии. Мы также обсудим аналогии между биополимерами и привычными нам текстами, которые позволяют применять языковые модели к белкам и ДНК. Не забудем поговорить и про нашумевший AlphaFold — причем будем его не только хвалить! Ну и как всегда, поделимся кейсами, которые уже меняют структурную и другие области биологии.

Искусственный интеллект в биологии

Развитие искусственного интеллекта в последнее десятилетие столь стремительно, что любые новости о нем устаревают вскоре после публикации. ИИ уже вышел за свои традиционные рамки (область информационных технологий) и вошел в другие сферы — например, научные исследования. В нашем спецпроекте мы хотим рассказать о достижениях ИИ в области современной (то есть молекулярной) биологии.

Партнер спецпроекта — научно-исследовательский Институт искусственного интеллекта AIRI: автономная некоммерческая организация, объединяющая ученых и инженеров данных. Миссия AIRI — создание универсальных систем ИИ, решающих задачи реального мира. AIRI активно развивает партнерства между академическим сообществом, промышленностью и образовательными организациями с целью поиска возможностей применения ИИ для решения сложных научных, социальных и экономических задач. Институт проводит профильные конференции и мероприятия, включая самую крупную в РФ летнюю школу по искусственному интеллекту для студентов, аспирантов и молодых исследователей «Лето с AIRI».

На волне популярности совсем еще молодого ChatGPT — чат-бота от компании OpenAI, основанного на большой языковой модели , — мы решили выяснить, можно ли уже наконец отложить все справочники по биохимии (да и прочим наукам) и просто узнать всё у бота. Ведь эта модель уже «прочитала» всё, что только можно было прочитать, а значит, может знать ответы и на наши вопросы. Увы, наш небольшой эксперимент показал, что по крайней мере на данный момент это не так (рис. 1). Пока что, отвечая даже на самые простые вопросы, ChatGPT далеко не всегда дает осмысленные ответы. На попытку узнать что-то о функции белка по его последовательности чат-бот смог выдать лишь очень краткую и общую справку о возможных функциях белков (рис. 1Г и Д).

Мы будем использовать аббревиатуру LLM для больших языковых моделей, однако за некоторыми терминами и сокращениями отсылаем читателей к первой статье спецпроекта: «История развития искусственного интеллекта и его пришествия в биологию» и содержащемуся там глоссарию [1]. Приведем небольшой словарик и здесь.

Глоссарий

Некоторые определения мы уже давали в словарике к первой статье (обязательно с ним ознакомьтесь), но здесь мы «заточим» их под ИИ-модели, построенные на анализе последовательностей белков.

Большая языковая модель (она же LLM или БЯМ) —: модель машинного обучения для работы с текстами. «Большая» она в том смысле, что ее обучают на огромных массивах неаннотированных текстовых данных (например, все статьи «Википедии» или вообще все отобранные тексты из интернета), а сама модель включает миллиарды (!) параметров, обусловливающих «запоминание» большого количества информации. Такие модели умеют генерировать человекоподобный текст, отвечать на вопросы, писать код и т.д. — одним из самых ярких примеров является ChatGPT. Подобные модели часто называют базовыми (foundation model).
Белковая языковая модель (PLM) —: большая языковая модель, обученная вместо человеческих текстов на последовательностях белков [2]. Как правило, это миллионы последовательностей из баз Uniprot, UniParc, UniRef, а иногда и более миллиарда из таких баз, как Big “Fantastic” Dataset. Такие нейросети приобретают способность выявлять в последовательностях белков эволюционную и структурную информацию — в этой статье мы много про них рассказываем.
Эмбеддинг —: численное представление текстовых данных, а также процесс получения такого представления (например, векторизация). Так как модели машинного обучения обрабатывают числа, а не слова, то эмбеддинги — необходимый элемент любой LLM.
Токен —: минимальный смысловой элемент любой последовательности. В языковых моделях это обычно слово или его часть, в белковых моделях — аминокислота или нуклеотид.
Перенос обучения —: техника обучения модели, при которой большие «общие» модели, обученные на огромных объемах данных, дообучиваются на более специализированных выборках, объем которых может быть уже существенно меньше. Например, можно взять графическую модель, обученную классифицировать изображения, и переобучить ее классифицировать героев Симпсонов. При этом не нужно обновлять веса всей модели, можно просто изменить несколько последних слоев. Применительно к нашей теме с помощью «переноса» обучена, например, нейросеть для предсказания структуры белков ESMFold — на базе более общей модели ESM2.
Множественное выравнивание последовательностей (MSA) —: выравнивание трех и более последовательностей белков, РНК или ДНК. Это биоинформатический метод, с помощью которого можно разместить последовательности друг под другом так, чтобы увидеть схожие участки.
AlphaFold / AlphaFold2 —: семейство моделей машинного обучения от компании DeepMind (ныне — научное подразделение Google) для предсказания структур белков из их последовательностей. Главное отличие второй версии от первой — предсказание структуры белка в один этап. Обе модели начинают свое предсказание с MSA (и опционально — с набора родственных белковых структур), однако главный результат AF1 — это «дистограмма» (матрица распределений попарных расстояний между аминокислотными остатками), которую еще нужно превратить в пространственную модель с помощью процедур, напоминающих молекулярную динамику или метод Монте Карло; а AF2 выдает непосредственно пространственную структуру (в таких случаях говорят об end-to-end модели). Так как AF2 оказалась существенно мощнее первой версии, обычно под AlphaFold имеют в виду именно ее. Ближе к концу этой статьи мы обсуждаем архитектуру AF2 более подробно.
Модели ESM —: семейство PLM от компании Meta . Это огромные модели, основанные на механизме внимания и обученные на максимально широкой выборке доступных нам белковых последовательностей. За счет гигантского размера моделей они «запоминают» множество закономерностей «белкового языка», которые можно применить к любым последовательностям. Это позволяет использовать модели ESM в том числе и для того, чтобы делать непрямое множественное выравнивание и даже предсказывать структуры белков: с последней задачей успешно справляется «надстройка» над базовой моделью ESM2 — ESMFold (далее мы обсудим ее устройство подробнее).
Critical Assessment for protein Structure Prediction (CASP) —: слепое «соревнование» по предсказанию структур белков. Идея — оценить достижения вычислительных методов на свежих 3D-структурах, доступных организаторам, но никому кроме них в сообществе — для этого их специально выкладывают в базу данных PDB с задержкой на время проведения соревнования. Участникам предоставляют только последовательности белков, и от них требуется в течение определенного времени обнародовать свои предсказания. Далее организаторы сравнивают предсказания с реальными структурами и определяют, кто победил. Отсутствие доступа к структурам не позволяет «подогнать» поведение модели под конкретные структуры, что делает CASP самой честной проверкой вычислительных методов предсказания структур. Участники соревнуются в различных дисциплинах: предсказание мономеров белка, четвертичной структуры, РНК — и многих других. Некоторые дисциплины исчезли с появлением высококачественных моделей для фолдинга: например, оценка качества уже предсказанной структуры или предсказание матриц контактов аминокислот в белке. А во время пандемии коронавируса в CASP была отдельная дисциплина, посвященная предсказанию его белков.
Обратный фолдинг —: предсказание последовательности макромолекулы по ее структуре. Несмотря на эту, казалось бы, невнятную формулировку, обратный фолдинг может лежать в основе белкового дизайна — невероятно многообещающей области вычислительной биохимии, о которой мы поговорим в следующей статье спецпроекта.

Упомянутая в статье компания Meta признана экстремистской организацией.

Рисунок 1А. Вопрос к чату GPT: каков коэффициент распределения вода/октанол для терпеноидного спирта линалоола? Экспериментально измеренное значение коэффициента logP составляет 3,19, а чат-бот выдал 3,2 — довольно точно!

Рисунок 1Б. Вопрос к чату GPT: каков коэффициент распределения вода/октанол для бициклического терпеноидного кетона камфоры? Экспериментальное значение logP 2,74, а по мнению чата GPT это 1,69 — сомнительно, но ок...

**Рисунок 1В. Вопрос к чату GPT: записать химическую формулу гептана в SMILES-нотации.** Увы, неверно! В гептане семь углеродов, а не 8.

Рисунок 1Г. Вопрос к чату GPT: какую функцию выполняет белок с заданной последовательностью? (И даем ему последовательность циклин-зависимой киназы CDK7.) Нууу, такое: одни общие слова. А между тем, это важнейший регулятор клеточного цикла [3]!

**Рисунок 1Д. Вопрос к чату GPT: какую функцию выполняет белок CDK7? (Тут мы уже явно указали имя белка.)** Результат куда лучше — ну да, ему же не пришлось сопоставлять последовательность с именем белка, достаточно было просто «вспомнить», что про такие белки написано в «Википедии».

Конечно, мы далеко не первыми решили проэкзаменовать ChatGPT: ученые проводили гораздо более системные и вдумчивые проверки [4]. Однако выводы коллег были очень похожи на наши: ChatGPT пока не готов тягаться с экспертами. Некоторые ученые решили исправить этот недочет. Они научили ChatGPT спрашивать совет у специальных программ, которые предсказывают свойства биомолекул, и он прошел экзамен с куда бóльшим успехом. Кроме того, ученые использовали возможности ChatGPT для написания кода новых программ и пайплайнов вычислительной химии и биологии [5].

Конечно, подобным применением чатботов использование LLM в биофизике и смежных областях не исчерпывается. В этой статье мы подробно расскажем, почему LLM могут снискать успех в химии и биологии; как с помощью языковых моделей можно предсказывать структуры белков (и даже дизайнить новые!), какие еще свойства биомолекул можно рассчитывать с помощью LLM, а также обсудим некоторые недостатки языковых и других ML-моделей на примере нашумевшей AlphaFold .

Ну а если вы ничего не слышали про AlphaFold, то вам обязательно надо начать с первой статьи спецпроекта: «История развития искусственного интеллекта и его пришествия в биологию» [1] и других публикаций «Биомолекулы» [6], [7].

Чтобы лучше понимать материал, мы будем объяснять важные для LLM в биохимическом моделировании понятия и идеи во врезках (первая из них расскажет, зачем и как представлять слова как векторы). Если материал во врезках кажется вам знакомым, вы можете их безболезненно пропускать. Однако если встречающиеся термины вызовут дискомфорт, мы рекомендуем обратиться к первой статье цикла, где рассказывается про основные вехи развития машинного обучения. Также там есть достаточно подробный глоссарий, который позволит лучше ориентироваться в используемых терминах.

Слова как векторы и что такое NLP

В первой статье спецпроекта «ИИ в биологии» мы уже говорили, что модели машинного обучения работают с наборами чисел — векторами и матрицами. В случае графических моделей, созданных для обработки изображений (например, их классификации или распознавания объектов), получить эти числа легко: изображение — это же просто матрица пикселей одинакового размера, каждый из которых окрашен в свой цвет (три или четыре числа — в зависимости от цветовой модели). Вероятно, именно поэтому графические модели машинного интеллекта появились раньше прочих.

Текст и язык принципиально отличаются от изображений. Стандартного и интуитивно понятного численного представления у текста нет. Как же быть? Пусть у нас есть множество (или корпус) текстов, которые мы хотим использовать для обучения модели. Сначала найдем все (ну, или почти все) уникальные слова в этом корпусе и составим из них словарь — набор уникальных слов, или токенов. Дальше мы закодируем каждое слово из словаря уникальным набором из нулей и единиц так, чтобы в каждом наборе была ровно одна единица. Например, словарь из трех слов «мама», «папа» и «семья», мы представим как три набора чисел: (0, 0, 1), (0, 1, 0) и (1, 0, 0). Вроде всё просто! — такой способ кодирования называется one-hot кодированием (или унитарным кодом). Он использовался во многих ранних языковых моделях, но их результаты были очень далеки от тех, что демонстрируют сегодняшние LLM .

Конечно, способом представления слов в виде векторов различия между современными и историческими алгоритмами не исчерпываются. Тем не менее, прогресс в методах «векторизации» слов внес большой вклад в успех современных LLM.

У one-hot кодирования есть очень заметный недостаток. Давайте внимательно посмотрим на два предложения:

Он видел в окне, как играют дети.
У врача не было окна в понедельник, поэтому я записался на прием во вторник.

В обоих предложениях есть слово окно, но в первом случае оно означает реальное окно в доме, а во втором — промежуток времени. Мы можем легко уловить эту разницу, но для языковых моделей разделение одинаковых слов по смыслу — достаточно сложная задача. Поэтому вместо one-hot кодирования современные модели используют технологию векторизации (представления слова в виде набора чисел), которую называют эмбеддинг .

Здесь важно сделать оговорку, что эмбеддинг — это одновременно и процесс превращения слова в вектор, и полученный вектор. В дальнейшем мы будем использовать этот термин в обоих значениях.

Чтобы разобраться, как получают эмбеддинги, давайте попробуем понять, что позволило нам различить значения слова окно в примере выше? А помог нам контекст — слова, которые находятся в непосредственной близости от слова окно. Он подсказал, какое из значений интересующего нас слова подразумевается. Именно эту идею — учет контекста для векторизации слов — используют разработчики более современных языковых моделей.

Ученые начали с подсчета, как часто пары слов встречаются вместе в обучающей выборке. В результате получалась большая таблица «совстречаемости» размером N⨉N, где N — число слов в словаре. В каждой клеточке такой таблицы записана вероятность встретить два слова из обучающей выборки недалеко друг от друга. Чтобы учесть контекст слова в его эмбеддинге, можно включить в него эмбеддинги соседних слов. При этом мы хотим, чтобы часто встречающиеся вместе слова сильно влияли на эмбеддинги друг друга, а редко встречающиеся — слабо: так можно учесть контекст. Самый простой способ добиться такого поведения — скомбинировать one-hot эмбеддинги нашего слова и его соседей, «взвешенные» на частоту совстречаемости.

Статистические модели, основанные на таком подходе, позволяют не только классифицировать или описывать текст, но и сгенерировать его (вот пример генератора текстов на этом принципе). Хотя полученные тексты и не выглядят полностью осмысленными, их отдельные предложения почти неотличимы от тех, что мы используем в речи.

Но такой статистический подход не решил всех проблем. Помимо неспособности «запоминать», что было сказано в тексте несколько предложений назад, матрицы совстречаемости не позволяли восстанавливать семантическую связь между словами. Объясним, что такое семантическая связь, на классическом примере. Как связаны между собой эти четыре слова: «король», «королева», «мужчина» и «женщина»? Нам интуитивно понятно, что король и королева — это мужчина и женщина в королевском статусе. Поэтому «условная» разница между королем и королевой для нас такая же, как и разница между мужчиной и женщиной (рис. 2). И мы, конечно, хотим, чтобы эмбеддинги этих четырех слов сохраняли эту семантическую связь. Добиться этого позволили модели word2vec (рис. 2).

Рисунок 2. Модель word2vec.

Сверху: устройство модели. Основная идея — учет контекста, только тут не просто используется статистика совстречаемости, а эмбеддинги оптимизируются так, чтобы можно было из контекста восстановить слово (метод CBOW) или, наоборот, из слова восстановить контекст (метод skip-gram). При обучении word2vec разработчики сначала разбивали большой корпус текстов на короткие участки, определяющие контекст, и модель (в случае CBOW) тренировали восстанавливать слово по этому контексту.
Снизу: Как отличить мужчину от женщины? Модель word2vec поможет! Она сохраняет связи не только между четверкой слов «король», «королева», «мужчина» и «женщина», но и позволяет восстановить связь между временными формами слов или между страной и ее столицей. В интернете можно найти множество «калькуляторов» word2vec, которые по тройке слов восстанавливают четвертое.

иллюстрация Анастасии Самоукиной

С момента создания модели word2vec прошло уже больше 10 лет. За это время созданы новые методы кодирования слов. Если вам хочется подробнее разобраться в основах языковых моделей и машинной работы с текстами, мы рекомендуем пройти онлайн (а лучше оффлайн!) курс: их сейчас много. На русском языке основы NLP отлично объяснены в бесплатном курсе от компании Samsung и в более обширном ежегодно обновляемом курсе от DeepLearning School, который читают студенты и выпускники МФТИ. На английском можно воспользоваться ресурсом deeplearning.ai, созданным Эндрю Ыном — известным специалистом в области машинного обучения и сооснователем Coursera; или записаться на курс CS224N от Стэнфордского университета, также снискавший большую популярность.

Хотя бы в конце этой врезке четко скажем, что такое NLP — это обработка естественного языка (от англ. natural language processing): раздел машинного обучения, изучающий проблемы вычислительного анализа и синтеза текстов на естественных языках. (А вовсе не нейролингвистическое программирование, как кто-то мог бы подумать.)

На каком языке с нами общаются молекулы?

Когда мы говорим о языковых моделях в применении к биологии или химии, сразу возникает закономерный вопрос — «А разве биомолекулы умеют разговаривать?». Конечно же, нет! И как же тогда применять LLM для биомолекул? Чтобы дать ответ, нужно вспомнить, какие биомолекулы вообще бывают и как они устроены. Схема главных биологических процессов и общения между молекулами на их «языках» показана на рисунке 3.

**Рисунок 3. Биологические процессы: их герои и языки.** В главных молекулярных процессах внутри клетки есть три основных участника: белки, РНК [8] и ДНК. Bсё это линейные молекулы (биополимеры), состоящие из повторяющихся блоков: белки — из 20 аминокислот; а РНК и ДНК — из 4 нуклеотидов. Ученые договорились называть каждый тип аминокислоты или нуклеотида одной из букв латинского алфавита. Тогда каждой биомолекуле соответствует упорядоченный набор букв — последовательность.

Аминокислотная последовательность также известна как первичная структура белка; она определяет его структуру и функцию. Поэтому на такие последовательности можно смотреть как на тексты, рассказывающие о функции белка. Аминокислоты, точнее обозначающие их буквы — это слова или *токены*. Вот вам и белковый язык. На рисунке мы схематично показали белки зелеными клубками, в баблах передающими нам свои послания.

Белки синтезирует рибосома, после «нанизывания» на мРНК начинающая синтезировать белковую цепочку. «Просканировав» три подряд идущих нуклеотида — *кодон*, — рибосома «пришивает» новую аминокислоту к будущему белку. По сути, она переводит текст с языка РНК на белковый. Правила перевода называются *генетическим кодом*, а процесс синтеза белка на основе РНК — *трансляцией*. Язык РНК очень похож на язык белков, только здесь токены — минимальные смысловые единицы — это нуклеотиды. мРНК мы показали красными нитями, высказывающимися на собственном языке.

ДНК — это огромное хранилище генетической информации, и в силу большого размера непосредственный синтез белков с молекулы ДНК невыгоден. Поэтому существует *транскрипция* — промежуточный шаг синтеза РНК с базе ДНК. Между языками ДНК и РНК нет принципиальной разницы: ключевое отличие лишь в замене одной из букв алфавита, да длине текстов (а значит, и в общем объеме информации). ДНК на рисунке — это желтые двойные спирали, также передающие нам свои послания. Всю полноту передачи информационных сообщений между этими игроками отражает концепция, названная Центральной догмой молекулярной биологии.

Мы пока что не упомянули еще один важный тип молекул — хотя и малых, но активно влияющих на биологические процессы. У них тоже есть свой язык, о котором мы подробнее расскажем во врезке «А как кодировать малые молекулы?». Им тоже есть что добавить в этом шумном «разговоре».

иллюстрация Анастасии Самоукиной

Почему же язык белков, РНК и ДНК подходит для обучения языковых моделей? Дело в том, что моделям нужны лишь численные представления текстов. Откуда эти числа появились — не так важно. По сути, в качестве «текста» может выступать любая последовательность — музыка как набор звуков, фильм как лента из кадров, белок как последовательность аминокислот. Математика, стоящая за LLM, применима ко всем ним. Единственное важное предположение — это наличие связи между контекстом и текущим элементом. В биологии эта связь есть (рис. 4): например, структуры коротких аминокислотных последовательностей определяют структуру всего белка — принцип, лежащий в основе алгоритма моделирования белков Rosetta, о котором мы писали в статье «Конструкторское бюро белков» [9]. А раз главное условие выполнено, значит, LLM можно применить к белкам, РНК и ДНК (и, как позже скажем, к малым молекулам). И такие модели действительно работают!

**Рисунок 4. Аналогия между естественным языком и биологическими языками.** Разные последовательности и разные послания всё равно можно прогонять через похожие по сути LLM.

BioSeq-BLM

В этом месте у читателя может возникнуть вопрос: а если ДНК, РНК и белки так тесно связаны, то зачем нужны отдельные ДНК, РНК или белковые модели? Не проще ли обучать все модели на языке ДНК, например? Дело в том, что для разных задач нам нужны разные данные. Чтобы предсказать структуру белка, мы могли бы использовать последовательность ДНК, но в ней находится слишком много не относящейся к данному белку информации. Выкинув всё лишнее, мы получим только кодирующую наш белок последовательность мРНК. Переведя ее на язык аминокислот, мы уменьшим размер входных данных втрое, а значит, и обучение пойдет быстрее . В этом случае работать с текстом из аминокислот кажется разумнее. Если же мы хотим предсказать функцию участка ДНК по его последовательности , то, напротив, уже последовательность белка не подойдет, ведь этот участок ДНК может просто не кодировать белки. Поэтому — у каждого языка свои преимущества.

Кое-какую информацию мы всё-таки потеряем: недавно ученые посмотрели, есть ли зависимость между структурой аминокислоты и ее кодоном [10]. Оказалось, что есть 😱: распределение двугранных углов, описывающих конформацию аминокислоты, зависит от определяющего кодона. В свете этой информации исследователи задумались о белковых моделях, обученных на языке ДНК [11].

Как раз такую модель, способную определять роль участка ДНК по последовательности, выпустил партнер этого материала — Институт AIRI. Модель назвали Геной (GENA-LM) [12].

А как кодировать малые молекулы?

Главное отличие малых молекул от белков, РНК и ДНК — отсутствие регулярной структуры (ибо это, в отличие от упомянутой троицы, не биополимеры). Они не состоят из повторяющихся блоков, соединенных в длинную последовательность: структура малых молекул более разнообразна, хотя размер и поскромнее. Поэтому язык малых молекул не похож на белковый — но он существует, и к нему тоже можно применять подходы NLP. Самый простой и известный способ представить малые молекулы в виде текста — SMILES (рис. 5).

Рисунок 5. Язык SMILES на примере муравьиной кислоты. Каждому типу атомов сопоставляют букву (углерод — C, кислород — O, водород — H), каждому типу связи — небуквенный символ (одинарная ковалентная связь: «—», двойная: «=», тройная: «#»); есть и другие правила. В результате молекуле будет соответствовать текст [H]-O-C(-[H])(=O). На рисунке изображен последовательный процесс образования этого текста.

иллюстрация Марии Кадуковой

Язык SMILES позволяет компактно закодировать молекулы, и с его помощью тоже можно обучать нейросетевые модели. Так, например, например, компания AstraZeneca выпустила несколько моделей [13], [14] для дизайна малых молекул по их свойствам. Изначально SMILES создавался с прицелом на чтение человеком, а не компьютером, и довольно быстро оказалось, что моделям машинного обучения его грамматику выучить сложно. Поэтому ученые и сейчас разрабатывают новые языки записи малых молекул, удобные и для человека, и для машины [15].

Мы попросили дать небольшой комментарий по применению LLM в хемоинформатике Елену Тутубалину, специализирующуюся на применении ИИ к автоматическому анализу биомедицинских данных — см. следующую врезку.

Проблемы и перспективы применения языковых моделей к химическим структурам

Комментарий «Биомолекуле» дала Елена Тутубалина, д.к.н., научный консультант Института искусственного интеллекта AIRI; старший научный сотрудник КФУ; исполнительный директор по исследованию данных Sber AI.

AIRI

Благодаря передовым исследованиям в области обработки текстов на естественном языке, проведенным с использованием доминирующей архитектуры Трансформер, научное сообщество раскрыло потенциал языкового моделирования в области создания новых молекул. В течение последних пяти лет появились новые модели, такие как ChemBERTa [16], T5Chem [17], ChemFormer [18] и BARTSmiles [19], которые были обучены на представлениях молекул в формате строк. Эти модели проходят предварительное обучение на огромном наборе данных, состоящем из 100 миллионов SMILES из базы данных ZINC-15. Затем они дообучаются на разнообразных задачах, включая генерацию новых молекулярных структур, предсказание химических реакций, прогнозирование биологических и физико-химических свойств.

Сочетание химических и лингвистических знаний в моделях является новым и сложным направлением, которое требует разработки мультимодальных архитектур. В последние пару лет активно развиваются модели, способные обучаться и оцениваться на новых перекрестных задачах, таких как описание молекул по SMILES и генерация молекул с заданными характеристиками, описанными на естественном языке. Однако наши совместные исследования с коллегами из AIRI, Sber AI, Лаборатории искусственного интеллекта Сбербанка и ВШЭ показали, что эти модели не всегда надежно интерпретируют представления молекул. Мы обнаружили, что при применении правил для преобразования SMILES в эквивалентные варианты модели генерируют значительно отличающиеся языковые описания для одной и той же молекулы. Эксперименты показали уязвимость современных моделей к изменениям в представлениях молекул, что может затруднить их дальнейшее использование химиками и биологами.

Материал предоставлен партнером — Институтом искусственного интеллекта AIRI.

В следующих частях этого текста мы сосредоточимся на белковых моделях. О ДНК и РНК «Биомолекула» расскажет позднее.

Что нового о биохимии помогут узнать языковые модели?

«Кто не знает иностранных языков, ничего не знает и о своем собственном», — сказал Гёте. Значит, понимая язык белков, мы можем лучше понять, как устроены сами — по крайней мере, на молекулярном уровне. А помочь в этом должны «переводчики» — белковые LLM (или PLM). Чтобы понять, какую информацию о белках в принципе могут для нас добыть языковые модели, давайте вспомним несколько концепций из биохимии и биофизики.

В разделе «На каком языке с нами общаются молекулы?» мы обсуждали, что функция белков во многом определяется их структурой, а структура — последовательностью (ее также называют первичной структурой). Эта взаимосвязь не оставляла ученых в покое. Задолго до появления машинного обучения они пытались предсказать один из компонентов триады «структура — последовательность — функция» по-другому (рис. 6).

Рисунок 6. «Центральная догма молекулярной биофизики» — так образно называют неразрывные отношения между последовательностью, структурой и функцией белков. «Отцом» этой «догмы» можно считать Кристиана Анфинсена, ну а сам «догматизм» восходит к Криковской Центральной догме молекулярной биологии. В этом белковом треугольнике возможны шесть отношений, мы же рассмотрим пять самых важных из них — и их конкретные приложения:

**Предсказание структуры по последовательности** — часто возникающая задача, поскольку для многих белков мы знаем последовательность, но не структуру. Иногда мы хотим предсказать влияние мутаций на структуру или получить «черновую» структуру белка для ее дальнейшего экспериментального уточнения. Для этого используются разные методы: физическое моделирование, основанное на эмпирических силовых полях — например, молекулярная динамика [20] и вариации алгоритма Монте-Карло (такие как Rosetta [21]); моделирование по гомологии (Modeller, I-TASSER, PHYRE2) [22]; моделирование на базе множественных выравниваний [23]; ну и нейросетевые предсказания (*tr-Rosetta, AlphaFold2, RosettaFold, OpenFold, ESMFold, OmegaFold*).

**Определение последовательности по структуре** может потребоваться в нескольких случаях:

**Анализ неаннотированных структурных данных:** когда из биологического образца выделили белок и определили его структуру, но не последовательность (*findmysequence* [24], *modelangelo* [25]).

**Классификация белков по семействам:** белки с сильно различающимися последовательностями могут иметь похожую структуру, а значит иметь эволюционную связь.

**Обратный фолдинг:** модели, основанные на машинном обучении, можно применять для предсказания и дизайна последовательности по известной структуре (*ProteinMPNN* [26], *ESM-IF1* [27], *ProRefiner* [28]).

**Дизайн последовательности для требуемой функции** — одно из самых ярких новых приложений «сухой» биологии, позволяющее создавать ранее не существовавшие белковые молекулы, играющие нужные человеку роли (*Rosetta*, *EvoDiff* [29], *RFDiffusion* [30]).

**Аннотация функции белка по последовательности** позволяет установить не только, что делает сам белок, но и описать конкретные его части — например, установить места связывания с другими белками и лигандами [31].

**Предсказание функции по структуре** полезно в тех случаях, когда строение молекулы установлено, а вот роль — нет. Для этого часто используют молекулярное моделирование (например, молекулярную динамику или QSAR-модели [32]). Кроме того, можно попытаться использовать информацию о функциях других белков с похожей структурой, даже если их последовательности сильно отличаются.

иллюстрация Анастасии Самоукиной

Аминокислоты, как и слова в обычном тексте, сами по себе несут важный для структуры и функции белка смысл. Полярные аминокислоты скорее всего окажутся на поверхности белка и будут взаимодействовать с водой, а неполярные спрячутся от воды внутрь; эти правила хорошо известны в фолдинге белковых молекул [33]. Заряженные аминокислоты могут участвовать в важных функциональных взаимодействиях, пролин вызывает изгиб в белковой цепочке — на каждую аминокислоту найдется по нескольку подобных свойств и предпочтений [34], [35]. Поэтому простейшие методы предсказания параметров белков начинались со сбора статистики по отдельным аминокислотам.

Довольно быстро ученые заметили, что локальные последовательности белка тесно связаны с локальной структурой [36] — как и в случае с текстами, контекст определяет смысл. А значит, похожие участки разных последовательностей указывают на функциональную схожесть соответствующих белков, а контекст можно искать не только в пределах одной последовательности, но и сравнивая между собой многие.

У такого подхода к анализу последовательностей есть понятная эволюционная предпосылка. В живых организмах совокупно функционируют миллионы различных белков (причем видов живых существ намного больше, чем разновидностей белков в одном организме). Такому разнообразию мы обязаны эволюции, которая меняет и организмы, и составляющие их белки — постепенно [37], мутация за мутацией [38]. У эволюционно близких организмов найдутся и родственные белки со похожими последовательностями — их называют гомологичными, или гомологами. Например, в крови практически всех позвоночных есть переносящий кислород белок гемоглобин, но у человека он отличается от гемоглобина мыши (86% сходства [39]), и еще сильнее — от гемоглобинов рыб (уже лишь 54% сходства [40]). Однако не всегда схожесть последовательностей — признак близкого родства; к этому может приводить и конвергентная эволюция [41].

Чтобы найти сходства или различия между последовательностями, их выравнивают, размещая «в столбик» так, чтобы сходные участки находились друг под другом [42]. Разобравшись с этой достаточно сложной задачей, можно находить гомологичные последовательности и выявлять их общие свойства. Например, разумно предположить, что гомологичные белки могут выполнять те же функции [43] и иметь близкую структуру. Это и было подтверждено в 1969 году, когда на основе структуры лизоцима ученые смогли предсказать структуру гомологичного ему белка [44]. Сегодня такой подход называется «моделированием по гомологии» [22], [42].

В примерах выше ученые делали выводы о белке, выравнивая гомологичные последовательности попарно [45]. Но можно сопоставить и сразу несколько эволюционно связанных последовательностей — это будет множественное выравнивание последовательностей, или MSA (от английского Multiple Sequence Alignment) [42]. MSA впервые появились в 1980-е годы [46] и нашли множество применений: от построения филогенетических деревьев [47] до классификации белковых доменов [48]. Эта концепция нам очень потребуется дальше, потому что отражает эволюцию белковых молекул, косвенно храня отпечаток и их структуры.

Рост вычислительных мощностей и качества MSA-методов, а также появление из геномных проектов большого числа последовательностей ДНК и белков [49] позволили ученым по-новому исследовать белки. Например, они установили связь между неизменными в ходе эволюции, или консервативными, участками последовательностей и их функциональной значимостью. Более того, оказалось, что фрагменты белка или нескольких белков, которые в ходе эволюции всегда изменялись вместе, могут быть связаны одной функцией, а также находиться недалеко друг от друга в пространстве. Это называется коэволюцией: изменение одного остатка вызывает изменение прочих связанных с ней аминокислот.

На сегодняшний день в нашем распоряжении есть приблизительно 500 тысяч хорошо аннотированных последовательностей, 250 миллионов не очень хорошо аннотированных и больше миллиарда (!) гораздо менее качественных сиквенсов из метагеномного анализа.

Вооружившись MSA, ученые стали анализировать белки с известной структурой — и действительно, оказалось, что коэволюция часто «подсвечивает» пространственно близкие участки белка [22], [50], [51]. Сейчас такие фрагменты последовательностей ищут с помощью как классических статистических методов [52], так и нейронных сетей [53]. В результате получаются матрицы контактов между аминокислотами, существенно упрощающие предсказание 3D-структуры белка [54] (это привело к значительному скачку в качестве «слепых» предсказаний структуры в соревнованиях CASP). Со временем с помощью всё более сложных нейронных сетей ученые научились предсказывать из MSA не только контакты, но и расстояния между аминокислотами [55]. Например, первая версия модели AlphaFold [56] опиралась на предсказание не просто расстояний, а их распределений [6]; а следующий релиз программы — AlphaFold2 — научился выдавать уже готовую 3D-структуру (о чем мы расскажем дальше).

Выходит, что если у белка есть гомологи с известными структурой и свойствами, или хотя бы достаточно много последовательностей для построения MSA, то получится предсказать и его строение . Но в этом и состоит главный недостаток таких подходов — необходимость подборки сходных последовательностей: и чем больше, тем лучше. Без хорошего MSA даже AlphaFold2 не всегда справляется с предсказанием структуры, а ведь для многих белков у нас нет информации ни об их эволюции, ни о «родственниках». Так можем ли мы эффективно предсказывать структуру и функции белка по одной лишь его собственной последовательности?

Хотя есть удивительные примеры белков, отличающихся одной аминокислотой и имеющих максимально отличные структуры [57], [58].

В этой статье речь совсем не идет про установление структуры на основе прямого физического моделирования. Определенные успехи тут имеются (см., например, статьи «Миллисекундный барьер взят!» [59] и «Новые успехи в предсказании пространственной структуры белков» [21]), однако требуемые вычислительные мощности настолько высоки, а результат при этом настолько ненадежен, что на практике для определения 3D-структуры такие подходы так и не начали использоваться.

Отчасти, положительно ответить на этот вопрос нам помогли белковые языковые модели (PLM, от Protein Language Models) — результат применения методов NLP к языку белков. В отличие от явного сопоставления последовательностей с помощью MSA, PLM основаны на практически противоположном принципе: неявном поиске закономерностей внутри каждой последовательности в надежде вычленить такие, что отличают существующие в последовательности аминокислоты от случайных. Таким образом в модели будут закодированы отличительные особенности и «слов» (отдельных аминокислот), и «словосочетаний» (подпоследовательностей); а также «синтаксические и семантические отношения» (связи между разными частями последовательности).

Добиваются этого в процессе обучения модели. Ее параметры оптимизируют на множестве последовательностей так, чтобы компактно представить в виде эмбеддинга максимально возможную информацию о каждой аминокислоте и ее контексте. Благодаря этому модель учится обобщать информацию о последовательностях и переносить выводы об одних последовательностях на другие, лишь отдаленно на них похожие. В итоге с помощью полученных эмбеддингов можно сравнивать аминокислоты и их контексты друг с другом, не прибегая к MSA. Например, у похожих участков последовательностей будут похожие эмбеддинги.

Получается, что PLM косвенно позволяют нам узнать всё, что можно «выудить» из MSA-выравнивания, без необходимости его явно считать . Кроме того, после обучения PLM, вероятно, «запомнит» корпус последовательностей в очень сжатом представлении, и при каждом запуске модель будет рассчитывать для переданной последовательности быстрый «аналог MSA». Чтобы всё это работало, PLM нужно иметь возможность рассматривать каждую аминокислоту в контексте всей последовательности. Этого позволяют добиться современные архитектуры нейросетей вроде RNN и трансформеров, о которых мы расскажем во врезке «Как развивались современные LLM» чуть ниже.

Расчет такого аминокислотного выравнивания может стать настоящей проблемой, если речь идет о поиске в действительно большой базе последовательностей типа Big Fantastic Database: каждая такая операция требует перелопачивания терабайтов (!) данных.

Например, 26 гигабайт базы данных UniRef50, насчитывающей более 45 миллионов последовательностей (или 14 миллиардов аминокислот), можно ужать в модели размером от нескольких мегабайт до сравнимых 28 гигабайт.

Как развивались современные LLM: от рекуррентных нейронных сетей до механизма внимания

Чтобы разобраться, как работают современные языковые модели, снова вернемся к различиям между изображениями и текстами и посмотрим на эту разницу с точки зрения человеческого восприятия. Изображения мы видим сразу целиком: что происходит в центре, справа и слева. Текст же, особенно на слух, мы воспринимаем последовательно — слово за словом. Ученые решили воспользоваться этим свойством для более эффективной обработки языка и стали применять специальные модели для работы с последовательностями — рекуррентные нейронные сети, или RNN.

Идея до элегантности простая. Раз мы воспринимаем речь слово за словом, давайте и входные данные для языковой модели передавать последовательно. При этом мы не будем «забывать» все уже обработанные слова, а, как и наш мозг, будем хранить в модели всю уже считанную информацию. Для этого на каждом шаге модель получает в качестве входных данных два объекта: новое слово и «историю», или совокупное представление о всех предыдущих словах. Схематичная работа RNN показана на рисунке 7.

Главная проблема RNN — забывание контекста. Чем дальше слова находятся друг от друга, тем меньший контекстный вклад они вносят — и это приводит к ошибкам. Например, в предложении «Мяч уплывал все дальше и дальше, и, несмотря на все усилия, Таня никак не могла его догнать», слово «его» однозначно относится к объекту «мяч». Но, так как эти слова разделяет больше десяти других слов, из-за забывания контекста простая RNN такую связь не уловит. Справиться с этой проблемой позволяют более сложные версии рекуррентных сетей — например, модель с долгой краткосрочной памятью (LSTM; рис. 7).

Рисунок 7. Схема упрощенных RNN, LSTM и механизма («блока») внимания self-attention.

Пример работы RNN, обрабатывающей слова одно за другим. Изначально о тексте ничего не известно, то есть контекст отсутствует. После обработки первого слова у модели уже появляется «история», и эмбеддинг второго слова рассчитывается с ее учетом. Процесс многократно повторяется до конца предложения — и в этот момент модель уже практически потеряет информацию о его начале. Если бы в следующем предложении мы хотели спросить у модели, поет ли в саду соловей или ворона, модель не смогла бы ответить, потому что она уже забыла про контекст «красивого пения».
Пример работы LSTM, в которую добавлен вектор контекста и возможность ограничивать влияние текущего слова на контекст, а контекста — на слово. Такой механизм позволяет находить связи между словами на довольно большом расстоянии. Поэтому в эмбеддинге слова «птица» накопится больше информации о том, что она пела красиво, а в эмбеддинге контекста сохранится вся важная информация о нашем предложении.
Пример работы простейшего блока «внимания» (self-attention). Чтобы параллельно обрабатывать разные слова из текста, необходимо эффективно учитывать контекст и влияние слов друг на друга. Перебор «в лоб» здесь не подойдет: мы захлебнемся от избытка информации. Блок внимания сравнивает исходные эмбеддинги слов друг с другом и предсказывает значимость каждого слова в контексте других. Это изображает матрица весов значимости слов: чем ярче цвет ячейки, тем важнее слово из столбца для слова из строки. С помощью этой матрицы и рассчитываются финальные эмбеддинги слов с учетом контекста. Возможности одного блока внимания не безграничны: в тексте, где переплетены разные смыслы на разных уровнях выразительности языка, такой блок сможет уловить лишь малую толику контекста. Поэтому в современных трансформерах используют множество параллельных блоков внимания, а чтобы учесть еще и порядок слов, информацию об нем прямо добавляют в эмбеддинг.

иллюстрация Марии Кадуковой

Одна из проблем RNN и LSTM — это передача информации о контексте только в одном направлении (от первого слова к последнему). Справиться с этим просто — можно использовать модель одновременно в двух направлениях. Комбинация прямого и обратного эмбеддингов слов учитывает контекст слова с обеих сторон, поэтому такие двунаправленные RNN фиксируют все важные взаимосвязи в предложении. Обучают RNN, кстати, тоже последовательно.

Применяют RNN, например, для задачи классификации текстов (ее постоянно решает ваш email-клиент, решая, какие письма отправить в папку со спамом, а какие нет): текст прогоняется через блок RNN, а эмбеддинг последнего слова, учитывающий весь контекст целиком, используется другой нейронной сетью для предсказания класса. Если оно не совпадает с реальностью, параметры каждого рекуррентного блока обновляются так, чтобы минимизировать ошибки.

Подобное обучение требует заранее размеченной обучающей выборки, однако подготовить ее бывает трудно. Обойти эту проблему помогает обучение без учителя (см. глоссарий к первой статье [1]) или обучение на неаннотированных данных, которых у нас в разы больше. В случае RNN модель обучают угадывать следующее слово по уже обработанным предыдущим. Этот подход очень напоминает работу нашего мозга: наверняка вы замечали, что иногда в разговоре можете угадать, что дальше скажет ваш собеседник. Чтобы правильно предсказать следующее слово, модель должна выучить правила формирования текстов и научиться кодировать всю содержащуюся в них важную информацию в эмбеддингах.

Последовательная работа RNN, хоть и является красивой аналогией человеческому восприятию, одновременно является и главной проблемой данной архитектуры. Посчитать эмбеддинг слова не получится, не обработав все предыдущие слова в тексте (а в случае двунаправленных RNN — еще и все последующие). Из-за этого модель никогда не сможет использовать всю мощь параллельных вычислений современных суперкомпьютеров.

Справиться с этой проблемой помогла концепция внимания [60]— а точнее, один из ее подвидов под названием self-attention, который стал широко использоваться после выхода статьи Attention is all you need [61]. Механизм внимания — центральный для архитектуры трансформеров, а именно она лежит в основе BERT, ChatGPT и многих других больших языковых моделей. Схематично его работа изображена на рисунке 7. В отличие от рекуррентных нейросетей, внимание позволяет посчитать учитывающие контекст эмбеддинги одновременно для всех слов. Благодаря этому трансформеры можно обучать на многопроцессорных системах, что в наше время не просто актуально, а необходимо.

Трансформеры можно обучать так же, как и RNN, но можно пойти еще дальше, заставляя восстанавливать скрытые или намеренно испорченные участки текста. Именно так обучали многие белковые языковые модели, о которых мы подробно расскажем в следующей главе .

Впрочем, оказалось, что для некоторых задач предсказание исключительно следующего слова работает лучше. Этот принцип называется авторегрессией, и на нем основаны многие генеративные модели — например, архитектура GPT, на которой работает тот самый чат-бот.

Мы надеемся, что наше сильно упрощенное объяснение архитектур RNN и трансформеров позволит читателю понять базовые идеи, которые стоят за этими моделями. Во врезке про модель word2vec и эмбеддинги мы поделились несколькими ссылками на курсы, которые подробно рассказывают об этих и многих других моделях.

Так как в эмбеддингах содержится огромное количество информации в математически удобном представлении, их можно использовать для решения множества разных задач. Например, подавая эмбеддинги из PLM на вход любой другой модели машинного обучения, можно добиться отличных результатов в предсказании сайтов связывания белков друг с другом [62] или матриц контактов в белке [63]. Более подробно применение PLM мы еще обсудим в следующей главе.

Модели машинного обучения, применяемые к уже готовым эмбеддингам, могут быть самыми разными. В простейшем случае это маленькая модель, натренированная предсказывать заданную величину в рамках обучения с учителем (см. глоссарий из первой статьи [1]). Можно использовать и более сложные подходы, а также дополнительные данные: так модель выучит больше и будет обладать лучшей предсказательной силой. Именно этот подход использовали разработчики PLM для предсказания структуры белка [63], о которой мы расскажем подробнее в главе «Стоит ли белковым моделям еще подучиться?» [63], [64]. Описанное выше использование предобученной модели для решения другой задачи известно в машинном обучении как перенос обучения (от англ. transfer learning).

Какие бывают белковые языковые модели?

До появления рекуррентных нейросетей и трансформеров ученые не раз применяли методы NLP к белкам. Например, в 2015 году вышла основанная на принципе Word2Vec модель под названием ProtVec, обученная на аминокислотных последовательностях [65]. Ее эмбеддинги позволяли предсказывать, к какому семейству относится белок, а также отличать неупорядоченные участки белков от хорошо свернутых.

В 2019 году вышло сразу несколько «белковых языковых моделей» (PLM) — правда, тогда их называли просто «эмбеддингами белков» , но уже тогда они несли информацию об эволюции, функциях и даже структуре белков. В таблице 1 мы приводим неполный список таких моделей, включая и самые ранние разработки, отмечая их фундаментальный вклад в саму идею PLM (хотя они всё еще работали хуже, чем методы на базе MSA [66], [67]).

В «далеком» 2019 году LLM для естественных языков (по нынешним меркам — просто LM) обучали на сравнительно небольших наборах данных. Применение этих моделей к белкам оказалось прорывом в том числе и по объему данных. Например, корпус текстов из Википедии, на котором часто обучали старые LM, — это всего 10% от объема библиотеки UniRef50, которую использовали для первых белковых нейросетей [66].

**Таблица 1. Белковые языковые модели (PLM).** Эта таблица не всеобъемлющая: мы почти не упоминаем самые свежие модели (2023 год и позже), а также модели, обученные не для предсказания эмбеддинга или дизайна нового белка, а для решения более частных задач. Хотя тут упомянуты некоторые генеративные модели, мы не ставили задачи перечислить их все: белковому дизайну будет посвящена следующая публикация спецпроекта. Более полные списки можно найти в обзорных статьях, а также на сайте бенчмарка предсказаний эффектов мутаций *ProteinGym*.
Группа моделей	Название, дата релиза и авторы	Описание модели
Первые PLM 2019 года	SSA [2], [68] (2019): ученые из MIT	Эмбеддинги кодировались двунаправленной LSTM, обученной на 21,8 миллионе последовательностей из базы данных белковых семейств Pfam. Для улучшения качества модели авторы использовали данные, аннотированные структурной информацией, вынуждая ее предсказывать похожие эмбеддинги для аминокислот со схожими структурными контекстами
	UniRep [69] (2019): коллектив из Гарвардского университета	Рекуррентная нейросеть с архитектурой mLSTM и 18,2 миллионами параметров, обученная предсказывать каждую следующую аминокислоту на 24 миллионах последовательностей из базы данных UniRef50. В одном из вычислительных экспериментов у ученых получилось дообучить модель на последовательностях зеленых флуоресцентных белков [70] так, чтобы она могла отличать светящиеся белки от их несветящихся версий, содержащих всего несколько мутаций
	Transformer [71] — модель-предшественник ESM (2019): группа ученых из Университета Нью-Йорка и Facebook AI Research	Трансформер с 70 миллионами параметров, обученный предсказывать маскированные и искаженные аминокислоты. Авторы использовали базу данных UniParc, содержавшую на тот момент 250 миллионов последовательностей. У этой модели даже не было отдельного названия — просто «Трансформер»; но за два последующих года ученые значительно ее доработали и выпустили ESM-1b
	Семейство моделей TAPE [67] (2019): коллектив из Беркли	Авторы сравнивали разные архитектуры: двунаправленную LSTM, сверточную нейросеть ResNet, а также трансформер с 38 миллионами параметров, предсказывающий маскированные и искаженные аминокислоты. Эмбеддинги успешно проверили на задачах предсказания вторичной структуры и матриц контактов белка, а также гомологов. Важным вкладом этой работы была система тестов для PLM, адаптированная под исследователей в области машинного обучения
	SeqVec [66] — модель для расчета эмбеддингов аминокислот (2019): ученые из Технического Университета Мюнхена	Модель была основана на архитектуре ELMo [72] — двунаправленной LSTM, заточенной под эмбеддинги. Была обучена на 33 миллионах последовательностей из UniRef50 и имела 93 миллиона параметров. Сначала эмбеддинги SeqVec проверили на предсказании свойств отдельных аминокислот, а затем обобщили их для предсказания глобальных свойств белка в целом
Некоторые модели из семейства ESM: Facebook AI Research / Meta AI	ESM-1b [73] и ESM-1v [74] (2021)	Трансформер, предсказывающий маскированные и искаженные аминокислоты, с 650 миллионами параметров. ESM-1b обучен на 27 миллионах последовательностей из UniRef50, а ESM-1v состоит из консенсусно принимающих решения пяти разных ESM-1b, обученных на 98 миллионах последовательностей из UniRef90. ESM-1v была впервые представлена в статье, посвященной предсказанию эффектов от мутаций
	ESM-2 [63] (2022)	Трансформер, предсказывающий маскированные и искаженные аминокислоты, имеющий от 3 до 15 миллиардов (!) параметров в разных версиях. Обучен на UniRef50. Эмбеддинги из ESM-2 широко применяются в самых разных задачах; кроме того, на них основана модель для фолдинга белка ESMFold и «метагеномный атлас» ESM
	ESM-IF1 [27] (2022)	Авторегрессионный трансформер с GVP-модулем [75] для обработки структуры белка с 142 миллионами параметров, обученный на 12 миллионах последовательностей из UniProt50 со структурами, сгенерированными с помощью AlphaFold. Решает задачу обратного фолдинга, позволяя сгенерировать последовательность, которая «подходит» известной структуре, или предсказывать эффект от мутаций
Некоторые модели из семейства ProtTrans, Технический Университета Мюнхена	ProtT5 [76] (2022)	Трансформер с 3 миллиардами параметров на архитектуре T5, разработанной для машинного перевода. Обучался предсказывать маскированные и искаженные аминокислоты. Чаще всего используется версия, обученная на 45 миллионах последовательностей из UniRef50
	ProstT5 [77] (2023)	Трансформер, основанный на ProtT5 и дообученный на 17 миллионах последовательностей со сгенерированными AlphaFold структурами, чтобы переводить со «структурного языка», кодирующего особенности структуры каждой аминокислоты [78], на «аминокислотный». Решает задачу обратного фолдинга
ProteinBERT	ProteinBERT [79] (2022): группа ученых из Еврейского университета в Иерусалиме и Университета имени Бен-Гуриона	Трансформер с архитектурой BERT, обученный на 106 миллионах последовательностей из UniRef90. Это совсем небольшая модель — «всего» 16 миллионов параметров. Помимо стандартного для BERT обучения на предсказании скрытых и поврежденных элементов последовательности, авторы обучали модель предсказывать генно-онтологические аннотации каждой последовательности, чтобы улучшить ее способности к обобщению информации о белках
Генеративные модели для дизайна белковых последовательностей	ProGen [80] (2023): коллаборация ученых из нескольких компаний, а также Калифорнийского Университета в Беркли и Сан-Франциско	Генеративная модель. Авторегрессионный трансформер с 1,2 миллиардами параметров, обученный на 280 миллионах последовательностей из нескольких источников. В качестве эксперимента ученые сгенерировали последовательности, похожие на белки из семейства лизоцимов (с близкими и далекими от настоящих лизоцимов последовательностями) и флуоресцентные белки. Большинство белков удалось экспрессировать, а часть сохранила функциональную активность; для одного белка авторы получили кристаллографическую структуру
	ProtGPT2 [81] (2022): ученые из Университета Байройта (Германия)	Генеративная модель с 738 миллионами параметров, основанная на авторегрессионных трансформерах (архитектуре GPT). Обучена на 44,9 миллионах последовательностей из UniRef50. Авторы провели хороший вычислительный анализ полученных белковых дизайнов
	DARK [82] (2022): ученые из Университетского колледжа Лондона	Генеративная модель, основанная на авторегрессионных трансформерах. В отличие от других моделей из нашего списка, для обучения авторы использовали не реально существующие последовательности, а полностью синтетические, оценивая их качество с помощью внешней модели для белкового фолдинга. Этим они добились большей гибкости модели в задаче белкового дизайна
	RITA [83] (2022): коллаборация ученых из Франции, Великобритании и США	Семейство генеративных моделей, основанных на авторегрессионных трансформерах (до 1,2 миллиардов параметров). Для обучения авторы использовали несколько различных баз данных последовательностей. Хотя RITA технически является генеративной моделью, авторы практически не валидировали ее в этом режиме
Модели от Microsoft AI Research	CARP [84] (2022)	Сверточная нейросеть с разреженными свертками (dilated convolution). Обучена на 42 миллионах последовательностей из UniRef50 и насчитывает 640 миллионов параметров. Основной вывод авторов: на белковых последовательностях свертки работают не хуже трансформера
Модели от Microsoft AI Research	EvoDiff [29] (2023)	Генеративная модель. Основана на архитектуре CARP, но использует для генерации последовательностей диффузию в дискретном пространстве аминокислот. По сравнению с авторегрессионными моделями, генерирующими последовательность строго «слева-направо», дизайн белков с EvoDiff более гибкий и позволяет учесть больше условий для уточнения дизайна белка — но структурные характеристики модель кодирует хуже
Признана в России экстремистской организацией.

В последующие несколько лет область активно развивалась, и было опубликовано множество всё более сложных и масштабных белковых языковых моделей. В этой статье мы упомянем лишь некоторые из них. Так, группа исследователей из компании Meta под руководством Александра Райвса, за два года доработав свой безымянный «Трансформер» из 2019-го, выпустила модель ESM-1b [73], обученную на предсказании маскированных аминокислот из 27,1 миллионов последовательностей из базы данных UniRef50. На сегодняшний день ESM — широко используемое семейство моделей, размер которых варьирует от 650 миллионов до 15 миллиардов параметров. При этом запустить и скачать их может практически каждый, даже не имея доступа к высокопроизводительному графическому ускорителю.

Признана в России экстремистской организацией.

Uniprot, UniParc, UniRef — кто все эти базы?

Внимательный читатель может задаться вопросом о выбираемых учеными источниках данных. Например, почему вместо 250 миллионов последовательностей из UniParc, которые были использованы для его предшественника в 2019 году (табл. 1), ESM-1b обучен на почти в 10 раз меньшей выборке?

Этому есть объяснение. Uniprot — это система классификации, в которой все белки, закодированные одним геном, объединяются в одну запись. UniParc — база данных, призванная собрать как можно больше когда-либо полученных человеком сиквенсов, а потому в ней допускается хранение дубликатов. UniRef — это подмножество UniParc, разбитое на кластеры по степени схожести последовательностей: число, стоящее в названии подмножества, обозначает минимально допустимую степень схожести последовательностей в кластере. Например, UniRef100 — это, по сути, UniParc, но без дубликатов: в каждый кластер попадают только одинаковые последовательности. А вот UniRef90 и UniRef50 имеют более сильные критерии отбора: в них мы не найдем двух последовательностей, схожих более, чем на 90% и 50%, соответственно.

В процессе обучения моделей ученые заметили, что разнообразие выборки важнее, чем ее размер, поэтому многие современные модели обучены на UniRef50 и UniRef90.

Заметим также, что этими базами дело не ограничивается: некоторые авторы используют BFD (Big Fantastic Dataset), который сочетает результаты кластеризации Uniprot, последовательности из метагеномных экспериментов и другие источники данных.

Эмбеддинги из ESM-1b и более поздней ESM-2 [63], также обученной на UniRef50, могут предсказывать пространственные контакты между аминокислотами в белке — а это уже прямая дорога к предсказанию пространственной структуры (см. рис. 6). Более того, добавив к эмбеддингам из ESM-2 структурный модуль (позаимствованный из AlphaFold), ученые разработали ESMFold [63] — модель для фолдинга белка, не нуждающуюся в эволюционной информации. Фактически, это предсказание структуры напрямую из одной только последовательности, без доступа не только к структурам, но и к гигантским базам последовательностей (зато сам размер «предсказателя» очень велик благодаря нескольким миллиардам параметров нейросети). Подробнее о моделях ESMFold и AlphaFold для предсказания структуры белков мы поговорим в следующей главе.

Еще одна популярная и одна из первых PLM — семейство ProtTrans [76] от авторов SeqVec под руководством Буркхарда Роста. Для обучения разработчики использовали три базы данных: UniRef50, UniRef100 и BFD, содержавшие на тот момент 45 млн, 216 млн и невероятные 2,1 млрд (!) белковых последовательностей. Архитектуры тоже выбрали разные — BERT, T5 (классический трансформер, заточенный под задачи перевода) и другие трансформеры . Наиболее перспективной из всех предложенных моделей в результате оказалась ProtT5, насчитывающая 3 миллиарда параметров: в некоторых задачах она работала даже лучше, чем ESM-1b . Год спустя вышла ее улучшенная версия ProstT5 [77]: если раньше модель «переводила» с белкового языка на белковый с одной лишь целью обучения промежуточного эмбеддинга, то теперь она стала «переводить» на структурный [78] — и наоборот! Ограничения модели не позволяют полноценно моделировать структуры белков, как это делает ESMFold, но дают возможность проводить обратный фолдинг.

Получившиеся модели авторы назвали Prot + «название архитектуры»: ProtBERT, ProtT5, ProtAlbert и так далее.

Например, в предсказании вторичной структуры из всех протестированных авторами моделей только эмбеддинги из ProtT5 смогли сравняться с методом, использующим MSA: 84,8% успешных предсказаний против 84,3%. С word2vec, простейшим трансформером и ESM-1b получалось добиться только 64,7%, 77,3% и 82,6% точности. Кроме того, оказалось, что использование последовательностей из метагеномных экспериментов из BFD не помогло ни одной из моделей: у простейшего трансформера точность падала с 77,3% до 72,2%.

Разнообразие белковых моделей

Почти все модели ESM, а также описанный выше ProtT5 построены на трансформере , предсказывающем маскированные аминокислоты, а их главная цель — научить модель представлять аминокислоты и их окружение в виде максимально информативных эмбеддингов. Однако не стоит забывать про авторегрессионные подходы, в рамках которых каждая следующая аминокислота предсказывается по совокупности предсказанных предыдущих!

Кстати, если из нашего текста читателю показалось, что все современные PLM основаны на трансформерах, — то это не совсем так: ученые из Microsoft Research обучают модели, использующие ~~простые советские~~ сверточные нейросети [29], [84].

На таком способе обучения основан целый подкласс генеративных моделей, с помощью которых можно не просто предсказывать что-то о белке (например, структуру), но создавать новые молекулы, примерив на себя уже совсем другую роль. Если подумать, то даже удивительно, что эта огромная на первый взгляд разница заключается просто в ином выборе объекта предсказания — в первом случае предсказывается структура, во втором — последовательность (собственно, это и будет белковый дизайн [9]). Пока не так много авторов, опубликовавших результаты белкового дизайна, проверяют их на практике [81], [85], но некоторые всё же синтезируют предсказанное. Например, авторы ProGen [80] успешно проверили экспрессию, функциональную активность и структуру получившихся белков. Подробнее о моделях для дизайна белков мы расскажем в следующей серии спецпроекта.

Как PLM помогают ученым

Поиск гомологов

Итак, эмбеддинги из языковых моделей полезны и просты в использовании — особенно для переноса обучения [86]. Одним из самых очевидных их применений стало предсказание отношений между белковыми последовательностями — например, поиск гомологов. Как мы уже говорили, гомологичные белки имеют похожую структуру: именно этим свойством ученые и воспользовались для проверки своей модели. Для двух белков с известным классом структуры (хранится в базе данных CATH) исследователи проверяли, относятся ли они к одному классу или нет. Для этого они использовали эмбеддинги ProtT5 и так называемое контрастное обучение [87]. В результате модель определяла гомологию заметно лучше, чем MSA — 76% успеха против 67%. Это поможет немного осветить «сумеречную зону» [88] белковой вселенной, где находится множество неаннотированных последовательностей без роду и племени. При этом скорость такого подхода на эмбеддингах оказалась выше, чем у более классических MSA-методов. Кстати, MSA тоже можно предсказать [89] с помощью PLM. И наоборот [90]: добавив MSA-информацию к последовательностям, можно дополнительно расширить возможности белковой языковой модели.

Предсказание эффекта мутаций

Авторы ESM показали, что предсказывать эффект от любых мутаций в белке можно и без переноса обучения [74] — прямо из их модели. Когда белковая языковая модель предсказывает аминокислоту в последовательности (а, как мы помним, ESM обучалась предсказывать спрятанные или испорченные аминокислоты по их соседям), мы можем получить оценку «качества» (хороша ли она на своем месте или нет). Оказалось, что это отлично работает и с мутациями: ESM замечает не только замены, которые могут «испортить» последовательность, но и такие, которые могут ее улучшить! Например, биохимики из Стэнфорда провели искусственную «эволюцию» антител [91] в сторону более сильного связывания с антигеном, отбирая только «хорошие» мутации, которые предлагала им ESM. Антитела удалось синтезировать и проверить: для каждой из семи изученных молекул константа связывания выросла в 1,1–7 раз. Другая группа из Университета Калифорнии использовала эмбеддинги ESM-1b [92], чтобы повысить точность и скорость предсказания болезнетворных миссенс-мутаций по сравнению с более классическими методами.

Опробовали перенос обучения в модели ESM-2 для предсказания стабильности белков [93] и специалисты из AIRI:

В своей работе мы показали, как можно использовать эмбеддинги модели ESM-2 для предсказания изменения стабильности белков при возникновении точечных (единичных) аминокислотных замен [93]. Мы представили три варианта архитектуры модели с разными способами комбинации эмбеддингов исходного белка и белка с заменой аминокислоты и обучили каждую модель предсказывать ΔΔG. Наилучший вариант модели получил запоминающиеся название PROSTATA [94]. Кстати, любой желающий может легко протестировать работу модели через веб-интерфейс.

Татьяна Шашкова
старший научный сотрудник AIRI

Помощник для структурных биологов

Как мы уже знаем, белковые языковые модели способны улавливать информацию о структуре белков, что, в свою очередь, уловили структурные биологи. Например, ESM-эмбеддинги задействованы в разработанной учеными из Лаборатории Молекулярной Биологии в Кембридже модели ModelAngelo [25], используемой для расчета структуры белка по его последовательности и карте электронной плотности, полученной в экспериментах криоэлектронной микроскопии (крио-ЭМ) [95]. Эмбеддинги в ModelAngelo помогают указывать на взаимосвязи между крио-ЭМ картами, структурами и последовательностями белков: это существенно упрощает расшифровку крио-ЭМ карт.

PLM и малые молекулы

PLM-эмбеддинги в связке со структурой используют и для докинга малых молекул. Например, в нейросетевой модели для докинга DiffDock [96] аминокислоты белка закодированы при помощи ESM-2. Это помогает в условиях маленькой обучающей выборки обобщать информацию о связывающих сайтах и взаимодействиях аминокислот с лигандами. В «слепом докинге», когда сайт связывания неизвестен, 38% предсказаний DiffDock имели RMSD <2 Å по сравнению с лишь 20% у другого популярного ML-метода. Впрочем, здесь есть и опасность: по всей видимости, DiffDock из-за переобучения слишком сильно опирается на свое представление о сайте связывания и не так хорошо делает сам докинг [97]. Так, в более реалистичном сценарии с известным сайтом связывания результаты меняются не в его пользу: те же 38% у DiffDock против уже 67% у классического докинга. Более того, оказалось, что только у 12% предсказаний DiffDock структура лиганда реалистична и энергетически выгодна [98].

В предсказании взаимодействия с лигандами ESM-эмбеддинги используют и без опоры на структуры. Недавно ученые обучили модель поиска таких взаимодействий [99] всего лишь по последовательностям белков и информации о связывающихся с ними лекарствах , используя эмбеддинги из ESM-1b и контрастное обучение. Результаты своей модели ученые проверили в том числе и экспериментально: из 19 лучших молекул 12 в эксперименте связались со своей мишенью.

Для представления малых молекул авторы этой статьи попробовали несколько методов. К сожалению, эмбеддинги из языковых моделей на SMILES в их случае не сработали.

Предсказание белковых эпитопов — еще одно актуальное применение PLM

Комментарий «Биомолекуле» дал Никита Иванисенко, старший научный сотрудник AIRI.

AIRI

До появления больших белковых языковых моделей было разработано множество подходов для предсказания конформационных B-клеточных эпитопов, основанных на анализе физико-химических, структурных и других свойств аминокислотных остатков антигена. Однако выбор характеристик, ответственных за иммуногенные свойства белка, представляет собой сложную задачу. Важной особенностью больших языковых моделей является способность неявно кодировать различные характеристики, потенциально определяющие иммуногенные свойства антигена, в эмбеддингах аминокислотных остатков. На этом принципе мы разработали модель SEMA [100], использующую как основу белковые языковые модели семейства ESM, для предсказания конформационных В-клеточных эпитопов антигена. Оказалось, что такая модель показывает более высокую точность по сравнению с классическими подходами. Мы ожидаем, что модель найдет применение в разработке эффективных вакцин и анализе иммуногенных свойств белков.

Материал предоставлен партнером — Институтом искусственного интеллекта AIRI.

Стоит ли белковым моделям еще подучиться?

В прошлом разделе мы рассказали о различных белковых языковых моделях (PLM) и привели примеры их использования. Теперь остановимся подробнее на одном применении — предсказании структуры белков — и сравним успехи языковых моделей (ESMFold [63]) с более классическим подходом (AlphaFold2). ESMFold — это одна из моделей семейства ESM, специально дообученная предсказывать структуры (рис. 8). Архитектуру AF2 мы разберем на рис. 9 во врезке ниже.

Архитектура модели ESMFold — **Рисунок 8. Архитектура модели *ESMFold*.** Первым делом *ESMFold* преобразует последовательность в эмбеддинг с помощью своего ключевого блока ESM2. Этот массив передается на вход блоку фолдинга, основанному на аналогичном блоке AF2 (отличия обсудим на рис. 9). Он работает уже не с одним эмбеддингом, а с матрицей, построенной для каждой пары аминокислотных остатков: задумка тут в том, чтобы из нее извлечь расстояния и возможные взаимодействия между аминокислотами в последовательности. Эта матрица парных эмбеддингов передается в структурный модуль, который рассчитывает структуру белка (он тут абсолютно такой же, как в AF2 — разработчики просто взяли код модели от *DeepMind* из свободного доступа). Всё это работает благодаря ESM-эмбеддингам, ведь они, как мы уже говорили, — «быстрый аналог» MSA. А из MSA матрицу попарных расстояний извлекать мы умеем.

[63]

Модель ESMFold оказалась достаточно успешной — лишь чуть менее точной, чем AlphaFold2, негласно принятым за золотой стандарт. Например, на структурах из соревнования CASP14 средняя метрика «качества» предсказания — TM-score — для ESMFold была 0,68 против 0,85 у AF2. Похожая разница в точности сохранилась и в слепом соревновании CASP15 . Впрочем, главное отличие между методами в том, что ESMFold не требует MSA : это позволяет предсказывать структуры даже тех белков, у которых не известны родственники. И, наконец, предсказание ESMFold в десятки раз быстрее, поскольку расчет необходимого для AlphaFold MSA — процесс долгий.

Этот параметр сравнивает предсказанную структуру белка с экспериментально определенной (разумеется, для расчета TM-score она должна быть известна). Меняющийся в диапазоне от 0 до 1, TM-score = 0,5 — уже достаточно неплохо для «слепого» предсказания.

Однако тут AF2 уже не выиграл, отдав пальму первенства своим улучшенным версиям от других исследователей [101].

Если на той же выборке отнять у AF2 MSA, его значение TM-score резко упадет до 0,38, что показывает явное преимущество ESMFold в тех случаях, когда MSA построить нельзя.

Под капотом у Альфа Фолда

Так как же устроен этот загадочный AlphaFold2? Получая на вход результаты MSA (см. сноску выше), модель обобщает информацию о взаимном расположении аминокислот в последовательностях и по ней предсказывает координаты всех атомов белка. Кроме того, для каждой аминокислоты она выдает оценку качества предсказания. Подробнее этот процесс описан на рисунке 9 [109].

Рисунок 9. Архитектура модели AlphaFold2. AF2 — чуть менее end-to-end модель по сравнению с ESMFold (рис. 8): он не умеет предсказывать 3D-структуру непосредственно из последовательности. Поэтому перед запуском AF2 проводят поиск гомологов и строят MSA путем (весьма затратного по времени) обращения к базам данных последовательностей. Одновременно с этим гомологичные белки и их фрагменты можно (но не обязательно!) искать и в базе данных структур — AlphaFold2 поддерживает режим моделирования по гомологии.

На основе этой информации составляется начальная версия матрицы эмбеддингов пар аминокислот (на схеме она называется pair representation). Эта матрица и MSA попадают на вход блоку фолдинга с красивым названием Evoformer. В этом и есть главное отличие этих блоков между ESMFold и AF2: в ESMFold вместо MSA блок фолдинга получает ESM-эмбеддинг. Внутри Evoformer эмбеддинги MSA и эмбеддинги пар аминокислот обновляются одновременно с использованием хитро сконструированного механизма внимания. После 48 циклов обработки блоком фолдинга, обновленные эмбеддинги аминокислот и их пар поступают на вход структурному модулю.

Здесь модель сначала предсказывает, каким каждая аминокислота хотела бы видеть свое окружение, а затем согласует это между всеми аминокислотами с учетом парных эмбеддингов. Реализован этот процесс при помощи еще одного варианта механизма внимания. В результате структурный блок передвигает аминокислоты, изначально расположенные в виде «газа остатков» — независимо позиционируемых структур с индивидуальными координатами центра, углами поворота и конформацией (задаваемой торсионными углами боковой цепи). Структурный модуль предсказывает все эти параметры для каждого остатка — и на выходе мы получаем структуру белка.

Можно удовлетвориться этим результатом, а можно пойти дальше: результаты AlphaFold заметно улучшаются, если обновить исходные эмбеддинги MSA и пар аминокислот с учетом получившейся структуры и прогнать модель еще несколько раз. Такой процесс авторы назвали переиспользованием (recycling); он применяется в том числе и в ESMFold. Помимо финальной структуры белка, для каждой аминокислоты AlphaFold выдает оценку, означающую ее уверенность в предсказании. Структура на рисунке раскрашена в соответствии с этими значениями: от плохо свернутых оранжевых участков до максимально реалистичных синих.

[102]

Победа AlphaFold2 в соревновании CASP14 вызвала бурные обсуждения в новостях и привлекла внимание общественности к предсказанию структур белков. Но, как мы уже упоминали, до появления AlphaFold существовали десятки способов предсказать структуру белка — хоть и менее точных, быстрых и универсальных. Опора на MSA для предсказания взаимодействий аминокислот, возможность использовать гомологичные структуры и их фрагменты, молекулярное моделирование — всё это уже применялось в разных методах.

Авторы AlphaFold смогли скомбинировать некоторые из этих идей и, добавив огромные ресурсы и экспертизу в машинном обучении, получили отличную модель. К сожалению, в рассказах об AlphaFold слишком часто забывают про его связь с предшественниками, но важно помнить о заложенном фундаменте, без которого архитекторы AlphaFold не построили бы свой чудо-дом. Ученые со всего мира долгие годы наполняли базы данных структур и последовательностей и развивали область предсказания структур макромолекул. Всё это привело к возникновению соревнования CASP. Без всего этого модель от DeepMind могла бы вообще не появиться — поэтому мы считаем необходимым отдать должное не только разработчикам AlphaFold, но и прочим ученым, которые бились над проблемой фолдинга не один десяток лет до них.

Видео 1. Ничего не поняли про AlphaFold? Редактор этой статьи расскажет вам еще раз. В лекции, прочитанной для студентов магистратуры «Вычислительная физика конденсированного состояния и живых систем» МФТИ, рассказывается про метагеномные веяния в структурной биологии и как их смог «оседлать» ИИ; про архитектуру AF2 (в т.ч. видео-цитированием одного из ее создателей Джона Джампера); а также про других участников ИИ-гонки — RoseTTAFold, ESMFold и прочих.

лекция «AlphaFold и RoseTTAFold: нейросетевое шаманство» из курса «Новости компьютерного моделирования биосистем», прочитанная в МФТИ 27.04.2023

После появления AlphaFold ученые не перестали развивать область. Долгое время было неясно, поделится ли DeepMind свой моделью с академическим миром или нет. Поэтому почти одновременно появились проекты RosettaFold [103] от команды основоположника Rosetta Дэвида Бейкера и запущенный Мохаммедом АльКураиши открытый проект OpenFold [104], куда каждый желающий может добавить свой код. Идеи этих моделей напоминают AlphaFold2, но с самого начала они были задуманы доступными для всего научного сообщества.

В итоге опасения не оправдались: DeepMind открыл свою модель для всех. И не только модель, но и код — а также подробное пояснение к нему [102]. В результате фрагменты AlphaFold стали использоваться и в других моделях, заметно упростив и ускорив их разработку. Мы уже упоминали, что так поступили и в Meta при создании ESMFold. Кроме того, ученые открыли доступ к AlphaFold2 для всех желающих с помощью питоновского ноутбука — ColabFold [105]. Его нетрудно запустить на кластерах Google, и все желающие могут легко и просто предсказывать структуры — без необходимости возиться с установкой пакетов и скачиванием огромных баз данных. Так сказать, «без регистрации и СМС».

Разработка достаточно точных предсказателей структур быстро повлекла широкое применение этих моделей. Некоторые ученые даже опасались, а не конец ли это структурной биологии [95]? Но хотя многие структуры AlphaFold2 предсказывает хорошо (рис. 10А), иногда он может сурово ошибаться (рис. 10Б). А еще такие модели по своей сути не умеют учитывают структурных эффектов небольших мутаций [106] и конформационное многообразие белка (без специальных ухищрений [107]). Так что пока будущее структурной биологии в безопасности: это всё еще самый надежный способ узнать структуру белка — хотя модели для фолдинга уже помогают делать это эффективнее [108].

Хорошее предсказание AlphaFold2 — Рисунок 10А. Хорошее предсказание *AlphaFold2*. Канонический пример из всех презентаций: для РНК-полимеразы и адгезина всё сошлось. Но не спешите радоваться, вращайте барабан...

AlphaFold: a solution to a 50-year-old grand challenge in biology

**Рисунок 10Б. Очевидно плохое предсказание AF2 для неаннотированного белка.** «Лапша» в модели отражает явно ошибочно предсказанные фрагменты (кстати, они очень напоминают выдачу программ моделирования на основе гомологии, когда частично отсутствует шаблон). Впрочем, в соответствии со встроенной оценкой pLDDT, *AlphaFold* честно отмечает неудачные сегменты, чтобы отличать их от более надежно свернутых.

AlphaFold

Высокая скорость работы нейросетевых моделей позволила применить их к огромным наборам данных. Так, AlphaFold в сотрудничестве с европейским институтом биоинформатики EMBL создали базу данных более 200 миллионов предсказанных с помощью AlphaFold структур [109], полностью смоделировав протеомы нескольких десятков организмов. Конкуренты AlphaFold — RosettaFold — предсказали структуры всех важных белковых комплексов дрожжей [110]. А с помощью ESMFold ученые предсказали более 600 миллионов (!) структур [63], включая неведомые метагеномные последовательности.

Базу данных предсказаний AlphaFold недавно использовала фармацевтическая компания Recursion, чтобы в партнерстве с Enamine предсказать 36 миллиардов пар взаимодействий белков с лекарствами. Впрочем, не ясно, всегда ли польза от таких исследований перекрывает затраченные ресурсы. Многие белки в нашем организме по разным причинам не подходят для создания лекарств; другие могут связаться с лигандом только в определенной конформации — но модель не предсказывает разных конформационных состояний; и таких проблем много. Пресс-релиз Recursion вышел ровно на следующий день после публикации статьи [111] о том, что модели AlphaFold не очень-то годятся для предсказания связывания белков с малыми молекулами. Часто аккуратное моделирование таких комплексов требует точно предсказывать положения атомов боковых групп аминокислот, и даже небольшая ошибка тут может быть критична. В результате многим исследователям перспективы AlphaFold и подобных моделей в драг-дизайне пока представляются не очень радужными. Процитируем Марию Карелину, критикующую использование AlphaFold2 для предсказания связывания малых молекул: «Модели, похожие на AlphaFold, очень хорошо предсказывают структуры белков, но нам всем еще предстоит подумать, как их использовать для создания лекарств» [112].

Конечно, у AlphaFold2 и других белковых моделей есть множество применений помимо драг-дизайна. Некоторые из них мы уже упоминали в разделе «Какие бывают белковые языковые модели?». Но есть и множество других: от борьбы с пластиком до спасения пчел. И тот факт, что белковые модели не решили всех наших проблем сразу, говорит лишь, что материала для обучения еще много! А значит, нас ожидают еще более удивительные технологические прорывы.

Чего ждать дальше?

Языковые модели (и не только они) неплохо дебютировали в различных областях биологии и химии. Где-то эти успехи локальные, на стадии подтверждения идеи, где-то модели уже пробуют внедрять более широко. Безусловно, нам стоит ожидать всё более глубокого проникновения технологий машинного обучения в научные и индустриальные процессы. Но, наверное, в ближайшие 10–15 лет нейросетям будет отведена в основном вспомогательная роль, а ключевыми останутся экспериментальные методы — как более надежные.

Это не значит, что машинное обучение никогда не сможет играть первую скрипку в биотехнологиях. Напротив — этот дебют показывает, в какое удивительное время мы живем. Уже сейчас модели машинного обучения позволяют быстрее получать структуры сложных белков [113–115], предсказывать свойства ферментов [116], свойства [117] и пути синтеза [118] малых молекул и многое другое [119], [120]. Но где-то нам бы хотелось большей точности, где-то — более высокой скорости. Часто мы ищем не просто ответ на вопрос, но объяснение, почему ответ такой. Ведь наука — это не только, да и не столько ответ, сколько понимание — почему всё устроено так. Но сейчас машинное обучение не дает объяснений — в лучшем случае мы получим достаточно точное предсказание, потребовавшее немало электроэнергии на питание датацентров; но не красивую и изящную теорию или новый закон природы. Однако во всех этих направлениях идет активная работа, и когда-нибудь ученики перерастут учителей, и в биотехнологиях воцарится искусственный интеллект.

Небольшая проблема, которая видна в том числе и из нашего текста: самые мощные и успешные модели разработаны в компаниях-техногигантах — AlphaFold в Google, семейство моделей ESM в Meta . К сожалению, у ученых из академии нет возможности состязаться с индустрией в ресурсах, что заметно снижает вероятность следующего технологического прорыва в академической среде. Дополнительная проблема возникает и из-за неопределенностей с будущим индустриальных моделей. Так, некоторое время назад Meta решила закрыть свои биологические проекты — так что развития семейство ESM, увы, не получит. (Хотя, возможно, какие-то разработки перекочуют в отколовшийся стартап.) Но по крайней мере уже разработанные модели Meta обещала не убирать из открытого доступа.

Признана в России экстремистской организацией.

Отсутствие сравнимых с частными компаниями ресурсов у ученых из университетов некоторые рассматривают как плюс, утверждая, что это заставляет ученых применять не «грубую силу», а мозг. Так, например, недавно ученые из Стэнфорда предложили гораздо более эффективный механизм донастройки языковых моделей под предпочтения людей [121]. Этот механизм уже использует компания Mistral в своей языковой модели Mixtral. Вероятно, это далеко не последнее улучшение эффективности, которое мы увидим.

Заверяем читателей: достижения языковых моделей в биологии и химии уже не стыдно показать людям, и то ли еще будет! Однако языковыми и белковыми моделями всё не ограничивается. В химии и биологии набирают обороты диффузионные генеративные модели, а модели ДНК и РНК позволяют по-новому взглянуть на «генетический текст», записанный в каждом из нас. Так что обязательно читайте следующие статьи нашего спецпроекта — будет еще много интересного.

Литература

История развития искусственного интеллекта и его пришествия в биологию;
Tristan Bepler, Bonnie Berger. (2021). Learning the protein language: Evolution, structure, and function. Cell Systems. 12, 654-669.e3;
Циклины и их помощники — регуляторы клеточного цикла;
Cayque Monteiro Castro Nascimento, André Silva Pimentel. (2023). Do Large Language Models Understand Chemistry? A Conversation with ChatGPT. J. Chem. Inf. Model.. 63, 1649-1655;
Andrew D. White, Glen M. Hocky, Heta A. Gandhi, Mehrad Ansari, Sam Cox, et. al.. (2023). Assessment of chemistry knowledge in large language models that generate code. Digital Discovery. 2, 368-376;
AlphaFold: нейросеть для предсказания структуры белков от британских ученых;
Белковые галлюцинации: как справляется AlphaFold?;
Обо всех РНК на свете, больших и малых;
Конструкторское бюро белков;
Aviv A. Rosenberg, Ailie Marx, Alex M. Bronstein. (2022). Codon-specific Ramachandran plots show amino acid backbone conformation depends on identity of the translated codon. Nat Commun. 13;
Carlos Outeiral, Charlotte M. Deane Codon language embeddings provide strong signals for protein engineering — Cold Spring Harbor Laboratory;
Veniamin Fishman, Yuri Kuratov, Maxim Petrov, Aleksei Shmelev, Denis Shepelin, et. al. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences — Cold Spring Harbor Laboratory;
Hannes H. Loeffler, Jiazhen He, Alessandro Tibo, Jon Paul Janet, Alexey Voronov, et. al.. (2024). Reinvent 4: Modern AI–driven generative molecule design. J Cheminform. 16;
Paul Maragakis, Hunter Nisonoff, Brian Cole, David E. Shaw. (2020). A Deep-Learning View of Chemical Space Designed to Facilitate Drug Discovery. J. Chem. Inf. Model.. 60, 4487-4496;
Krenn M., Häse F., Nigam A., Friederich P., Aspuru-Guzik A. (2019). Self-Referencing Embedded Strings (SELFIES): A 100% robust molecular string representation. Machine Learning: Science and Technology.;
Chithrananda S., Grand G., Ramsundar B. (2020). ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction. Computer Science: Machine Learning.;
Jieyu Lu, Yingkai Zhang. (2022). Unified Deep Learning Model for Multitask Reaction Predictions with Explanation. J. Chem. Inf. Model.. 62, 1376-1387;
Ross Irwin, Spyridon Dimitriadis, Jiazhen He, Esben Jannik Bjerrum. (2022). Chemformer: a pre-trained transformer for computational chemistry. Mach. Learn.: Sci. Technol.. 3, 015022;
Chilingaryan G., Tamoyan H., Tevosyan A., Babayan N., Khondkaryan L., Hambardzumyan K., Navoyan Z. (2022). BARTSmiles: Generative Masked Language Models for Molecular Representations. Computer Science: Machine Learning.;
Молекулярная динамика биомолекул. Часть I. История полувековой давности;
Новые успехи в предсказании пространственной структуры белков;
Торжество компьютерных методов: предсказание строения белков;
Thomas A. Hopf, Lucy J. Colwell, Robert Sheridan, Burkhard Rost, Chris Sander, Debora S. Marks. (2012). Three-Dimensional Structures of Membrane Proteins from Genomic Sequencing. Cell. 149, 1607-1621;
Grzegorz Chojnowski, Adam J. Simpkin, Diego A. Leonardo, Wolfram Seifert-Davila, Dan E. Vivas-Ruiz, et. al.. (2022). findMySequence: a neural-network-based approach for identification of unknown proteins in X-ray crystallography and cryo-EM. Int Union Crystallogr J. 9, 86-97;
Kiarash Jamali, Lukas Käll, Rui Zhang, Alan Brown, Dari Kimanius, Sjors H.W. Scheres Automated model building and protein identification in cryo-EM maps — Cold Spring Harbor Laboratory;
J. Dauparas, I. Anishchenko, N. Bennett, H. Bai, R. J. Ragotte, et. al.. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science. 378, 49-56;
Chloe Hsu, Robert Verkuil, Jason Liu, Zeming Lin, Brian Hie, et. al. Learning inverse folding from millions of predicted structures — Cold Spring Harbor Laboratory;
Xinyi Zhou, Guangyong Chen, Junjie Ye, Ercheng Wang, Jun Zhang, et. al.. (2023). ProRefiner: an entropy-based refining strategy for inverse protein folding with global graph attention. Nat Commun. 14;
Sarah Alamdari, Nitya Thakkar, Rianne van den Berg, Alex X. Lu, Nicolo Fusi, et. al. Protein generation with evolutionary diffusion: sequence is all you need — Cold Spring Harbor Laboratory;
Joseph L. Watson, David Juergens, Nathaniel R. Bennett, Brian L. Trippe, Jason Yim, et. al.. (2023). De novo design of protein structure and function with RFdiffusion. Nature. 620, 1089-1100;
Megan Egbert, Kathryn A. Porter, Usman Ghani, Sergei Kotelnikov, Thu Nguyen, et. al.. (2021). Conservation of binding properties in protein models. Computational and Structural Biotechnology Journal. 19, 2549-2566;
Paolo Braiuca, Knapic Lorena, Valerio Ferrario, Cynthia Ebert, Lucia Gardossi. (2009). A Three‐Dimensional Quanititative Structure‐Activity Relationship (3D‐QSAR) Model for Predicting the Enantioselectivity of Candida antarctica Lipase B. Adv Synth Catal. 351, 1293-1302;
Проблема фолдинга белка;
Финкельштейн А.В., Птицын О.Б. Физика белка: Курс лекций с цветными и стереоскопическими иллюстрациями и задачами. М.: КДУ, 2012. — 456 с.;
Роль слабых взаимодействий в биополимерах;
Christopher Bystroff, Kim T Simons, Karen F Han, David Baker. (1996). Local sequence-structure correlations in proteins. Current Opinion in Biotechnology. 7, 417-421;
R. C. PUNNETT. (1930). The Genetical Theory of Natural Selection. Nature. 126, 595-597;
Sewall Wright. (1931). EVOLUTION IN MENDELIAN POPULATIONS. Genetics. 16, 97-159;
Selvarajan Sigamani Sundaresan, Pandian Ramesh, Nagaraj Shobana, Thangaraj Vinuchakkaravarthy, Sayed Yasien, Mondikalipudur Nanjappa Gounder Ponnuswamy. (2021). Crystal structure of hemoglobin from mouse (Mus musculus) compared with those from other small animals and humans. Acta Cryst Sect F. 77, 113-120;
Roman Aranda, He Cai, Chad E. Worley, Elena J. Levin, Rong Li, et. al.. (2009). Structural analysis of fish versus mammalian hemoglobins: Effect of the heme pocket environment on autooxidation and hemin loss. Proteins. 75, 217-230;
Fabio Barteri, Alejandro Valenzuela, Xavier Farré, David de Juan, Gerard Muntané, et. al.. (2023). CAAStools: a toolbox to identify and test Convergent Amino Acid Substitutions. Bioinformatics. 39;
12 методов в картинках: «сухая» биология;
Peter Baumann, Stephen C West. (1998). Role of the human RAD51 protein in homologous recombination and double-stranded-break repair. Trends in Biochemical Sciences. 23, 247-251;
W.J. Browne, A.C.T. North, D.C. Phillips, Keith Brew, Thomas C. Vanaman, Robert L. Hill. (1969). A possible three-dimensional structure of bovine α-lactalbumin based on that of hen's egg-white lysozyme. Journal of Molecular Biology. 42, 65-86;
Saul B. Needleman, Christian D. Wunsch. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology. 48, 443-453;
Joseph Felsenstein. (1981). Evolutionary trees from DNA sequences: A maximum likelihood approach. J Mol Evol. 17, 368-376;
Chantal Korostensky, Gaston H. Gonnet. (2000). Using traveling salesman problem algorithms for evolutionary tree construction. Bioinformatics. 16, 619-627;
Erik L.L. Sonnhammer, Sean R. Eddy, Richard Durbin. (1997). Pfam: A comprehensive database of protein domain families based on seed alignments. Proteins. 28, 405-420;
12 методов в картинках: секвенирование нуклеиновых кислот;
Martin Weigt, Robert A. White, Hendrik Szurmant, James A. Hoch, Terence Hwa. (2009). Identification of direct residue contacts in protein–protein interaction by message passing. Proc. Natl. Acad. Sci. U.S.A.. 106, 67-72;
A. M. Lesk, C. H. Chothia. (1986). The Response of Protein Structures to Amino-Acid Sequence Changes. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. 317, 345-356;
Debora S. Marks, Lucy J. Colwell, Robert Sheridan, Thomas A. Hopf, Andrea Pagnani, et. al.. (2011). Protein 3D Structure Computed from Evolutionary Sequence Variation. PLoS ONE. 6, e28766;
Sheng Wang, Siqi Sun, Zhen Li, Renyu Zhang, Jinbo Xu. (2017). Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model. PLoS Comput Biol. 13, e1005324;
Sergey Ovchinnikov, David E. Kim, Ray Yu‐Ruei Wang, Yuan Liu, Frank DiMaio, David Baker. (2016). Improved de novo structure prediction in CASP11 by incorporating coevolution information into Rosetta. Proteins. 84, 67-75;
Jinbo Xu, Sheng Wang. (2019). Analysis of distance‐based protein structure prediction by deep learning in CASP13. Proteins. 87, 1069-1081;
Andrew W. Senior, Richard Evans, John Jumper, James Kirkpatrick, Laurent Sifre, et. al.. (2020). Improved protein structure prediction using potentials from deep learning. Nature. 577, 706-710;
Одна последовательность — одна структура: был ли Анфинсен неправ?;
Непохожие «гомологичные» белки;
Миллисекундный барьер взят!;
Bahdanau D., Cho K., Bengio Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. Computer Science: Computation and Language.;
Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L., Polosukhin I. (2017). Attention is All you Need. Neural Information Processing Systems;
Zilong Hou, Yuning Yang, Zhiqiang Ma, Ka-chun Wong, Xiangtao Li. (2023). Learning the protein language of proteome-wide protein-protein binding sites via explainable ensemble deep learning. Commun Biol. 6;
Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, et. al.. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 379, 1123-1130;
Ruidong Wu, Fan Ding, Rui Wang, Rui Shen, Xiwen Zhang, et. al. High-resolutionde novostructure prediction from primary sequence — Cold Spring Harbor Laboratory;
Ehsaneddin Asgari, Mohammad R. K. Mofrad. (2015). Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics. PLoS ONE. 10, e0141287;
Michael Heinzinger, Ahmed Elnaggar, Yu Wang, Christian Dallago, Dmitrii Nechaev, et. al. Modeling the language of life – Deep Learning Protein Sequences — Cold Spring Harbor Laboratory;
Rao R., Bhattacharya N., Thomas N., Duan Y., Chen X., Canny J. (2019). Evaluating Protein Transfer Learning with TAPE. Computer Science: Machine Learning.;
Bepler T., Berger B. (2019). Learning protein sequence embeddings using information from structure. Computer Science: Machine Learning.;
Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church. (2019). Unified rational protein engineering with sequence-based deep representation learning. Nat Methods. 16, 1315-1322;
Флуоресцирующая Нобелевская премия по химии;
Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, et. al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences — Cold Spring Harbor Laboratory;
Peters M., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. (2018). Deep contextualized word representations. Computer Science: Computation and Language.;
Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, et. al.. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proc. Natl. Acad. Sci. U.S.A.. 118;
Joshua Meier, Roshan Rao, Robert Verkuil, Jason Liu, Tom Sercu, Alexander Rives Language models enable zero-shot prediction of the effects of mutations on protein function — Cold Spring Harbor Laboratory;
Jing B., Eismann S., Suriana P., Townshend R., Dror R. (2020). Learning from Protein Structure with Geometric Vector Perceptrons. Quantitative Biology: Biomolecules.;
Ahmed Elnaggar, Michael Heinzinger, Christian Dallago, Ghalia Rehawi, Yu Wang, et. al.. (2022). ProtTrans: Toward Understanding the Language of Life Through Self-Supervised Learning. IEEE Trans. Pattern Anal. Mach. Intell.. 44, 7112-7127;
Michael Heinzinger, Konstantin Weissenow, Joaquin Gomez Sanchez, Adrian Henkel, Martin Steinegger, Burkhard Rost ProstT5: Bilingual Language Model for Protein Sequence and Structure — Cold Spring Harbor Laboratory;
Michel van Kempen, Stephanie S. Kim, Charlotte Tumescheit, Milot Mirdita, Jeongjae Lee, et. al.. (2024). Fast and accurate protein structure search with Foldseek. Nat Biotechnol. 42, 243-246;
Nadav Brandes, Dan Ofer, Yam Peleg, Nadav Rappoport, Michal Linial. (2022). ProteinBERT: a universal deep-learning model of protein sequence and function. Bioinformatics. 38, 2102-2110;
Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, et. al.. (2023). Large language models generate functional protein sequences across diverse families. Nat Biotechnol. 41, 1099-1106;
Noelia Ferruz, Steffen Schmidt, Birte Höcker. (2022). ProtGPT2 is a deep unsupervised language model for protein design. Nat Commun. 13;
Lewis Moffat, Shaun M. Kandathil, David T. Jones Design in the DARK: Learning Deep Generative Models for De Novo Protein Design — Cold Spring Harbor Laboratory;
Hesslow D., Zanichelli N., Notin P., Poli I., Marks D. (2022). RITA: a Study on Scaling Up Generative Protein Sequence Models. Quantitative Biology: Quantitative Methods.;
Kevin K. Yang, Nicolo Fusi, Alex X. Lu Convolutions are competitive with transformers for protein sequence pretraining — Cold Spring Harbor Laboratory;
Lewis Moffat, Shaun M. Kandathil, David T. Jones Design in the DARK: Learning Deep Generative Models for De Novo Protein Design — Cold Spring Harbor Laboratory;
Abel Chandra, Laura Tünnermann, Tommy Löfstedt, Regina Gratz. (2023). Transformer-based deep learning for predicting protein properties in the life sciences. eLife. 12;
Michael Heinzinger, Maria Littmann, Ian Sillitoe, Nicola Bordin, Christine Orengo, Burkhard Rost. (2022). Contrastive learning on protein embeddings enlightens midnight zone. NAR Genomics and Bioinformatics. 4;
Burkhard Rost. (1999). Twilight zone of protein sequence alignments. Protein Engineering, Design and Selection. 12, 85-94;
Claire D. McWhite, Isabel Armour-Garb, Mona Singh. (2023). Leveraging protein language models for accurate multiple sequence alignments. Genome Res.;
Roshan Rao, Jason Liu, Robert Verkuil, Joshua Meier, John F. Canny, et. al. MSA Transformer — Cold Spring Harbor Laboratory;
Brian L. Hie, Varun R. Shanker, Duo Xu, Theodora U. J. Bruun, Payton A. Weidenbacher, et. al.. (2024). Efficient evolution of human antibodies from general protein language models. Nat Biotechnol. 42, 275-283;
Nadav Brandes, Grant Goldman, Charlotte H. Wang, Chun Jimmie Ye, Vasilis Ntranos. (2023). Genome-wide prediction of disease variant effects with a deep protein language model. Nat Genet. 55, 1512-1522;
Dmitriy Umerenkov, Tatiana I. Shashkova, Pavel V. Strashnov, Fedor Nikolaev, Maria Sindeeva, et. al. PROSTATA: Protein Stability Assessment using Transformers — Cold Spring Harbor Laboratory;
Dmitriy Umerenkov, Fedor Nikolaev, Tatiana I Shashkova, Pavel V Strashnov, Maria Sindeeva, et. al.. (2023). PROSTATA: a framework for protein stability assessment using transformers. Bioinformatics. 39;
12 методов в картинках: структурная биология;
Corso G., Stärk H., Jing B., Barzilay R., Jaakkola T. (2023). DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking. Quantitative Biology: Biomolecules.;
Yu Y., Lu S., Gao Z., Zheng H., Ke G. (2023). Do Deep Learning Models Really Outperform Traditional Approaches in Molecular Docking?. Quantitative Biology: Biomolecules.;
Martin Buttenschoen, Garrett M. Morris, Charlotte M. Deane. (2024). PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences. Chem. Sci.. 15, 3130-3139;
Rohit Singh, Samuel Sledzieski, Bryan Bryson, Lenore Cowen, Bonnie Berger. (2023). Contrastive learning in protein language space predicts interactions between drugs and protein targets. Proc. Natl. Acad. Sci. U.S.A.. 120;
Tatiana I. Shashkova, Dmitriy Umerenkov, Mikhail Salnikov, Pavel V. Strashnov, Alina V. Konstantinova, et. al.. (2022). SEMA: Antigen B-cell conformational epitope prediction using deep transfer learning. Front. Immunol.. 13;
Adam J. Simpkin, Shahram Mesdaghi, Filomeno Sánchez Rodríguez, Luc Elliott, David L. Murphy, et. al.. (2023). Tertiary structure assessment at CASP15. Proteins. 91, 1616-1635;
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, et. al.. (2021). Highly accurate protein structure prediction with AlphaFold. Nature. 596, 583-589;
Minkyung Baek, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, et. al.. (2021). Accurate prediction of protein structures and interactions using a three-track neural network. Science. 373, 871-876;
Gustaf Ahdritz, Nazim Bouatta, Christina Floristean, Sachin Kadyan, Qinghui Xia, et. al. OpenFold: Retraining AlphaFold2 yields new insights into its learning mechanisms and capacity for generalization — Cold Spring Harbor Laboratory;
Milot Mirdita, Konstantin Schütze, Yoshitaka Moriwaki, Lim Heo, Sergey Ovchinnikov, Martin Steinegger. (2022). ColabFold: making protein folding accessible to all. Nat Methods. 19, 679-682;
Zhidian Zhang, Hannah K Wayment-Steele, Garyk Brixi, Haobo Wang, Matteo Dal Peraro, et. al. Protein language models learn evolutionary statistics of interacting sequence motifs — Cold Spring Harbor Laboratory;
Hannah K. Wayment-Steele, Adedolapo Ojoawo, Renee Otten, Julia M. Apitz, Warintra Pitsawong, et. al.. (2024). Predicting multiple conformations via sequence clustering and AlphaFold2. Nature. 625, 832-839;
Thomas C. Terwilliger, Dorothee Liebschner, Tristan I. Croll, Christopher J. Williams, Airlie J. McCoy, et. al.. (2024). AlphaFold predictions are valuable hypotheses and accelerate but do not replace experimental structure determination. Nat Methods. 21, 110-116;
Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, et. al.. (2022). AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models. Nucleic Acids Research. 50, D439-D444;
Ian R. Humphreys, Jimin Pei, Minkyung Baek, Aditya Krishnakumar, Ivan Anishchenko, et. al.. (2021). Computed structures of core eukaryotic protein complexes. Science. 374;
Masha Karelina, Joseph J. Noh, Ron O. Dror How accurately can one predict drug binding modes using AlphaFold models? — eLife Sciences Publications, Ltd;
Carrie Arnold. (2023). AlphaFold touted as next big thing for drug discovery — but is it?. Nature. 622, 15-17;
Irène Barbarin-Bocahu, Marc Graille. (2022). The X-ray crystallography phase problem solved thanks to AlphaFold and RoseTTAFold models: a case-study report. Acta Cryst Sect D Struct Biol. 78, 517-531;
Véronique Receveur-Bréchot. (2023). AlphaFold, small-angle X-ray scattering and ensemble modelling: a winning combination for intrinsically disordered proteins. J Appl Cryst. 56, 1313-1314;
Thomas C. Terwilliger, Billy K. Poon, Pavel V. Afonine, Christopher J. Schlicksup, Tristan I. Croll, et. al.. (2022). Improved AlphaFold modeling with implicit experimental information. Nat Methods. 19, 1376-1382;
Stanislav Mazurenko, Zbynek Prokop, Jiri Damborsky. (2020). Machine Learning in Enzyme Engineering. ACS Catal.. 10, 1210-1223;
Evan N. Feinberg, Elizabeth Joshi, Vijay S. Pande, Alan C. Cheng. (2020). Improvement in ADMET Prediction with Multitask Deep Featurization. J. Med. Chem.. 63, 8835-8848;
Connor W. Coley, William H. Green, Klavs F. Jensen. (2018). Machine Learning in Computer-Aided Synthesis Planning. Acc. Chem. Res.. 51, 1281-1289;
Adam C. Mater, Michelle L. Coote. (2019). Deep Learning in Chemistry. J. Chem. Inf. Model.. 59, 2545-2559;
Sarah Webb. (2018). Deep learning for biology. Nature. 554, 555-557;
Rafailov R., Sharma A., Mitchell E., Ermon S., Manning C., Finn C. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. Computer Science: Machine Learning..

Поддержите нас в деле просвещения

Больше Биомолекула рассказывает о биологии и медицине — сейчас у нас на сайте несколько тысяч статей. Если вам нравится наш сайт и вы хотите, чтобы он дальше работал, поддержите нас, пожалуйста, посильной суммой — разово или ежемесячно. Ежемесячные платежи предпочтительнее 😀

Как языковые модели покорили мир белков

Как языковые модели покорили мир белков

Авторы

Редакторы

Иллюстратор

Темы

Искусственный интеллект в биологии

На каком языке с нами общаются молекулы?

Что нового о биохимии помогут узнать языковые модели?