Как языковые модели покорили мир белков
07 марта 2024
Как языковые модели покорили мир белков
- 2021
- 1
- 9
-
Авторы
-
Редакторы
-
Иллюстратор
На фоне конкуренции между Microsoft, Google, Meta, Amazon и другими техногигантами за звание обладателя лучшего чат-бота, достижения аналогичных моделей в биохимии и структурной биологии остаются слегка за кадром. А успехи есть, и еще какие! В этой статье спецпроекта «Искусственный интеллект в биологии» «Биомолекула» постарается исправить несправедливость и расскажет, как работают «большие языковые модели» на последовательностях биомолекул и к чему их можно применить в биологии. Мы также обсудим аналогии между биополимерами и привычными нам текстами, которые позволяют применять языковые модели к белкам и ДНК. Не забудем поговорить и про нашумевший AlphaFold — причем будем его не только хвалить! Ну и как всегда, поделимся кейсами, которые уже меняют структурную и другие области биологии.
Искусственный интеллект в биологии
Развитие искусственного интеллекта в последнее десятилетие столь стремительно, что любые новости о нем устаревают вскоре после публикации. ИИ уже вышел за свои традиционные рамки (область информационных технологий) и вошел в другие сферы — например, научные исследования. В нашем спецпроекте мы хотим рассказать о достижениях ИИ в области современной (то есть молекулярной) биологии.
Партнер спецпроекта — научно-исследовательский Институт искусственного интеллекта AIRI: автономная некоммерческая организация, объединяющая ученых и инженеров данных. Миссия AIRI — создание универсальных систем ИИ, решающих задачи реального мира. AIRI активно развивает партнерства между академическим сообществом, промышленностью и образовательными организациями с целью поиска возможностей применения ИИ для решения сложных научных, социальных и экономических задач. Институт проводит профильные конференции и мероприятия, включая самую крупную в РФ летнюю школу по искусственному интеллекту для студентов, аспирантов и молодых исследователей «Лето с AIRI».
На волне популярности совсем еще молодого ChatGPT — чат-бота от компании OpenAI, основанного на большой языковой модели , — мы решили выяснить, можно ли уже наконец отложить все справочники по биохимии (да и прочим наукам) и просто узнать всё у бота. Ведь эта модель уже «прочитала» всё, что только можно было прочитать, а значит, может знать ответы и на наши вопросы. Увы, наш небольшой эксперимент показал, что по крайней мере на данный момент это не так (рис. 1). Пока что, отвечая даже на самые простые вопросы, ChatGPT далеко не всегда дает осмысленные ответы. На попытку узнать что-то о функции белка по его последовательности чат-бот смог выдать лишь очень краткую и общую справку о возможных функциях белков (рис. 1Г и Д).
Мы будем использовать аббревиатуру LLM для больших языковых моделей, однако за некоторыми терминами и сокращениями отсылаем читателей к первой статье спецпроекта: «История развития искусственного интеллекта и его пришествия в биологию» и содержащемуся там глоссарию [1]. Приведем небольшой словарик и здесь.
Упомянутая в статье компания Meta признана экстремистской организацией.
Конечно, мы далеко не первыми решили проэкзаменовать ChatGPT: ученые проводили гораздо более системные и вдумчивые проверки [4]. Однако выводы коллег были очень похожи на наши: ChatGPT пока не готов тягаться с экспертами. Некоторые ученые решили исправить этот недочет. Они научили ChatGPT спрашивать совет у специальных программ, которые предсказывают свойства биомолекул, и он прошел экзамен с куда бóльшим успехом. Кроме того, ученые использовали возможности ChatGPT для написания кода новых программ и пайплайнов вычислительной химии и биологии [5].
Конечно, подобным применением чатботов использование LLM в биофизике и смежных областях не исчерпывается. В этой статье мы подробно расскажем, почему LLM могут снискать успех в химии и биологии; как с помощью языковых моделей можно предсказывать структуры белков (и даже дизайнить новые!), какие еще свойства биомолекул можно рассчитывать с помощью LLM, а также обсудим некоторые недостатки языковых и других ML-моделей на примере нашумевшей AlphaFold .
Ну а если вы ничего не слышали про AlphaFold, то вам обязательно надо начать с первой статьи спецпроекта: «История развития искусственного интеллекта и его пришествия в биологию» [1] и других публикаций «Биомолекулы» [6], [7].
Чтобы лучше понимать материал, мы будем объяснять важные для LLM в биохимическом моделировании понятия и идеи во врезках (первая из них расскажет, зачем и как представлять слова как векторы). Если материал во врезках кажется вам знакомым, вы можете их безболезненно пропускать. Однако если встречающиеся термины вызовут дискомфорт, мы рекомендуем обратиться к первой статье цикла, где рассказывается про основные вехи развития машинного обучения. Также там есть достаточно подробный глоссарий, который позволит лучше ориентироваться в используемых терминах.
На каком языке с нами общаются молекулы?
Когда мы говорим о языковых моделях в применении к биологии или химии, сразу возникает закономерный вопрос — «А разве биомолекулы умеют разговаривать?». Конечно же, нет! И как же тогда применять LLM для биомолекул? Чтобы дать ответ, нужно вспомнить, какие биомолекулы вообще бывают и как они устроены. Схема главных биологических процессов и общения между молекулами на их «языках» показана на рисунке 3.
Почему же язык белков, РНК и ДНК подходит для обучения языковых моделей? Дело в том, что моделям нужны лишь численные представления текстов. Откуда эти числа появились — не так важно. По сути, в качестве «текста» может выступать любая последовательность — музыка как набор звуков, фильм как лента из кадров, белок как последовательность аминокислот. Математика, стоящая за LLM, применима ко всем ним. Единственное важное предположение — это наличие связи между контекстом и текущим элементом. В биологии эта связь есть (рис. 4): например, структуры коротких аминокислотных последовательностей определяют структуру всего белка — принцип, лежащий в основе алгоритма моделирования белков Rosetta, о котором мы писали в статье «Конструкторское бюро белков» [9]. А раз главное условие выполнено, значит, LLM можно применить к белкам, РНК и ДНК (и, как позже скажем, к малым молекулам). И такие модели действительно работают!
В этом месте у читателя может возникнуть вопрос: а если ДНК, РНК и белки так тесно связаны, то зачем нужны отдельные ДНК, РНК или белковые модели? Не проще ли обучать все модели на языке ДНК, например? Дело в том, что для разных задач нам нужны разные данные. Чтобы предсказать структуру белка, мы могли бы использовать последовательность ДНК, но в ней находится слишком много не относящейся к данному белку информации. Выкинув всё лишнее, мы получим только кодирующую наш белок последовательность мРНК. Переведя ее на язык аминокислот, мы уменьшим размер входных данных втрое, а значит, и обучение пойдет быстрее . В этом случае работать с текстом из аминокислот кажется разумнее. Если же мы хотим предсказать функцию участка ДНК по его последовательности , то, напротив, уже последовательность белка не подойдет, ведь этот участок ДНК может просто не кодировать белки. Поэтому — у каждого языка свои преимущества.
Кое-какую информацию мы всё-таки потеряем: недавно ученые посмотрели, есть ли зависимость между структурой аминокислоты и ее кодоном [10]. Оказалось, что есть 😱: распределение двугранных углов, описывающих конформацию аминокислоты, зависит от определяющего кодона. В свете этой информации исследователи задумались о белковых моделях, обученных на языке ДНК [11].
Как раз такую модель, способную определять роль участка ДНК по последовательности, выпустил партнер этого материала — Институт AIRI. Модель назвали Геной (GENA-LM) [12].
В следующих частях этого текста мы сосредоточимся на белковых моделях. О ДНК и РНК «Биомолекула» расскажет позднее.
Что нового о биохимии помогут узнать языковые модели?
«Кто не знает иностранных языков, ничего не знает и о своем собственном», — сказал Гёте. Значит, понимая язык белков, мы можем лучше понять, как устроены сами — по крайней мере, на молекулярном уровне. А помочь в этом должны «переводчики» — белковые LLM (или PLM). Чтобы понять, какую информацию о белках в принципе могут для нас добыть языковые модели, давайте вспомним несколько концепций из биохимии и биофизики.
В разделе «На каком языке с нами общаются молекулы?» мы обсуждали, что функция белков во многом определяется их структурой, а структура — последовательностью (ее также называют первичной структурой). Эта взаимосвязь не оставляла ученых в покое. Задолго до появления машинного обучения они пытались предсказать один из компонентов триады «структура — последовательность — функция» по-другому (рис. 6).
Аминокислоты, как и слова в обычном тексте, сами по себе несут важный для структуры и функции белка смысл. Полярные аминокислоты скорее всего окажутся на поверхности белка и будут взаимодействовать с водой, а неполярные спрячутся от воды внутрь; эти правила хорошо известны в фолдинге белковых молекул [33]. Заряженные аминокислоты могут участвовать в важных функциональных взаимодействиях, пролин вызывает изгиб в белковой цепочке — на каждую аминокислоту найдется по нескольку подобных свойств и предпочтений [34], [35]. Поэтому простейшие методы предсказания параметров белков начинались со сбора статистики по отдельным аминокислотам.
Довольно быстро ученые заметили, что локальные последовательности белка тесно связаны с локальной структурой [36] — как и в случае с текстами, контекст определяет смысл. А значит, похожие участки разных последовательностей указывают на функциональную схожесть соответствующих белков, а контекст можно искать не только в пределах одной последовательности, но и сравнивая между собой многие.
У такого подхода к анализу последовательностей есть понятная эволюционная предпосылка. В живых организмах совокупно функционируют миллионы различных белков (причем видов живых существ намного больше, чем разновидностей белков в одном организме). Такому разнообразию мы обязаны эволюции, которая меняет и организмы, и составляющие их белки — постепенно [37], мутация за мутацией [38]. У эволюционно близких организмов найдутся и родственные белки со похожими последовательностями — их называют гомологичными, или гомологами. Например, в крови практически всех позвоночных есть переносящий кислород белок гемоглобин, но у человека он отличается от гемоглобина мыши (86% сходства [39]), и еще сильнее — от гемоглобинов рыб (уже лишь 54% сходства [40]). Однако не всегда схожесть последовательностей — признак близкого родства; к этому может приводить и конвергентная эволюция [41].
Чтобы найти сходства или различия между последовательностями, их выравнивают, размещая «в столбик» так, чтобы сходные участки находились друг под другом [42]. Разобравшись с этой достаточно сложной задачей, можно находить гомологичные последовательности и выявлять их общие свойства. Например, разумно предположить, что гомологичные белки могут выполнять те же функции [43] и иметь близкую структуру. Это и было подтверждено в 1969 году, когда на основе структуры лизоцима ученые смогли предсказать структуру гомологичного ему белка [44]. Сегодня такой подход называется «моделированием по гомологии» [22], [42].
В примерах выше ученые делали выводы о белке, выравнивая гомологичные последовательности попарно [45]. Но можно сопоставить и сразу несколько эволюционно связанных последовательностей — это будет множественное выравнивание последовательностей, или MSA (от английского Multiple Sequence Alignment) [42]. MSA впервые появились в 1980-е годы [46] и нашли множество применений: от построения филогенетических деревьев [47] до классификации белковых доменов [48]. Эта концепция нам очень потребуется дальше, потому что отражает эволюцию белковых молекул, косвенно храня отпечаток и их структуры.
Рост вычислительных мощностей и качества MSA-методов, а также появление из геномных проектов большого числа последовательностей ДНК и белков [49] позволили ученым по-новому исследовать белки. Например, они установили связь между неизменными в ходе эволюции, или консервативными, участками последовательностей и их функциональной значимостью. Более того, оказалось, что фрагменты белка или нескольких белков, которые в ходе эволюции всегда изменялись вместе, могут быть связаны одной функцией, а также находиться недалеко друг от друга в пространстве. Это называется коэволюцией: изменение одного остатка вызывает изменение прочих связанных с ней аминокислот.
На сегодняшний день в нашем распоряжении есть приблизительно 500 тысяч хорошо аннотированных последовательностей, 250 миллионов не очень хорошо аннотированных и больше миллиарда (!) гораздо менее качественных сиквенсов из метагеномного анализа.
Вооружившись MSA, ученые стали анализировать белки с известной структурой — и действительно, оказалось, что коэволюция часто «подсвечивает» пространственно близкие участки белка [22], [50], [51]. Сейчас такие фрагменты последовательностей ищут с помощью как классических статистических методов [52], так и нейронных сетей [53]. В результате получаются матрицы контактов между аминокислотами, существенно упрощающие предсказание 3D-структуры белка [54] (это привело к значительному скачку в качестве «слепых» предсказаний структуры в соревнованиях CASP). Со временем с помощью всё более сложных нейронных сетей ученые научились предсказывать из MSA не только контакты, но и расстояния между аминокислотами [55]. Например, первая версия модели AlphaFold [56] опиралась на предсказание не просто расстояний, а их распределений [6]; а следующий релиз программы — AlphaFold2 — научился выдавать уже готовую 3D-структуру (о чем мы расскажем дальше).
Выходит, что если у белка есть гомологи с известными структурой и свойствами, или хотя бы достаточно много последовательностей для построения MSA, то получится предсказать и его строение . Но в этом и состоит главный недостаток таких подходов — необходимость подборки сходных последовательностей: и чем больше, тем лучше. Без хорошего MSA даже AlphaFold2 не всегда справляется с предсказанием структуры, а ведь для многих белков у нас нет информации ни об их эволюции, ни о «родственниках». Так можем ли мы эффективно предсказывать структуру и функции белка по одной лишь его собственной последовательности?
Хотя есть удивительные примеры белков, отличающихся одной аминокислотой и имеющих максимально отличные структуры [57], [58].
В этой статье речь совсем не идет про установление структуры на основе прямого физического моделирования. Определенные успехи тут имеются (см., например, статьи «Миллисекундный барьер взят!» [59] и «Новые успехи в предсказании пространственной структуры белков» [21]), однако требуемые вычислительные мощности настолько высоки, а результат при этом настолько ненадежен, что на практике для определения 3D-структуры такие подходы так и не начали использоваться.
Отчасти, положительно ответить на этот вопрос нам помогли белковые языковые модели (PLM, от Protein Language Models) — результат применения методов NLP к языку белков. В отличие от явного сопоставления последовательностей с помощью MSA, PLM основаны на практически противоположном принципе: неявном поиске закономерностей внутри каждой последовательности в надежде вычленить такие, что отличают существующие в последовательности аминокислоты от случайных. Таким образом в модели будут закодированы отличительные особенности и «слов» (отдельных аминокислот), и «словосочетаний» (подпоследовательностей); а также «синтаксические и семантические отношения» (связи между разными частями последовательности).
Добиваются этого в процессе обучения модели. Ее параметры оптимизируют на множестве последовательностей так, чтобы компактно представить в виде эмбеддинга максимально возможную информацию о каждой аминокислоте и ее контексте. Благодаря этому модель учится обобщать информацию о последовательностях и переносить выводы об одних последовательностях на другие, лишь отдаленно на них похожие. В итоге с помощью полученных эмбеддингов можно сравнивать аминокислоты и их контексты друг с другом, не прибегая к MSA. Например, у похожих участков последовательностей будут похожие эмбеддинги.
Получается, что PLM косвенно позволяют нам узнать всё, что можно «выудить» из MSA-выравнивания, без необходимости его явно считать . Кроме того, после обучения PLM, вероятно, «запомнит» корпус последовательностей в очень сжатом представлении, и при каждом запуске модель будет рассчитывать для переданной последовательности быстрый «аналог MSA». Чтобы всё это работало, PLM нужно иметь возможность рассматривать каждую аминокислоту в контексте всей последовательности. Этого позволяют добиться современные архитектуры нейросетей вроде RNN и трансформеров, о которых мы расскажем во врезке «Как развивались современные LLM» чуть ниже.
Расчет такого аминокислотного выравнивания может стать настоящей проблемой, если речь идет о поиске в действительно большой базе последовательностей типа Big Fantastic Database: каждая такая операция требует перелопачивания терабайтов (!) данных.
Например, 26 гигабайт базы данных UniRef50, насчитывающей более 45 миллионов последовательностей (или 14 миллиардов аминокислот), можно ужать в модели размером от нескольких мегабайт до сравнимых 28 гигабайт.
Так как в эмбеддингах содержится огромное количество информации в математически удобном представлении, их можно использовать для решения множества разных задач. Например, подавая эмбеддинги из PLM на вход любой другой модели машинного обучения, можно добиться отличных результатов в предсказании сайтов связывания белков друг с другом [62] или матриц контактов в белке [63]. Более подробно применение PLM мы еще обсудим в следующей главе.
Модели машинного обучения, применяемые к уже готовым эмбеддингам, могут быть самыми разными. В простейшем случае это маленькая модель, натренированная предсказывать заданную величину в рамках обучения с учителем (см. глоссарий из первой статьи [1]). Можно использовать и более сложные подходы, а также дополнительные данные: так модель выучит больше и будет обладать лучшей предсказательной силой. Именно этот подход использовали разработчики PLM для предсказания структуры белка [63], о которой мы расскажем подробнее в главе «Стоит ли белковым моделям еще подучиться?» [63], [64]. Описанное выше использование предобученной модели для решения другой задачи известно в машинном обучении как перенос обучения (от англ. transfer learning).
Какие бывают белковые языковые модели?
До появления рекуррентных нейросетей и трансформеров ученые не раз применяли методы NLP к белкам. Например, в 2015 году вышла основанная на принципе Word2Vec модель под названием ProtVec, обученная на аминокислотных последовательностях [65]. Ее эмбеддинги позволяли предсказывать, к какому семейству относится белок, а также отличать неупорядоченные участки белков от хорошо свернутых.
В 2019 году вышло сразу несколько «белковых языковых моделей» (PLM) — правда, тогда их называли просто «эмбеддингами белков» , но уже тогда они несли информацию об эволюции, функциях и даже структуре белков. В таблице 1 мы приводим неполный список таких моделей, включая и самые ранние разработки, отмечая их фундаментальный вклад в саму идею PLM (хотя они всё еще работали хуже, чем методы на базе MSA [66], [67]).
В «далеком» 2019 году LLM для естественных языков (по нынешним меркам — просто LM) обучали на сравнительно небольших наборах данных. Применение этих моделей к белкам оказалось прорывом в том числе и по объему данных. Например, корпус текстов из Википедии, на котором часто обучали старые LM, — это всего 10% от объема библиотеки UniRef50, которую использовали для первых белковых нейросетей [66].
Группа моделей | Название, дата релиза и авторы | Описание модели |
---|---|---|
Первые PLM 2019 года | SSA [2], [68] (2019): ученые из MIT | Эмбеддинги кодировались двунаправленной LSTM, обученной на 21,8 миллионе последовательностей из базы данных белковых семейств Pfam. Для улучшения качества модели авторы использовали данные, аннотированные структурной информацией, вынуждая ее предсказывать похожие эмбеддинги для аминокислот со схожими структурными контекстами |
UniRep [69] (2019): коллектив из Гарвардского университета | Рекуррентная нейросеть с архитектурой mLSTM и 18,2 миллионами параметров, обученная предсказывать каждую следующую аминокислоту на 24 миллионах последовательностей из базы данных UniRef50. В одном из вычислительных экспериментов у ученых получилось дообучить модель на последовательностях зеленых флуоресцентных белков [70] так, чтобы она могла отличать светящиеся белки от их несветящихся версий, содержащих всего несколько мутаций | |
Transformer [71] — модель-предшественник ESM (2019): группа ученых из Университета Нью-Йорка и Facebook AI Research | Трансформер с 70 миллионами параметров, обученный предсказывать маскированные и искаженные аминокислоты. Авторы использовали базу данных UniParc, содержавшую на тот момент 250 миллионов последовательностей. У этой модели даже не было отдельного названия — просто «Трансформер»; но за два последующих года ученые значительно ее доработали и выпустили ESM-1b | |
Семейство моделей TAPE [67] (2019): коллектив из Беркли | Авторы сравнивали разные архитектуры: двунаправленную LSTM, сверточную нейросеть ResNet, а также трансформер с 38 миллионами параметров, предсказывающий маскированные и искаженные аминокислоты. Эмбеддинги успешно проверили на задачах предсказания вторичной структуры и матриц контактов белка, а также гомологов. Важным вкладом этой работы была система тестов для PLM, адаптированная под исследователей в области машинного обучения | |
SeqVec [66] — модель для расчета эмбеддингов аминокислот (2019): ученые из Технического Университета Мюнхена | Модель была основана на архитектуре ELMo [72] — двунаправленной LSTM, заточенной под эмбеддинги. Была обучена на 33 миллионах последовательностей из UniRef50 и имела 93 миллиона параметров. Сначала эмбеддинги SeqVec проверили на предсказании свойств отдельных аминокислот, а затем обобщили их для предсказания глобальных свойств белка в целом | |
Некоторые модели из семейства ESM: Facebook AI Research / Meta AI | ESM-1b [73] и ESM-1v [74] (2021) | Трансформер, предсказывающий маскированные и искаженные аминокислоты, с 650 миллионами параметров. ESM-1b обучен на 27 миллионах последовательностей из UniRef50, а ESM-1v состоит из консенсусно принимающих решения пяти разных ESM-1b, обученных на 98 миллионах последовательностей из UniRef90. ESM-1v была впервые представлена в статье, посвященной предсказанию эффектов от мутаций |
ESM-2 [63] (2022) | Трансформер, предсказывающий маскированные и искаженные аминокислоты, имеющий от 3 до 15 миллиардов (!) параметров в разных версиях. Обучен на UniRef50. Эмбеддинги из ESM-2 широко применяются в самых разных задачах; кроме того, на них основана модель для фолдинга белка ESMFold и «метагеномный атлас» ESM | |
ESM-IF1 [27] (2022) | Авторегрессионный трансформер с GVP-модулем [75] для обработки структуры белка с 142 миллионами параметров, обученный на 12 миллионах последовательностей из UniProt50 со структурами, сгенерированными с помощью AlphaFold. Решает задачу обратного фолдинга, позволяя сгенерировать последовательность, которая «подходит» известной структуре, или предсказывать эффект от мутаций | |
Некоторые модели из семейства ProtTrans, Технический Университета Мюнхена | ProtT5 [76] (2022) | Трансформер с 3 миллиардами параметров на архитектуре T5, разработанной для машинного перевода. Обучался предсказывать маскированные и искаженные аминокислоты. Чаще всего используется версия, обученная на 45 миллионах последовательностей из UniRef50 |
ProstT5 [77] (2023) | Трансформер, основанный на ProtT5 и дообученный на 17 миллионах последовательностей со сгенерированными AlphaFold структурами, чтобы переводить со «структурного языка», кодирующего особенности структуры каждой аминокислоты [78], на «аминокислотный». Решает задачу обратного фолдинга | |
ProteinBERT | ProteinBERT [79] (2022): группа ученых из Еврейского университета в Иерусалиме и Университета имени Бен-Гуриона | Трансформер с архитектурой BERT, обученный на 106 миллионах последовательностей из UniRef90. Это совсем небольшая модель — «всего» 16 миллионов параметров. Помимо стандартного для BERT обучения на предсказании скрытых и поврежденных элементов последовательности, авторы обучали модель предсказывать генно-онтологические аннотации каждой последовательности, чтобы улучшить ее способности к обобщению информации о белках |
Генеративные модели для дизайна белковых последовательностей | ProGen [80] (2023): коллаборация ученых из нескольких компаний, а также Калифорнийского Университета в Беркли и Сан-Франциско | Генеративная модель. Авторегрессионный трансформер с 1,2 миллиардами параметров, обученный на 280 миллионах последовательностей из нескольких источников. В качестве эксперимента ученые сгенерировали последовательности, похожие на белки из семейства лизоцимов (с близкими и далекими от настоящих лизоцимов последовательностями) и флуоресцентные белки. Большинство белков удалось экспрессировать, а часть сохранила функциональную активность; для одного белка авторы получили кристаллографическую структуру |
ProtGPT2 [81] (2022): ученые из Университета Байройта (Германия) | Генеративная модель с 738 миллионами параметров, основанная на авторегрессионных трансформерах (архитектуре GPT). Обучена на 44,9 миллионах последовательностей из UniRef50. Авторы провели хороший вычислительный анализ полученных белковых дизайнов | |
DARK [82] (2022): ученые из Университетского колледжа Лондона | Генеративная модель, основанная на авторегрессионных трансформерах. В отличие от других моделей из нашего списка, для обучения авторы использовали не реально существующие последовательности, а полностью синтетические, оценивая их качество с помощью внешней модели для белкового фолдинга. Этим они добились большей гибкости модели в задаче белкового дизайна | |
RITA [83] (2022): коллаборация ученых из Франции, Великобритании и США | Семейство генеративных моделей, основанных на авторегрессионных трансформерах (до 1,2 миллиардов параметров). Для обучения авторы использовали несколько различных баз данных последовательностей. Хотя RITA технически является генеративной моделью, авторы практически не валидировали ее в этом режиме | |
Модели от Microsoft AI Research | CARP [84] (2022) | Сверточная нейросеть с разреженными свертками (dilated convolution). Обучена на 42 миллионах последовательностей из UniRef50 и насчитывает 640 миллионов параметров. Основной вывод авторов: на белковых последовательностях свертки работают не хуже трансформера |
EvoDiff [29] (2023) | Генеративная модель. Основана на архитектуре CARP, но использует для генерации последовательностей диффузию в дискретном пространстве аминокислот. По сравнению с авторегрессионными моделями, генерирующими последовательность строго «слева-направо», дизайн белков с EvoDiff более гибкий и позволяет учесть больше условий для уточнения дизайна белка — но структурные характеристики модель кодирует хуже | |
Признана в России экстремистской организацией. |
В последующие несколько лет область активно развивалась, и было опубликовано множество всё более сложных и масштабных белковых языковых моделей. В этой статье мы упомянем лишь некоторые из них. Так, группа исследователей из компании Meta под руководством Александра Райвса, за два года доработав свой безымянный «Трансформер» из 2019-го, выпустила модель ESM-1b [73], обученную на предсказании маскированных аминокислот из 27,1 миллионов последовательностей из базы данных UniRef50. На сегодняшний день ESM — широко используемое семейство моделей, размер которых варьирует от 650 миллионов до 15 миллиардов параметров. При этом запустить и скачать их может практически каждый, даже не имея доступа к высокопроизводительному графическому ускорителю.
Признана в России экстремистской организацией.
Эмбеддинги из ESM-1b и более поздней ESM-2 [63], также обученной на UniRef50, могут предсказывать пространственные контакты между аминокислотами в белке — а это уже прямая дорога к предсказанию пространственной структуры (см. рис. 6). Более того, добавив к эмбеддингам из ESM-2 структурный модуль (позаимствованный из AlphaFold), ученые разработали ESMFold [63] — модель для фолдинга белка, не нуждающуюся в эволюционной информации. Фактически, это предсказание структуры напрямую из одной только последовательности, без доступа не только к структурам, но и к гигантским базам последовательностей (зато сам размер «предсказателя» очень велик благодаря нескольким миллиардам параметров нейросети). Подробнее о моделях ESMFold и AlphaFold для предсказания структуры белков мы поговорим в следующей главе.
Еще одна популярная и одна из первых PLM — семейство ProtTrans [76] от авторов SeqVec под руководством Буркхарда Роста. Для обучения разработчики использовали три базы данных: UniRef50, UniRef100 и BFD, содержавшие на тот момент 45 млн, 216 млн и невероятные 2,1 млрд (!) белковых последовательностей. Архитектуры тоже выбрали разные — BERT, T5 (классический трансформер, заточенный под задачи перевода) и другие трансформеры . Наиболее перспективной из всех предложенных моделей в результате оказалась ProtT5, насчитывающая 3 миллиарда параметров: в некоторых задачах она работала даже лучше, чем ESM-1b . Год спустя вышла ее улучшенная версия ProstT5 [77]: если раньше модель «переводила» с белкового языка на белковый с одной лишь целью обучения промежуточного эмбеддинга, то теперь она стала «переводить» на структурный [78] — и наоборот! Ограничения модели не позволяют полноценно моделировать структуры белков, как это делает ESMFold, но дают возможность проводить обратный фолдинг.
Получившиеся модели авторы назвали Prot + «название архитектуры»: ProtBERT, ProtT5, ProtAlbert и так далее.
Например, в предсказании вторичной структуры из всех протестированных авторами моделей только эмбеддинги из ProtT5 смогли сравняться с методом, использующим MSA: 84,8% успешных предсказаний против 84,3%. С word2vec, простейшим трансформером и ESM-1b получалось добиться только 64,7%, 77,3% и 82,6% точности. Кроме того, оказалось, что использование последовательностей из метагеномных экспериментов из BFD не помогло ни одной из моделей: у простейшего трансформера точность падала с 77,3% до 72,2%.
Разнообразие белковых моделей
Почти все модели ESM, а также описанный выше ProtT5 построены на трансформере , предсказывающем маскированные аминокислоты, а их главная цель — научить модель представлять аминокислоты и их окружение в виде максимально информативных эмбеддингов. Однако не стоит забывать про авторегрессионные подходы, в рамках которых каждая следующая аминокислота предсказывается по совокупности предсказанных предыдущих!
Кстати, если из нашего текста читателю показалось, что все современные PLM основаны на трансформерах, — то это не совсем так: ученые из Microsoft Research обучают модели, использующие простые советские сверточные нейросети [29], [84].
На таком способе обучения основан целый подкласс генеративных моделей, с помощью которых можно не просто предсказывать что-то о белке (например, структуру), но создавать новые молекулы, примерив на себя уже совсем другую роль. Если подумать, то даже удивительно, что эта огромная на первый взгляд разница заключается просто в ином выборе объекта предсказания — в первом случае предсказывается структура, во втором — последовательность (собственно, это и будет белковый дизайн [9]). Пока не так много авторов, опубликовавших результаты белкового дизайна, проверяют их на практике [81], [85], но некоторые всё же синтезируют предсказанное. Например, авторы ProGen [80] успешно проверили экспрессию, функциональную активность и структуру получившихся белков. Подробнее о моделях для дизайна белков мы расскажем в следующей серии спецпроекта.
Как PLM помогают ученым
Поиск гомологов
Итак, эмбеддинги из языковых моделей полезны и просты в использовании — особенно для переноса обучения [86]. Одним из самых очевидных их применений стало предсказание отношений между белковыми последовательностями — например, поиск гомологов. Как мы уже говорили, гомологичные белки имеют похожую структуру: именно этим свойством ученые и воспользовались для проверки своей модели. Для двух белков с известным классом структуры (хранится в базе данных CATH) исследователи проверяли, относятся ли они к одному классу или нет. Для этого они использовали эмбеддинги ProtT5 и так называемое контрастное обучение [87]. В результате модель определяла гомологию заметно лучше, чем MSA — 76% успеха против 67%. Это поможет немного осветить «сумеречную зону» [88] белковой вселенной, где находится множество неаннотированных последовательностей без роду и племени. При этом скорость такого подхода на эмбеддингах оказалась выше, чем у более классических MSA-методов. Кстати, MSA тоже можно предсказать [89] с помощью PLM. И наоборот [90]: добавив MSA-информацию к последовательностям, можно дополнительно расширить возможности белковой языковой модели.
Предсказание эффекта мутаций
Авторы ESM показали, что предсказывать эффект от любых мутаций в белке можно и без переноса обучения [74] — прямо из их модели. Когда белковая языковая модель предсказывает аминокислоту в последовательности (а, как мы помним, ESM обучалась предсказывать спрятанные или испорченные аминокислоты по их соседям), мы можем получить оценку «качества» (хороша ли она на своем месте или нет). Оказалось, что это отлично работает и с мутациями: ESM замечает не только замены, которые могут «испортить» последовательность, но и такие, которые могут ее улучшить! Например, биохимики из Стэнфорда провели искусственную «эволюцию» антител [91] в сторону более сильного связывания с антигеном, отбирая только «хорошие» мутации, которые предлагала им ESM. Антитела удалось синтезировать и проверить: для каждой из семи изученных молекул константа связывания выросла в 1,1–7 раз. Другая группа из Университета Калифорнии использовала эмбеддинги ESM-1b [92], чтобы повысить точность и скорость предсказания болезнетворных миссенс-мутаций по сравнению с более классическими методами.
Опробовали перенос обучения в модели ESM-2 для предсказания стабильности белков [93] и специалисты из AIRI:
В своей работе мы показали, как можно использовать эмбеддинги модели ESM-2 для предсказания изменения стабильности белков при возникновении точечных (единичных) аминокислотных замен [93]. Мы представили три варианта архитектуры модели с разными способами комбинации эмбеддингов исходного белка и белка с заменой аминокислоты и обучили каждую модель предсказывать ΔΔG. Наилучший вариант модели получил запоминающиеся название PROSTATA [94]. Кстати, любой желающий может легко протестировать работу модели через веб-интерфейс.
Помощник для структурных биологов
Как мы уже знаем, белковые языковые модели способны улавливать информацию о структуре белков, что, в свою очередь, уловили структурные биологи. Например, ESM-эмбеддинги задействованы в разработанной учеными из Лаборатории Молекулярной Биологии в Кембридже модели ModelAngelo [25], используемой для расчета структуры белка по его последовательности и карте электронной плотности, полученной в экспериментах криоэлектронной микроскопии (крио-ЭМ) [95]. Эмбеддинги в ModelAngelo помогают указывать на взаимосвязи между крио-ЭМ картами, структурами и последовательностями белков: это существенно упрощает расшифровку крио-ЭМ карт.
PLM и малые молекулы
PLM-эмбеддинги в связке со структурой используют и для докинга малых молекул. Например, в нейросетевой модели для докинга DiffDock [96] аминокислоты белка закодированы при помощи ESM-2. Это помогает в условиях маленькой обучающей выборки обобщать информацию о связывающих сайтах и взаимодействиях аминокислот с лигандами. В «слепом докинге», когда сайт связывания неизвестен, 38% предсказаний DiffDock имели RMSD <2 Å по сравнению с лишь 20% у другого популярного ML-метода. Впрочем, здесь есть и опасность: по всей видимости, DiffDock из-за переобучения слишком сильно опирается на свое представление о сайте связывания и не так хорошо делает сам докинг [97]. Так, в более реалистичном сценарии с известным сайтом связывания результаты меняются не в его пользу: те же 38% у DiffDock против уже 67% у классического докинга. Более того, оказалось, что только у 12% предсказаний DiffDock структура лиганда реалистична и энергетически выгодна [98].
В предсказании взаимодействия с лигандами ESM-эмбеддинги используют и без опоры на структуры. Недавно ученые обучили модель поиска таких взаимодействий [99] всего лишь по последовательностям белков и информации о связывающихся с ними лекарствах , используя эмбеддинги из ESM-1b и контрастное обучение. Результаты своей модели ученые проверили в том числе и экспериментально: из 19 лучших молекул 12 в эксперименте связались со своей мишенью.
Для представления малых молекул авторы этой статьи попробовали несколько методов. К сожалению, эмбеддинги из языковых моделей на SMILES в их случае не сработали.
Стоит ли белковым моделям еще подучиться?
В прошлом разделе мы рассказали о различных белковых языковых моделях (PLM) и привели примеры их использования. Теперь остановимся подробнее на одном применении — предсказании структуры белков — и сравним успехи языковых моделей (ESMFold [63]) с более классическим подходом (AlphaFold2). ESMFold — это одна из моделей семейства ESM, специально дообученная предсказывать структуры (рис. 8). Архитектуру AF2 мы разберем на рис. 9 во врезке ниже.
Модель ESMFold оказалась достаточно успешной — лишь чуть менее точной, чем AlphaFold2, негласно принятым за золотой стандарт. Например, на структурах из соревнования CASP14 средняя метрика «качества» предсказания — TM-score — для ESMFold была 0,68 против 0,85 у AF2. Похожая разница в точности сохранилась и в слепом соревновании CASP15 . Впрочем, главное отличие между методами в том, что ESMFold не требует MSA : это позволяет предсказывать структуры даже тех белков, у которых не известны родственники. И, наконец, предсказание ESMFold в десятки раз быстрее, поскольку расчет необходимого для AlphaFold MSA — процесс долгий.
Этот параметр сравнивает предсказанную структуру белка с экспериментально определенной (разумеется, для расчета TM-score она должна быть известна). Меняющийся в диапазоне от 0 до 1, TM-score = 0,5 — уже достаточно неплохо для «слепого» предсказания.
Однако тут AF2 уже не выиграл, отдав пальму первенства своим улучшенным версиям от других исследователей [101].
Если на той же выборке отнять у AF2 MSA, его значение TM-score резко упадет до 0,38, что показывает явное преимущество ESMFold в тех случаях, когда MSA построить нельзя.
Разработка достаточно точных предсказателей структур быстро повлекла широкое применение этих моделей. Некоторые ученые даже опасались, а не конец ли это структурной биологии [95]? Но хотя многие структуры AlphaFold2 предсказывает хорошо (рис. 10А), иногда он может сурово ошибаться (рис. 10Б). А еще такие модели по своей сути не умеют учитывают структурных эффектов небольших мутаций [106] и конформационное многообразие белка (без специальных ухищрений [107]). Так что пока будущее структурной биологии в безопасности: это всё еще самый надежный способ узнать структуру белка — хотя модели для фолдинга уже помогают делать это эффективнее [108].
Высокая скорость работы нейросетевых моделей позволила применить их к огромным наборам данных. Так, AlphaFold в сотрудничестве с европейским институтом биоинформатики EMBL создали базу данных более 200 миллионов предсказанных с помощью AlphaFold структур [109], полностью смоделировав протеомы нескольких десятков организмов. Конкуренты AlphaFold — RosettaFold — предсказали структуры всех важных белковых комплексов дрожжей [110]. А с помощью ESMFold ученые предсказали более 600 миллионов (!) структур [63], включая неведомые метагеномные последовательности.
Базу данных предсказаний AlphaFold недавно использовала фармацевтическая компания Recursion, чтобы в партнерстве с Enamine предсказать 36 миллиардов пар взаимодействий белков с лекарствами. Впрочем, не ясно, всегда ли польза от таких исследований перекрывает затраченные ресурсы. Многие белки в нашем организме по разным причинам не подходят для создания лекарств; другие могут связаться с лигандом только в определенной конформации — но модель не предсказывает разных конформационных состояний; и таких проблем много. Пресс-релиз Recursion вышел ровно на следующий день после публикации статьи [111] о том, что модели AlphaFold не очень-то годятся для предсказания связывания белков с малыми молекулами. Часто аккуратное моделирование таких комплексов требует точно предсказывать положения атомов боковых групп аминокислот, и даже небольшая ошибка тут может быть критична. В результате многим исследователям перспективы AlphaFold и подобных моделей в драг-дизайне пока представляются не очень радужными. Процитируем Марию Карелину, критикующую использование AlphaFold2 для предсказания связывания малых молекул: «Модели, похожие на AlphaFold, очень хорошо предсказывают структуры белков, но нам всем еще предстоит подумать, как их использовать для создания лекарств» [112].
Конечно, у AlphaFold2 и других белковых моделей есть множество применений помимо драг-дизайна. Некоторые из них мы уже упоминали в разделе «Какие бывают белковые языковые модели?». Но есть и множество других: от борьбы с пластиком до спасения пчел. И тот факт, что белковые модели не решили всех наших проблем сразу, говорит лишь, что материала для обучения еще много! А значит, нас ожидают еще более удивительные технологические прорывы.
Чего ждать дальше?
Языковые модели (и не только они) неплохо дебютировали в различных областях биологии и химии. Где-то эти успехи локальные, на стадии подтверждения идеи, где-то модели уже пробуют внедрять более широко. Безусловно, нам стоит ожидать всё более глубокого проникновения технологий машинного обучения в научные и индустриальные процессы. Но, наверное, в ближайшие 10–15 лет нейросетям будет отведена в основном вспомогательная роль, а ключевыми останутся экспериментальные методы — как более надежные.
Это не значит, что машинное обучение никогда не сможет играть первую скрипку в биотехнологиях. Напротив — этот дебют показывает, в какое удивительное время мы живем. Уже сейчас модели машинного обучения позволяют быстрее получать структуры сложных белков [113–115], предсказывать свойства ферментов [116], свойства [117] и пути синтеза [118] малых молекул и многое другое [119], [120]. Но где-то нам бы хотелось большей точности, где-то — более высокой скорости. Часто мы ищем не просто ответ на вопрос, но объяснение, почему ответ такой. Ведь наука — это не только, да и не столько ответ, сколько понимание — почему всё устроено так. Но сейчас машинное обучение не дает объяснений — в лучшем случае мы получим достаточно точное предсказание, потребовавшее немало электроэнергии на питание датацентров; но не красивую и изящную теорию или новый закон природы. Однако во всех этих направлениях идет активная работа, и когда-нибудь ученики перерастут учителей, и в биотехнологиях воцарится искусственный интеллект.
Небольшая проблема, которая видна в том числе и из нашего текста: самые мощные и успешные модели разработаны в компаниях-техногигантах — AlphaFold в Google, семейство моделей ESM в Meta . К сожалению, у ученых из академии нет возможности состязаться с индустрией в ресурсах, что заметно снижает вероятность следующего технологического прорыва в академической среде. Дополнительная проблема возникает и из-за неопределенностей с будущим индустриальных моделей. Так, некоторое время назад Meta решила закрыть свои биологические проекты — так что развития семейство ESM, увы, не получит. (Хотя, возможно, какие-то разработки перекочуют в отколовшийся стартап.) Но по крайней мере уже разработанные модели Meta обещала не убирать из открытого доступа.
Признана в России экстремистской организацией.
Отсутствие сравнимых с частными компаниями ресурсов у ученых из университетов некоторые рассматривают как плюс, утверждая, что это заставляет ученых применять не «грубую силу», а мозг. Так, например, недавно ученые из Стэнфорда предложили гораздо более эффективный механизм донастройки языковых моделей под предпочтения людей [121]. Этот механизм уже использует компания Mistral в своей языковой модели Mixtral. Вероятно, это далеко не последнее улучшение эффективности, которое мы увидим.
Заверяем читателей: достижения языковых моделей в биологии и химии уже не стыдно показать людям, и то ли еще будет! Однако языковыми и белковыми моделями всё не ограничивается. В химии и биологии набирают обороты диффузионные генеративные модели, а модели ДНК и РНК позволяют по-новому взглянуть на «генетический текст», записанный в каждом из нас. Так что обязательно читайте следующие статьи нашего спецпроекта — будет еще много интересного.
Литература
- История развития искусственного интеллекта и его пришествия в биологию;
- Tristan Bepler, Bonnie Berger. (2021). Learning the protein language: Evolution, structure, and function. Cell Systems. 12, 654-669.e3;
- Циклины и их помощники — регуляторы клеточного цикла;
- Cayque Monteiro Castro Nascimento, André Silva Pimentel. (2023). Do Large Language Models Understand Chemistry? A Conversation with ChatGPT. J. Chem. Inf. Model.. 63, 1649-1655;
- Andrew D. White, Glen M. Hocky, Heta A. Gandhi, Mehrad Ansari, Sam Cox, et. al.. (2023). Assessment of chemistry knowledge in large language models that generate code. Digital Discovery. 2, 368-376;
- AlphaFold: нейросеть для предсказания структуры белков от британских ученых;
- Белковые галлюцинации: как справляется AlphaFold?;
- Обо всех РНК на свете, больших и малых;
- Конструкторское бюро белков;
- Aviv A. Rosenberg, Ailie Marx, Alex M. Bronstein. (2022). Codon-specific Ramachandran plots show amino acid backbone conformation depends on identity of the translated codon. Nat Commun. 13;
- Carlos Outeiral, Charlotte M. Deane Codon language embeddings provide strong signals for protein engineering — Cold Spring Harbor Laboratory;
- Veniamin Fishman, Yuri Kuratov, Maxim Petrov, Aleksei Shmelev, Denis Shepelin, et. al. GENA-LM: A Family of Open-Source Foundational DNA Language Models for Long Sequences — Cold Spring Harbor Laboratory;
- Hannes H. Loeffler, Jiazhen He, Alessandro Tibo, Jon Paul Janet, Alexey Voronov, et. al.. (2024). Reinvent 4: Modern AI–driven generative molecule design. J Cheminform. 16;
- Paul Maragakis, Hunter Nisonoff, Brian Cole, David E. Shaw. (2020). A Deep-Learning View of Chemical Space Designed to Facilitate Drug Discovery. J. Chem. Inf. Model.. 60, 4487-4496;
- Krenn M., Häse F., Nigam A., Friederich P., Aspuru-Guzik A. (2019). Self-Referencing Embedded Strings (SELFIES): A 100% robust molecular string representation. Machine Learning: Science and Technology.;
- Chithrananda S., Grand G., Ramsundar B. (2020). ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction. Computer Science: Machine Learning.;
- Jieyu Lu, Yingkai Zhang. (2022). Unified Deep Learning Model for Multitask Reaction Predictions with Explanation. J. Chem. Inf. Model.. 62, 1376-1387;
- Ross Irwin, Spyridon Dimitriadis, Jiazhen He, Esben Jannik Bjerrum. (2022). Chemformer: a pre-trained transformer for computational chemistry. Mach. Learn.: Sci. Technol.. 3, 015022;
- Chilingaryan G., Tamoyan H., Tevosyan A., Babayan N., Khondkaryan L., Hambardzumyan K., Navoyan Z. (2022). BARTSmiles: Generative Masked Language Models for Molecular Representations. Computer Science: Machine Learning.;
- Молекулярная динамика биомолекул. Часть I. История полувековой давности;
- Новые успехи в предсказании пространственной структуры белков;
- Торжество компьютерных методов: предсказание строения белков;
- Thomas A. Hopf, Lucy J. Colwell, Robert Sheridan, Burkhard Rost, Chris Sander, Debora S. Marks. (2012). Three-Dimensional Structures of Membrane Proteins from Genomic Sequencing. Cell. 149, 1607-1621;
- Grzegorz Chojnowski, Adam J. Simpkin, Diego A. Leonardo, Wolfram Seifert-Davila, Dan E. Vivas-Ruiz, et. al.. (2022). findMySequence: a neural-network-based approach for identification of unknown proteins in X-ray crystallography and cryo-EM. Int Union Crystallogr J. 9, 86-97;
- Kiarash Jamali, Lukas Käll, Rui Zhang, Alan Brown, Dari Kimanius, Sjors H.W. Scheres Automated model building and protein identification in cryo-EM maps — Cold Spring Harbor Laboratory;
- J. Dauparas, I. Anishchenko, N. Bennett, H. Bai, R. J. Ragotte, et. al.. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science. 378, 49-56;
- Chloe Hsu, Robert Verkuil, Jason Liu, Zeming Lin, Brian Hie, et. al. Learning inverse folding from millions of predicted structures — Cold Spring Harbor Laboratory;
- Xinyi Zhou, Guangyong Chen, Junjie Ye, Ercheng Wang, Jun Zhang, et. al.. (2023). ProRefiner: an entropy-based refining strategy for inverse protein folding with global graph attention. Nat Commun. 14;
- Sarah Alamdari, Nitya Thakkar, Rianne van den Berg, Alex X. Lu, Nicolo Fusi, et. al. Protein generation with evolutionary diffusion: sequence is all you need — Cold Spring Harbor Laboratory;
- Joseph L. Watson, David Juergens, Nathaniel R. Bennett, Brian L. Trippe, Jason Yim, et. al.. (2023). De novo design of protein structure and function with RFdiffusion. Nature. 620, 1089-1100;
- Megan Egbert, Kathryn A. Porter, Usman Ghani, Sergei Kotelnikov, Thu Nguyen, et. al.. (2021). Conservation of binding properties in protein models. Computational and Structural Biotechnology Journal. 19, 2549-2566;
- Paolo Braiuca, Knapic Lorena, Valerio Ferrario, Cynthia Ebert, Lucia Gardossi. (2009). A Three‐Dimensional Quanititative Structure‐Activity Relationship (3D‐QSAR) Model for Predicting the Enantioselectivity of Candida antarctica Lipase B. Adv Synth Catal. 351, 1293-1302;
- Проблема фолдинга белка;
- Финкельштейн А.В., Птицын О.Б. Физика белка: Курс лекций с цветными и стереоскопическими иллюстрациями и задачами. М.: КДУ, 2012. — 456 с.;
- Роль слабых взаимодействий в биополимерах;
- Christopher Bystroff, Kim T Simons, Karen F Han, David Baker. (1996). Local sequence-structure correlations in proteins. Current Opinion in Biotechnology. 7, 417-421;
- R. C. PUNNETT. (1930). The Genetical Theory of Natural Selection. Nature. 126, 595-597;
- Sewall Wright. (1931). EVOLUTION IN MENDELIAN POPULATIONS. Genetics. 16, 97-159;
- Selvarajan Sigamani Sundaresan, Pandian Ramesh, Nagaraj Shobana, Thangaraj Vinuchakkaravarthy, Sayed Yasien, Mondikalipudur Nanjappa Gounder Ponnuswamy. (2021). Crystal structure of hemoglobin from mouse (Mus musculus) compared with those from other small animals and humans. Acta Cryst Sect F. 77, 113-120;
- Roman Aranda, He Cai, Chad E. Worley, Elena J. Levin, Rong Li, et. al.. (2009). Structural analysis of fish versus mammalian hemoglobins: Effect of the heme pocket environment on autooxidation and hemin loss. Proteins. 75, 217-230;
- Fabio Barteri, Alejandro Valenzuela, Xavier Farré, David de Juan, Gerard Muntané, et. al.. (2023). CAAStools: a toolbox to identify and test Convergent Amino Acid Substitutions. Bioinformatics. 39;
- 12 методов в картинках: «сухая» биология;
- Peter Baumann, Stephen C West. (1998). Role of the human RAD51 protein in homologous recombination and double-stranded-break repair. Trends in Biochemical Sciences. 23, 247-251;
- W.J. Browne, A.C.T. North, D.C. Phillips, Keith Brew, Thomas C. Vanaman, Robert L. Hill. (1969). A possible three-dimensional structure of bovine α-lactalbumin based on that of hen's egg-white lysozyme. Journal of Molecular Biology. 42, 65-86;
- Saul B. Needleman, Christian D. Wunsch. (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology. 48, 443-453;
- Joseph Felsenstein. (1981). Evolutionary trees from DNA sequences: A maximum likelihood approach. J Mol Evol. 17, 368-376;
- Chantal Korostensky, Gaston H. Gonnet. (2000). Using traveling salesman problem algorithms for evolutionary tree construction. Bioinformatics. 16, 619-627;
- Erik L.L. Sonnhammer, Sean R. Eddy, Richard Durbin. (1997). Pfam: A comprehensive database of protein domain families based on seed alignments. Proteins. 28, 405-420;
- 12 методов в картинках: секвенирование нуклеиновых кислот;
- Martin Weigt, Robert A. White, Hendrik Szurmant, James A. Hoch, Terence Hwa. (2009). Identification of direct residue contacts in protein–protein interaction by message passing. Proc. Natl. Acad. Sci. U.S.A.. 106, 67-72;
- A. M. Lesk, C. H. Chothia. (1986). The Response of Protein Structures to Amino-Acid Sequence Changes. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. 317, 345-356;
- Debora S. Marks, Lucy J. Colwell, Robert Sheridan, Thomas A. Hopf, Andrea Pagnani, et. al.. (2011). Protein 3D Structure Computed from Evolutionary Sequence Variation. PLoS ONE. 6, e28766;
- Sheng Wang, Siqi Sun, Zhen Li, Renyu Zhang, Jinbo Xu. (2017). Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model. PLoS Comput Biol. 13, e1005324;
- Sergey Ovchinnikov, David E. Kim, Ray Yu‐Ruei Wang, Yuan Liu, Frank DiMaio, David Baker. (2016). Improved de novo structure prediction in
CASP 11 by incorporating coevolution information into Rosetta. Proteins. 84, 67-75; - Jinbo Xu, Sheng Wang. (2019). Analysis of distance‐based protein structure prediction by deep learning in CASP13. Proteins. 87, 1069-1081;
- Andrew W. Senior, Richard Evans, John Jumper, James Kirkpatrick, Laurent Sifre, et. al.. (2020). Improved protein structure prediction using potentials from deep learning. Nature. 577, 706-710;
- Одна последовательность — одна структура: был ли Анфинсен неправ?;
- Непохожие «гомологичные» белки;
- Миллисекундный барьер взят!;
- Bahdanau D., Cho K., Bengio Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. Computer Science: Computation and Language.;
- Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L., Polosukhin I. (2017). Attention is All you Need. Neural Information Processing Systems;
- Zilong Hou, Yuning Yang, Zhiqiang Ma, Ka-chun Wong, Xiangtao Li. (2023). Learning the protein language of proteome-wide protein-protein binding sites via explainable ensemble deep learning. Commun Biol. 6;
- Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, et. al.. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 379, 1123-1130;
- Ruidong Wu, Fan Ding, Rui Wang, Rui Shen, Xiwen Zhang, et. al. High-resolutionde novostructure prediction from primary sequence — Cold Spring Harbor Laboratory;
- Ehsaneddin Asgari, Mohammad R. K. Mofrad. (2015). Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics. PLoS ONE. 10, e0141287;
- Michael Heinzinger, Ahmed Elnaggar, Yu Wang, Christian Dallago, Dmitrii Nechaev, et. al. Modeling the language of life – Deep Learning Protein Sequences — Cold Spring Harbor Laboratory;
- Rao R., Bhattacharya N., Thomas N., Duan Y., Chen X., Canny J. (2019). Evaluating Protein Transfer Learning with TAPE. Computer Science: Machine Learning.;
- Bepler T., Berger B. (2019). Learning protein sequence embeddings using information from structure. Computer Science: Machine Learning.;
- Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church. (2019). Unified rational protein engineering with sequence-based deep representation learning. Nat Methods. 16, 1315-1322;
- Флуоресцирующая Нобелевская премия по химии;
- Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, et. al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences — Cold Spring Harbor Laboratory;
- Peters M., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. (2018). Deep contextualized word representations. Computer Science: Computation and Language.;
- Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, et. al.. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proc. Natl. Acad. Sci. U.S.A.. 118;
- Joshua Meier, Roshan Rao, Robert Verkuil, Jason Liu, Tom Sercu, Alexander Rives Language models enable zero-shot prediction of the effects of mutations on protein function — Cold Spring Harbor Laboratory;
- Jing B., Eismann S., Suriana P., Townshend R., Dror R. (2020). Learning from Protein Structure with Geometric Vector Perceptrons. Quantitative Biology: Biomolecules.;
- Ahmed Elnaggar, Michael Heinzinger, Christian Dallago, Ghalia Rehawi, Yu Wang, et. al.. (2022). ProtTrans: Toward Understanding the Language of Life Through Self-Supervised Learning. IEEE Trans. Pattern Anal. Mach. Intell.. 44, 7112-7127;
- Michael Heinzinger, Konstantin Weissenow, Joaquin Gomez Sanchez, Adrian Henkel, Martin Steinegger, Burkhard Rost ProstT5: Bilingual Language Model for Protein Sequence and Structure — Cold Spring Harbor Laboratory;
- Michel van Kempen, Stephanie S. Kim, Charlotte Tumescheit, Milot Mirdita, Jeongjae Lee, et. al.. (2024). Fast and accurate protein structure search with Foldseek. Nat Biotechnol. 42, 243-246;
- Nadav Brandes, Dan Ofer, Yam Peleg, Nadav Rappoport, Michal Linial. (2022). ProteinBERT: a universal deep-learning model of protein sequence and function. Bioinformatics. 38, 2102-2110;
- Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, et. al.. (2023). Large language models generate functional protein sequences across diverse families. Nat Biotechnol. 41, 1099-1106;
- Noelia Ferruz, Steffen Schmidt, Birte Höcker. (2022). ProtGPT2 is a deep unsupervised language model for protein design. Nat Commun. 13;
- Lewis Moffat, Shaun M. Kandathil, David T. Jones Design in the DARK: Learning Deep Generative Models for De Novo Protein Design — Cold Spring Harbor Laboratory;
- Hesslow D., Zanichelli N., Notin P., Poli I., Marks D. (2022). RITA: a Study on Scaling Up Generative Protein Sequence Models. Quantitative Biology: Quantitative Methods.;
- Kevin K. Yang, Nicolo Fusi, Alex X. Lu Convolutions are competitive with transformers for protein sequence pretraining — Cold Spring Harbor Laboratory;
- Lewis Moffat, Shaun M. Kandathil, David T. Jones Design in the DARK: Learning Deep Generative Models for De Novo Protein Design — Cold Spring Harbor Laboratory;
- Abel Chandra, Laura Tünnermann, Tommy Löfstedt, Regina Gratz. (2023). Transformer-based deep learning for predicting protein properties in the life sciences. eLife. 12;
- Michael Heinzinger, Maria Littmann, Ian Sillitoe, Nicola Bordin, Christine Orengo, Burkhard Rost. (2022). Contrastive learning on protein embeddings enlightens midnight zone. NAR Genomics and Bioinformatics. 4;
- Burkhard Rost. (1999). Twilight zone of protein sequence alignments. Protein Engineering, Design and Selection. 12, 85-94;
- Claire D. McWhite, Isabel Armour-Garb, Mona Singh. (2023). Leveraging protein language models for accurate multiple sequence alignments. Genome Res.;
- Roshan Rao, Jason Liu, Robert Verkuil, Joshua Meier, John F. Canny, et. al. MSA Transformer — Cold Spring Harbor Laboratory;
- Brian L. Hie, Varun R. Shanker, Duo Xu, Theodora U. J. Bruun, Payton A. Weidenbacher, et. al.. (2024). Efficient evolution of human antibodies from general protein language models. Nat Biotechnol. 42, 275-283;
- Nadav Brandes, Grant Goldman, Charlotte H. Wang, Chun Jimmie Ye, Vasilis Ntranos. (2023). Genome-wide prediction of disease variant effects with a deep protein language model. Nat Genet. 55, 1512-1522;
- Dmitriy Umerenkov, Tatiana I. Shashkova, Pavel V. Strashnov, Fedor Nikolaev, Maria Sindeeva, et. al. PROSTATA: Protein Stability Assessment using Transformers — Cold Spring Harbor Laboratory;
- Dmitriy Umerenkov, Fedor Nikolaev, Tatiana I Shashkova, Pavel V Strashnov, Maria Sindeeva, et. al.. (2023). PROSTATA: a framework for protein stability assessment using transformers. Bioinformatics. 39;
- 12 методов в картинках: структурная биология;
- Corso G., Stärk H., Jing B., Barzilay R., Jaakkola T. (2023). DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking. Quantitative Biology: Biomolecules.;
- Yu Y., Lu S., Gao Z., Zheng H., Ke G. (2023). Do Deep Learning Models Really Outperform Traditional Approaches in Molecular Docking?. Quantitative Biology: Biomolecules.;
- Martin Buttenschoen, Garrett M. Morris, Charlotte M. Deane. (2024). PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences. Chem. Sci.. 15, 3130-3139;
- Rohit Singh, Samuel Sledzieski, Bryan Bryson, Lenore Cowen, Bonnie Berger. (2023). Contrastive learning in protein language space predicts interactions between drugs and protein targets. Proc. Natl. Acad. Sci. U.S.A.. 120;
- Tatiana I. Shashkova, Dmitriy Umerenkov, Mikhail Salnikov, Pavel V. Strashnov, Alina V. Konstantinova, et. al.. (2022). SEMA: Antigen B-cell conformational epitope prediction using deep transfer learning. Front. Immunol.. 13;
- Adam J. Simpkin, Shahram Mesdaghi, Filomeno Sánchez Rodríguez, Luc Elliott, David L. Murphy, et. al.. (2023). Tertiary structure assessment at
CASP15 . Proteins. 91, 1616-1635; - John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, et. al.. (2021). Highly accurate protein structure prediction with AlphaFold. Nature. 596, 583-589;
- Minkyung Baek, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, et. al.. (2021). Accurate prediction of protein structures and interactions using a three-track neural network. Science. 373, 871-876;
- Gustaf Ahdritz, Nazim Bouatta, Christina Floristean, Sachin Kadyan, Qinghui Xia, et. al. OpenFold: Retraining AlphaFold2 yields new insights into its learning mechanisms and capacity for generalization — Cold Spring Harbor Laboratory;
- Milot Mirdita, Konstantin Schütze, Yoshitaka Moriwaki, Lim Heo, Sergey Ovchinnikov, Martin Steinegger. (2022). ColabFold: making protein folding accessible to all. Nat Methods. 19, 679-682;
- Zhidian Zhang, Hannah K Wayment-Steele, Garyk Brixi, Haobo Wang, Matteo Dal Peraro, et. al. Protein language models learn evolutionary statistics of interacting sequence motifs — Cold Spring Harbor Laboratory;
- Hannah K. Wayment-Steele, Adedolapo Ojoawo, Renee Otten, Julia M. Apitz, Warintra Pitsawong, et. al.. (2024). Predicting multiple conformations via sequence clustering and AlphaFold2. Nature. 625, 832-839;
- Thomas C. Terwilliger, Dorothee Liebschner, Tristan I. Croll, Christopher J. Williams, Airlie J. McCoy, et. al.. (2024). AlphaFold predictions are valuable hypotheses and accelerate but do not replace experimental structure determination. Nat Methods. 21, 110-116;
- Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, et. al.. (2022). AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models. Nucleic Acids Research. 50, D439-D444;
- Ian R. Humphreys, Jimin Pei, Minkyung Baek, Aditya Krishnakumar, Ivan Anishchenko, et. al.. (2021). Computed structures of core eukaryotic protein complexes. Science. 374;
- Masha Karelina, Joseph J. Noh, Ron O. Dror How accurately can one predict drug binding modes using AlphaFold models? — eLife Sciences Publications, Ltd;
- Carrie Arnold. (2023). AlphaFold touted as next big thing for drug discovery — but is it?. Nature. 622, 15-17;
- Irène Barbarin-Bocahu, Marc Graille. (2022). The X-ray crystallography phase problem solved thanks to AlphaFold and RoseTTAFold models: a case-study report. Acta Cryst Sect D Struct Biol. 78, 517-531;
- Véronique Receveur-Bréchot. (2023). AlphaFold, small-angle X-ray scattering and ensemble modelling: a winning combination for intrinsically disordered proteins. J Appl Cryst. 56, 1313-1314;
- Thomas C. Terwilliger, Billy K. Poon, Pavel V. Afonine, Christopher J. Schlicksup, Tristan I. Croll, et. al.. (2022). Improved AlphaFold modeling with implicit experimental information. Nat Methods. 19, 1376-1382;
- Stanislav Mazurenko, Zbynek Prokop, Jiri Damborsky. (2020). Machine Learning in Enzyme Engineering. ACS Catal.. 10, 1210-1223;
- Evan N. Feinberg, Elizabeth Joshi, Vijay S. Pande, Alan C. Cheng. (2020). Improvement in ADMET Prediction with Multitask Deep Featurization. J. Med. Chem.. 63, 8835-8848;
- Connor W. Coley, William H. Green, Klavs F. Jensen. (2018). Machine Learning in Computer-Aided Synthesis Planning. Acc. Chem. Res.. 51, 1281-1289;
- Adam C. Mater, Michelle L. Coote. (2019). Deep Learning in Chemistry. J. Chem. Inf. Model.. 59, 2545-2559;
- Sarah Webb. (2018). Deep learning for biology. Nature. 554, 555-557;
- Rafailov R., Sharma A., Mitchell E., Ermon S., Manning C., Finn C. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. Computer Science: Machine Learning..