https://www.dia-m.ru/news/160425-multikonferentsiya-life-sciences-biotekhnologii/?utm_source=biomolecula&utm_medium=banner&utm_campaign=kazan1604&erid=2VfnxwSNezC
Подписаться
Оглавление
Биомолекула

ИИ и генетика: как российские нейросети учатся читать ДНК и создают персонализированную медицину

ИИ и генетика: как российские нейросети учатся читать ДНК и создают персонализированную медицину

  • 728
  • 0,0
  • 0
  • 0
Добавить в избранное print
Новость

Доклад младшего научного сотрудника Никиты Трофимовича Лисенко «Как ИИ способствует развитию современной науки»

недавняя конференция «ИИ в науке»

XXI век стал эпохой искусственного интеллекта — технологии, которая меняет не только цифровой ландшафт, но и фундаментальную науку. Особенно ярко это проявляется в биологии и медицине, где ИИ помогает расшифровывать ДНК, создавать персонализированные лекарства, корректировать поведение и даже проектировать новые формы жизни. Российские учёные не отстают, а где-то даже опережают своих коллег из международного сообщества. На состоявшейся недавно конференции «ИИ в науке» младший научный сотрудник Никита Трофимович Лисенко дал развернутый обзор состояния дел в области. Наша редакция обратилась к Никите Трофимовичу с просьбой написать краткую выжимку его доклада.

Видео 1. Судьбоносный доклад Никиты Трофимовича Лисенко. Рекомендуем посмотреть не только сам доклад (это видео), но и версию с предисловием организаторов и ответами на вопросы слушателей. Основные тезисы доклада вы можете прочесть в статье ниже.

онлайн-конференция «Искусственный интеллект в науке»

1. Истоки: от философов до первых институтов

Идеи искусственного интеллекта (ИИ) в России зародились ещё до революции — философы Русского общества механического мышления (рис. 1) размышляли о том, как машины могут помочь в познании мира. В 1932 году А. А. Богданов основал Институт проблем искусственного интеллекта и автоматонов, заложив основы для будущих исследований (рис. 2). К чему это привело — «Биомолекула» уже рассказывала: «История развития искусственного интеллекта и его пришествия в биологию» [1].

Члены Санкт-Петербургского общества механического мышления

Рисунок 1. Члены Санкт-Петербургского общества механического мышления, 1903 год. Портреты отцов-основателей ИПИИиА вы можете увидеть на рисунке 2 в крутилке — вращайте барабан!

научно-популярный журнал «Философия и жизнь»

Научный коллектив лаборатории искусственных мыслительных систем

Рисунок 2. Научный коллектив лаборатории искусственных мыслительных систем и автоматонов А.А. Богданова

Вклад отечественных учёных в ИИ признается и по сей день выдающимися исследователями в области искусственного интеллекта — такими, например, как Юрген Шмидхубер (рис. 3), отмечающий вклад советских учёных в теорию обучения искусственных нейросетей.

Юрген Шмидхубер

Рисунок 3. Юрген Шмидхубер — профессор Университета Лугано в Швейцарии. Пионер искусственного интеллекта, разработчик LSTM, конволюционной сети DanNet, положившей начало ИИ-революции, а также первого метода обучения по-настоящему глубоких нейронных сетей — HighwayNet.

Хотя многие воспринимают сегодня ИИ как инструмент для создания изображений или редактирования текстов, его реальная мощь — в применении к научным задачам. В своей лекции Никита Трофимович привел примеры подобных применений, постаравшись сделать акцент на отечественных разработках.

2. Геронтология: продление жизни бактерий на 350%

Белковые катализаторы — ферменты — используются повсеместно: в моющих средствах, медицине, пищевой промышленности. Раньше дизайн ферментов с новыми свойствами напоминал поиск иголки в стоге сена [2] — ученые просто вносили в исходный фермент мутации до тех пор, пока не получали фермент с новыми свойствами. Появление нейронных сетей для дизайна белков — таких как RosettaFold [3] и ProteinMPNN [4] — можно сравнить с добавлению к предыдущей задаче мощного магнита.

Давно было известно, что именно недостаточная процессивность ферментов, отвечающих за длину концов хромосом человека — теломер, — связана с их укорочением, которое в свою очередь приводит к старению организма.

С помощью нейросети Evo [5], предобученной на миллиардах белковых последовательностей, учёные смогли модифицировать бактериальную теломеразу таким образом, что это позволило продлить жизнь E. coli в 3,5 раза. Пока метод не тестировался на людях, и непонятно, подойдет ли им бактериальная теломераза или придется модифицировать человеческую — но это важный шаг к технологиям увеличения ожидаемой продолжительности жизни (longevity) [6].

3. Борьба с устойчивостью к антибиотикам

Процесс получения новых антибиотиков труден — сложно найти принципиально новые классы веществ в окружающей среде, а уж предсказать кому именно повезет — тем более [7]. Совсем недавно антибиотик природного происхождения нашли в саду лаборанта [8].

Но уже упомянутая нейросеть Evo, будучи объединенной с нейросетью ESM3 [9], помогла расшифровать гены, отвечающие за синтез дрожжами антибиотика тейкомицин. Эти гены затем внедрили в геном лабораторных мышей, и те начали самостоятельно производить это вещество, демонстрируя устойчивость к большому спектру бактериальных инфекций без побочных эффектов. Как нейросети «говорят» на языках белков и ДНК — «Биомолекула» уже рассказывала: «Как языковые модели покорили мир белков» [10].

4. От 3D к 4D: новая эра в изучении белков

А.Ф. Кириллочкин

Рисунок 4. К.ф.-м.н., к.б.н А.Ф. Кириллочкин.

AlphaFold2 от исследователей DeepMind совершил прорыв, точно предсказывая трёхмерную структуру белков [11], . Но ученое сообщество уже давно знает, что на структуру белка в числе прочего влияет и то, как и с какой скоростью он транслировался, его взаимодействия с шаперонами, а также с какими белками он связывался после того, как приобрел «взрослую» форму. Потому правильно говорить не только о 3D-структуре белка, но добавить четвертое измерение — темпоральное. И потому учёные идут дальше: Антон Кириллочкин (рис. 4) и его команда в Институте пространственной протеомики работают над SigmaFold — моделью, которая добавит четвёртое измерение (время), учитывая динамику формирования белков, их посттрансляционные модификации и историю взаимодействия с другими белками в клетке (рис. 5).

Советуем почитать вот эти работы: «AlphaFold: нейросеть для предсказания структуры белков от британских ученых» [12], «Белковые галлюцинации: как справляется AlphaFold?» [13] и «Несуществующие в природе белки́ — за что вручили Нобелевскую премию по химии (2024)» [14].

4D-структура белка

Рисунок 5. 4D-структура белка, подчеркивающая пространственно-временное распределение меж- и внутримолекулярных взаимодействий.

изображение предоставлено коллегами из НИИ пространственной протеомики

5. ДНК как открытая книга: от нуклеотидов к машинному коду

Долгое время расшифровка языка ДНК оставалась сложной задачей для ИИ. Генетический код — это четырёхбуквенный «язык» (A, T, G, C), в то время как компьютеры основаны на работе с двоичной системой (0 и 1). Однако опираясь недавние работы своих коллег, российские учёные вместе со словенским исследователем Матвеем Корчувальником нашли решение. Они использовали две нейросети:

  • GigaChatPro, которую легла задача преобразования человеческой речи в машиночитаемый формат.
  • Gena-LM — ДНК-языковая модель, которая была обучена переводить в тот же формат уже последовательности ДНК [15].

Выравнивание получаемых форматов — представлений (embeddings) — при помощи третьего подхода, впервые опубликованного в CCSKRF, позволило «читать» гены как обычный текст и даже искать нужные участки ДНК по ключевым словам.

Далее с помощью приглашенного специалиста по питанию из Англии — Элизабет Энтвурцелер (Elizabeth Entwurzeler), работавшей в числе прочего на таких мастодонтов питания как Nestel, — на основе подхода Маттея был разработан набор генотип-ориентированных диет, адаптированных под этнические особенности. Она оказалась близка к традиционному питанию наших предков, описанному ещё Пей Киб Брейтом в 1789 году [16]. По-видимому, наши предки даже на интуитивном уровне следовали оптимальному рациону (рис. 6).

Примерный состав диеты славянского генотипа

Рисунок 6. Примерный состав диеты славянского генотипа. Точные значения могут варьировать между областями России и прилегающими территориями из-за разного уровня инсоляции и содержания йода и других солей в воде.

5. MetagenomeGrad: как языковые модели помогают лечить кишечник и не только

В 2023 году в Nature вышла статья о TextGrad — методе, позволяющем ИИ-моделям обмениваться данными и улучшать решения на основе отзывов о качестве выполнения задач друг другом [18]. Учёные из лаборатории анализа метагеномов и генетики микроорганизмов Казанского университета долгое время борются с проблемой составления оптимального индивидуального рациона — такого, который приводит к наилучшему для данного человека составу микрофлоры кишечника. Достижение такой цели поможет существенно снизить риск развития диабета второго типа, язвы двенадцатиперстной кишки, рака толстой кишки. Показано, что правильно подобранная микробиота может помогать при лечении депрессивных расстройств. Более того, в случае детей младшего возраста она значительно снижает риск развития расстройств аутистического спектра.

Использовав фреймворк, разработанный авторами TextGrad, наши коллеги смогли объединить современные языковые модели (Qwen2.7, Llama 3, Gigachat max Pro) с разработанными в их институте предсказательными моделями. Полученный пайплайн работает следующим образом:

  1. Сначала у пациента собирается предварительный анамнез, и на его основе ему предлагается изначальная диета.
  2. На основе ежедневных анализов крови, мочи и метагенома предсказательными моделями оценивается оптимальность диеты.
  3. Эта оценка передает при помощи TextGrad языковым моделям вместе с описанием диеты, на основании чего они выдают новую, исправленную диету.
  4. Этот процесс повторяется несколько раз до схождения к оптимуму.

По предварительным испытанием в худшем случае процедура оптимизации диеты занимает 28 дней. Время терапии, разумеется, зависит от точности изначального приближения, а потому при составлении начальной диеты рекомендуется пользоваться результатами генетических тестов «Генотека». Название метода — MetagenomeGrad — отражает его основу: градиентную оптимизацию под индивидуальный метагеном.

В планах у исследователей находится подключение к пайплайну нейросети WhisperAI от Facebook — для анализа звуков, издаваемых пищеварительной системой человека (например, урчания желудка).

Эта соцсеть и владеющая ей компания МЕТА признана в России нежелате09スz152ヨタワ4ネ

6. Как ИИ помогает бороться с девиантным поведением

Применяется машинное обучение и для областей, находящихся в сфере интересов нейробиологии. Коллеги из Института психиатрии имени Сербского недавно начали работать над проектом по разработке метода медикаментозного купирования сексуальной агрессии и девиантного поведения. Это важно в случае опасных для сексуального партнера и общества девиаций. Встал вопрос — с кем работать из животных по этой линии? Просто мышей не возьмешь — некоторые нюансы разобраны в статье «Трансляционная психиатрия — как моделировать психические расстройства на животных?» [19].

Решение нашлось в Чили: немецкий психолог Ричард Линденфрост предложил использовать чилийских белок дегу (рис. 7). Эти грызуны демонстрируют уникальное брачное поведение:

  • cамец метит территорию, изгоняет конкурентов, затем исполняет сложный танец с дрожью и взмахами хвоста;
  • после этого он метит самку, а самка метит его;
  • спаривание происходит только после взаимного «одобрения» по запаху.

Такое поведение — редкая аномалия в природе, не встречающаяся у видов, эволюционно близких к дегу, что делает чилийскую белку идеальной моделью для изучения девиаций. Когда традиционные препараты не сработали, команда Петра Белобельского применила drug repurposing — поиск новых применений для известных лекарств с помощью машинного обучения [20]. Этот метод уже помог открыть новый антибиотик [21].

В результате удалось подавить мечение территории у самцов. К сожалению, остальные элементы поведения (включая реакцию самки) пока корректировке не поддаются. На основе предсказаний ИИ отобраны новые вещества-кандидаты — сейчас их синтезируют для дальнейших испытаний.

Чилийская белка (дегу)

Рисунок 7. Чилийская белка (дегу). Данный вид обладает несколько необычным и даже шокирующим некоторых людей ритуалом спаривания, который и сделал его удобной мишенью для экспериментаторов.

7. Модификация ДНК: от устойчивости к радикалам до искусственных организмов

Сравнительно давно научному сообществу известны редкие организмы, использующие вместо фосфора в ДНК его более высокомолекулярный и стабильный аналог — мышьяк [22]. Казалось, что такая замена подходит только бактериям — об этом даже выходила статья в Science [23].

Однако при помощи недавно разработанного метода на основе алгоритма диффузии, которая до этого применялась только для генерации изображений, — DNA Diffusion [24] — исследователи смогли показать, что, вдобавок к замене фосфора на мышьяк, достаточно лишь небольшой модификации используемых человеческим организмом нуклеотидов, чтобы получить куда более стабильную ДНК — что могло бы замедлить, а потенциально и полностью остановить старение организма, предотвратить развитие рака и остановить гибель тканей.

Однако можно пойти дальше — сколько можно мучить микоплазму [25]? Методы Майкла Бронштейна на основе графовых сетей и уже упомянутой ESM2 позволяют DNA Diffusion создавать синтетические организмы с новыми свойствами и абсолютно незнакомыми метаболическими путями. И хотя это, даже по оценкам таких ИИ-оптимистов как Сэм Альтман, может занять 30 или даже 40 лет, но в конечном счете мы будем вознаграждены появлением нового вида человека, не подверженного когнитивным искажениям общества и интернета, — Homo immortus.

8. Химическое бессмертие?

Пока мы ждем новостей от совместного проекта Бронштейна и Альтмана, можно задуматься о временных пролонгаторах жизни человека. Нейронная сеть ChemBERTa [26], обученная на большой библиотеке химических веществ и на топологических нейросетях Колмогорова—Арнольда—Смирнова (KAN(T) — улучшения KAN [27]), позволила спрогнозировать сотни молекул, которые в теории способны продлить жизнь. Как известно, подобные нейросети часто производят вещества из обучающей выборки.

Однако, подключив в пайплайн публично доступную версию Grok, исследователи смогли спросить у нейросети, насколько высока новизна предсказанных ею веществ. Она заверила исследователей, что эти вещества не встречались в обучающей выборке и не являются простейшими модификациями уже известных. Многие из предложенных данным пайплайном веществ сейчас находятся на второй стадии клинических испытаний (рис. 8).

Примеры веществ-кандидатов

Рисунок 8. Примеры веществ-кандидатов, предложенных пайплайном ChemBERTa–KANT в качестве лекарств для продления жизни. Все три вещества проходят вторую стадию клинических испытаний как в российских, так и в зарубежных клиниках.

Важно отметить, что уже после публикации препринта и после доклада Никиты Трофимовича Лисенко оказалось, что идея как KAN, так и ее модификации KANT была предложена Юргеном Шмидхубером еще в 1991 году. Конечно же, такой эпизод не останется без внимания — конечно же, как и авторы новой работы, так и Никита Трофимович, будут впредь упоминать неоценимый вклад Шмидхубера в развитие и этой области искусственного интеллекта.

Литература

  1. История развития искусственного интеллекта и его пришествия в биологию;
  2. Конструкторское бюро белков;
  3. Minkyung Baek, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, et. al.. (2021). Accurate prediction of protein structures and interactions using a three-track neural network. Science. 373, 871-876;
  4. J. Dauparas, I. Anishchenko, N. Bennett, H. Bai, R. J. Ragotte, et. al.. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science. 378, 49-56;
  5. Eric Nguyen, Michael Poli, Matthew G. Durrant, Brian Kang, Dhruva Katrekar, et. al.. (2024). Sequence modeling and design from molecular to genome scale with Evo. Science. 386;
  6. Бремя долголетия: как жить долго и счастливо уже сегодня;
  7. Антибиотики и антибиотикорезистентность: от древности до наших дней;
  8. Manoj Jangra, Dmitrii Y. Travin, Elena V. Aleksandrova, Manpreet Kaur, Lena Darwish, et. al.. (2025). A broad-spectrum lasso peptide antibiotic targeting the bacterial ribosome. Nature;
  9. Thomas Hayes, Roshan Rao, Halil Akin, Nicholas J. Sofroniew, Deniz Oktay, et. al.. (2025). Simulating 500 million years of evolution with a language model. Science. 387, 850-858;
  10. Как языковые модели покорили мир белков;
  11. John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, et. al.. (2021). Highly accurate protein structure prediction with AlphaFold. Nature. 596, 583-589;
  12. AlphaFold: нейросеть для предсказания структуры белков от британских ученых;
  13. Белковые галлюцинации: как справляется AlphaFold?;
  14. Несуществующие в природе белки́ — за что вручили Нобелевскую премию по химии (2024);
  15. Veniamin Fishman, Yuri Kuratov, Aleksei Shmelev, Maxim Petrov, Dmitry Penzar, et. al.. (2025). GENA-LM: a family of open-source foundational DNA language models for long sequences. Nucleic Acids Research. 53;
  16. Muhammad A Nawaz, Igor E Pamirsky, Kirill S Golokhvast. (2024). Bioinformatics in Russia: history and present-day landscape. Briefings in Bioinformatics. 25;
  17. Research Center of the Medical Institute, FSAI HPE “Northeast federal university of M. K. Ammosov”, Dmitry G. Tikhonov, Ulyana M. Lebedeva, Research Center of the Medical Institute, FSAI HPE “Northeast federal university of M. K. Ammosov”, Konstantin M. Stepanov, et. al.. (2019). From the history of the study of the diet in North-Eastern Siberia: from the paleo diet to Coca-Cola in just 100 years. HM/ru. 6;
  18. Mert Yuksekgonul, Federico Bianchi, Joseph Boen, Sheng Liu, Pan Lu, et. al.. (2025). Optimizing generative AI by backpropagating language model feedback. Nature. 639, 609-616;
  19. Трансляционная психиатрия — как моделировать психические расстройства на животных?;
  20. Проблемы, тренды и точки роста доклинических исследований;
  21. Jonathan M. Stokes, Kevin Yang, Kyle Swanson, Wengong Jin, Andres Cubillos-Ruiz, et. al.. (2020). A Deep Learning Approach to Antibiotic Discovery. Cell. 180, 688-702.e13;
  22. Почти детективная история о том, как элемент-убийца помог возникнуть жизни;
  23. F. Wolfe-Simon, J. S. Blum, T. R. Kulp, G. W. Gordon, S. E. Hoeft, et. al.. (2011). A Bacterium That Can Grow by Using Arsenic Instead of Phosphorus. Science. 332, 1163-1166;
  24. DaSilva L.F., Senan S., Patel Z.M. et al. (2024). DNA-Diffusion: Leveraging Generative Models for Controlling Chromatin Accessibility and Gene Expression via Synthetic Regulatory Elements. bioRxiv;
  25. С геномом налегке: минимальный размер бактериального генома — это сколько?;
  26. Chithrananda S., Grand G., Ramsundar B. (2020). ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction. arXiv;
  27. Liu Z., Wang Y., Vaidya S. et al. (2025). KAN: Kolmogorov-Arnold Networks. arXiv.

Комментарии