ПсИИхогенетика: есть ли в моем геноме ответ — или только вероятности?
22 декабря 2025
ПсИИхогенетика: есть ли в моем геноме ответ — или только вероятности?
- 11
- 0
- 0
На обложке моей первой статьи «Шизофрения и гены: поиск иголки в стоге сена» [1] была маленькая девочка, которая держала за руку больную маму и спрашивала: «Я стану такой же?». Теперь она выросла, стала ученым — и задает тот же вопрос, но уже на языке науки: «Есть ли в моем геноме ответ — или только вероятности?».
иллюстрация создана нейросетью по мотивам работ Александры Куришевой и с ее разрешения
-
Автор
-
Редакторы
Статья на конкурс «Био/Мол/Текст»: Шизофрения — одна из самых загадочных болезней в психиатрии. Она встречается примерно у 1% людей во всем мире — стабильно, независимо от страны, культуры или эпохи. При этом за единым диагнозом скрывается поразительная неоднородность: у разных пациентов болезнь проявляется по-разному, течет по-разному и по-разному отвечает на лечение. Наследуемость оценивается в 60–80% — цифра, которая звучит как приговор. Но это ловушка интерпретации.
Психические заболевания — это не поломка одного гена. Это тысячи вариантов, разбросанных по геному, каждый из которых сам по себе безвреден. Вместе они формируют не судьбу, а порог уязвимости. В этой статье мы разбираем, почему такая генетическая архитектура ставит в тупик классические методы анализа данных — и как машинное обучение вместе с искусственным интеллектом помогают находить закономерности там, где привычная статистика бессильна.
Конкурс «Био/Мол/Текст»-2025/2026
Эта работа опубликована в спецноминации «Искусственный интеллект в биологии» конкурса «Био/Мол/Текст»-2025/2026.
Генеральный партнер конкурса — международная инновационная биотехнологическая компания BIOCAD.
Партнер номинации — компания Центральный университет в лице совместной с институтом AIRI Лаборатории ИИ, анализа данных и моделирования.
«Книжный» спонсор конкурса — «Альпина нон-фикшн»
Начнем с художественной литературы. В романе Карин Бойс «Особый ген» сюжет строится вокруг красивой, но пугающей идеи: существует мутация в одном гене, которая одновременно повышает креативность и предопределяет безумие (за это открытие в книге присуждают Нобелевскую премию по физиологии и медицине). Такой образ интуитивно понятен — нам хочется верить, что у сложного явления может быть простая и понятная причина.
С точки зрения науки, этот сюжет описывает классический менделевский признак — черту, которая жестко контролируется одним геном. Если у вас есть доминантная аллель — признак проявляется, если нет — вы здоровы. Долгое время казалось, что психиатрия вот-вот найдет такой ген.
И ведь нашли. В 2000 году надежды генетиков подогрела большая шотландская семья, в которой из поколения в поколение передавались шизофрения, биполярное расстройство и депрессия. У всех больных родственников нашли одну и ту же редкую поломку — транслокацию, которая нарушает функцию гена DISC1 (Disrupted in Schizophrenia 1) [2].
Казалось, «особый ген» найден. Но эйфория сменилась пониманием: мутация в этой семье — уникальное исключение. Редкие мутации в DISC1 не подходят для биологического понимания механизмов шизофрении. Как минимум, для оставшихся пациентов в мире этот механизм не работает (сделаем к этому грустному факту комментарий в форме рис. 1). Шизофрения оказалась не менделевским заболеванием, а сложным признаком (complex trait), который не подчиняется правилу «один ген — одна болезнь».
Рисунок 1. Внимание! Важный комментарий, потому что в биологии не обойтись без исключений. В 2020 году международная группа генетиков проанализировала экзомы более 3400 семейных троек (пациент + оба родителя) и обнаружила статистически значимую связь шизофрении с мутациями de novo в гене SLC6A1. Этот ген кодирует транспортер ГАМК (GAT-1), отвечающий за обратный захват главного тормозного нейромедиатора гамма-аминомасляной кислоты (ГАМК) из синаптической щели [3]. Примечательно, что мутации в гене SLC6A1 уже были клинически описаны: известно, что они провоцируют эпилепсию, аутизм и задержку развития. Теперь к этому спектру добавилась шизофрения [4]. В отличие от DISC1, здесь речь не об одной семье, а о воспроизводимом результате в независимых когортах.
иллюстрация создана нейросетью по мотивам работ Александры Куришевой и с ее разрешения
Теперь, когда «виновного во всем» гена шизофрении нет, как доказать, что болезнь наследуется? Здесь на сцену выходит количественная генетика. Ее логика, предложенная еще Рональдом Фишером в 1918 году, гласит: если признак зависит от суммы множества мелких генетических факторов (аддитивная модель), степень сходства родственников можно предсказать математически.
Главный инструмент проверки этой гипотезы — близнецовый метод. Природа дает нам два типа близнецов:
-
Монозиготные (MZ) — генетически идентичны на 100% (A = 1,0).
-
Дизиготные (DZ) — делят в среднем 50% вариабельных генов (A = 0,5), как обычные братья и сестры.
Все они обычно растут в общей среде (C = 1,0).
Далее, чтобы разложить риск на компоненты, ученые используют систему уравнений, известную как модель ACE. Затем они сравнивают корреляцию (сходство) по диагнозу внутри пар близнецов:
rMZ = A + C
rDZ = 0,5A + C,
где A (Additive genetics) — вклад аддитивной генетики; C (Common environment) — вклад общей среды; E (Unique environment) — индивидуальная среда и ошибка (остаток дисперсии).
Логика проста: если болезнь чисто генетическая (C = 0), то однояйцевые близнецы должны быть ровно в два раза более похожи друг на друга, чем разнояйцевые (rMZ ≈ 2 × rDZ). Если же сходство MZ-близнецов менее чем в два раза превышает сходство DZ, значит, в дело вступает общая среда (C > 0).
В мета-анализе Салливана (2003), объединившем 12 исследований, корреляции оказались следующими: rMZ ≈ 0.92; rDZ ≈ 0.52 [5]. Поскольку 0,52 — это заметно больше, чем половина от 0,92 (0,46), это указывает, что общая среда «подтягивает» сходство. Проведя расчеты, генетики пришли к выводу: если взять все причины, по которым один человек заболевает, а другой нет, то ~81% этих различий объясняются генами (А), и лишь около 11% — влиянием общей среды (С) [5].
Но здесь возникает противоречие. Генетический риск, складывающийся из тысяч малых влияний, должен быть непрерывным (как рост или вес). А диагноз «шизофрения» — бинарный признак: человек либо болен, либо нет. Как плавное накопление мутаций приводит к резкому скачку в болезнь?
Ответ дает пороговая модель уязвимости (liability-threshold model), предложенная Дугласом Фальконером [6]. Представьте ее через такую метафору:
Есть тяжелая закрытая дверь, которую нужно открыть.
-
Аддитивность (накопление): Один человек поворачивает ручку и толкает дверь — ничего. Подходит второй, третий — дверь ни с места. Это скрытая стадия: генетические риски и факторы среды суммируются, накапливая уязвимость (liability).
-
Порог: Усилия копятся незаметно для глаза. Но в тот момент, когда суммарное давление превышает критический порог сопротивления петель, дверь резко распахивается.
-
Результат: Для врача болезнь (открытая дверь) — это событие «да/нет». Но биологически это результат непрерывного процесса.
Человек наследует не «открытую дверь» (сам диагноз), а исходный запас прочности конструкции. Это и есть генетическая предрасположенность: она задает стартовые условия, а внешняя среда выступает лишь триггером, который реализует (или не реализует) этот риск.
Полученные из уравнений 11% вклада общей среды — это важный клинический вывод. В генетике «общая среда» — это не то, как родители воспитывали детей, а биологические условия (те самые триггеры), которые были у близнецов. Это прежде всего период беременности, когда близнецы делят одну матку и систему кровоснабжения. Именно поэтому вклад среды указывает на критическую роль раннего развития (Neurodevelopment) — отсюда и пристальное внимание ученых к гипоксии, инфекциям и диете матери.
Близнецовый метод ставит точку в старом споре «природа или воспитание». Ответ — и то, и другое, но в неравных пропорциях. Но математическая модель не может сказать, какие именно гены или какие именно средовые факторы виноваты. Открытым остается главный вопрос: где именно в ДНК скрыта эта «тяжелая наследственность»?
Генетическая архитектура: как найти отличия в (почти) одинаковых текстах
Чтобы дальше понять, как исследователи перешли от изучения редких семей к анализу сотен тысяч человек, нужно осознать масштаб проблемы. Все люди на Земле генетически идентичны на 99,9%. Но оставшаяся 0,1% различий — это около трех миллионов точечных различий (генетических вариантов) буквально в одну букву (нуклеотид). И в этом огромном массиве букв человеческого генома скрывается ключ к загадке генетической предрасположенности к шизофрении.
Чтобы во всем разобраться, потребуется полногеномный поиск генетических вариантов [7]. Он необходим из-за главной сложности психиатрии: шизофрения — одна из самых гетерогенных болезней в медицине [8]. У разных людей приступы психоза могут запускаться совершенно разными биологическими процессами, которые приводят к схожему клиническому проявлению. Индивидуальный геном человека — это книга, написанная на неизвестном языке, который при этом еще и зашифрован. Из-за чего иногда и получается, что выводы о человеке проще и точнее сделать по его фенотипу — то есть по внешним проявлениям, — чем пытаясь расшифровать его ДНК. Ведь фенотип — это уже «свершившийся факт», готовый результат работы генов и среды, в то время как геном — лишь вероятностный прогноз. Именно поэтому точно предсказать риск развития такого комплексного заболевания, как шизофрения, анализируя геном лишь одного человека, — задача практически невыполнимая. На уровне одной личности мы просто не сможем отличить каузальный/причинный вариант, повышающий риск, от безобидной индивидуальной особенности. Чтобы убрать этот фоновый «шум» и определить истинный маркер, генетики переходят на уровень больших чисел: они сравнивают не отдельных людей, а многотысячные когорты больных и здоровых (дизайн «случай–контроль»).
Но что именно сравнивать? Чтобы превратить биологию в статистику, исследователям нужна была элементарная, неделимая единица вариабельности. Ей стал SNP (Single Nucleotide Polymorphism, или «снип») — однобуквенная вариация в ДНК (рис. 2). Сегодня мы знаем, что SNP — это не просто маркеры/теги болезней, а универсальный код человеческих различий.
Рисунок 2. Точечные различия в геноме: у двух людей последовательность ДНК одинакова почти полностью, но в одной позиции стоит разная буква — у одного C, у другого T.
Ярким примером в психиатрической генетике является генетический вариант rs1344706 (A/C) в гене ZNF804A. Аллелем риска является буква A. Согласно базе данных gnomAD, минорный аллель C встречается в среднем с частотой ≈0,30 , тогда как A, соответственно, достигает ≈0,70 в общей популяции. В европейских группах частоты немного ниже (около 0,39–0,40 для A в non-Finnish Europeans), что отражает межпопуляционные различия. Сам SNP расположен в интроне ближе к 3′-концу гена и в масштабных генетических исследованиях стабильно демонстрировал ассоциацию с умеренно повышенным риском шизофрении [9].
В популяционной генетике такая величина называется MAF (minor allele frequency) — частота более редкого из двух вариантов в данной точке генома.
Этот пример иллюстрирует, почему в современной генетике так важны большие популяционные ресурсы. Чтобы понять, какие варианты действительно влияют на заболевание, а какие просто встречаются чаще в определенных группах населения, необходимы масштабные биобанки с сотнями тысяч участников.
Так анализ данных крупнейших биобанков, таких как UK Biobank (полмиллиона участников) и финский проект FinnGen, показал, что практически любой сложный признак имеет генетическую составляющую, записанную в SNP. Например, в FinnGen 91% болезней показали хотя бы одну достоверную генетическую ассоциацию, а значит, эти вариации определяют не только риск шизофрении, но и склонность к бессоннице, метаболические особенности и даже черты характера [10].
Кроме того, эти точечные изменения редко наследуются поодиночке. Они передаются блоками — участками хромосом, которые переходят от родителей к детям целиком, без перетасовки. Это явление называется неравновесным сцеплением (linkage disequilibrium, LD), а сами блоки — гаплотипами. Для генотипирования это удобно: не нужно определять каждый из миллионов вариантов напрямую. Достаточно измерить один «маркерный» SNP в блоке — и по нему восстановить состояние всех «сцепленных» с ним соседей. Именно так работают ДНК-микрочипы: они детектируют 500–700 тысяч позиций SNP, а информацию о миллионах других получают вычислительным путем (импутация). На этом же принципе построены потребительские генетические тесты (23andMe, Genotek), определяющие происхождение: структура гаплотипов уникальна для разных популяций и позволяет отследить миграции предков [11].
Но у LD есть обратная сторона. Когда GWAS находит ассоциацию с болезнью, статистически значимым оказывается не один вариант, а десятки соседних SNP, унаследованных вместе. Мы видим сигнал, но не знаем, какой именно вариант в блоке — причина, а какие — просто «попутчики».
Для исследователей другим очень ценным свойством SNP является их цифровая природа и дискретность. В каждой точке генома у человека может быть строго 0, 1 или 2 копии варианта риска, что позволяет превратить биологию в алгебру: эти цифры можно складывать и использовать в статистических уравнениях. Когда мы сравниваем частоту встречаемости конкретного SNP у больных и здоровых с помощью этой «алгебры», мы получаем числовую оценку эффекта SNP — Отношение шансов (Odds Ratio, OR).
Важно понимать, что OR — это не биологическая интерпретация SNP, а наблюдательная статистика, показывающая перекос частот. Если вариант встречается одинаково часто и у больных, и у здоровых, его OR равен 1,0. Если же вариант встречается у пациентов чаще, он считается фактором риска (OR > 1,0), а если реже — защитным фактором (OR < 1,0). Примечательно, что в психиатрии эффекты большинства отдельных SNP ничтожно малы — отношение шансов обычно составляет около 1,05, что едва отличимо от статистической погрешности без огромных выборок.
Возникает логический вопрос: «почему же эффекты отдельных генов настолько слабы?» Ответ кроется в том, что шизофрения, подобно росту человека, является экстремально полигенным признаком. Поэтому как не существует одного «гена высокорослости», так и сложно найти одну-единственную причину нарушения психики. Недавнее исследование 5,4 миллионов человек выявило более 12 000 различных SNP, влияющих на рост человека. Каждый из них добавляет миллиметры, но вместе они объясняют 40% разницы в росте между людьми, а с учетом редких мутаций — до 68% [12]. Шизофрения устроена так же: нет одного «рубильника», есть тысячи микро-настроек, каждая из которых чуть-чуть сдвигает порог уязвимости.
Но как отыскать эти SNP с малым эффектом, достоверно ассоциированные с шизофренией? Здесь вернемся к полногеномному поиску ассоциаций (GWAS, Genome-Wide Association Study) [13], чтобы разобрать его принцип работы подробно. Особенность анализа GWAS — это отсутствие гипотезы: исследователи не пытаются угадать причину заранее, а полагаются на «слепой» сбор данных. Дизайн эксперимента прост и надежен: собираются две большие группы — больные (случай) и здоровые (контроль). Дальше в дело вступает статистика: компьютер берет первый генетический вариант (SNP), строит регрессию («Связано ли наличие этого варианта с диагнозом?»), затем переходит ко второму, и так — миллионы раз подряд, монотонно проверяя каждый участок генома на причастность к болезни. Результаты суммарной статистики по всем вариантам отображаются на знаменитых «Манхэттенских графиках». Каждая точка здесь — это генетический вариант, а высота точки показывает силу его связи с болезнью. Те, что выстраиваются в высокие «небоскребы», — это и есть зоны, где частоты вариантов у больных и здоровых различаются статистически значимо (то есть это реальный сигнал, а не случайный шум).
К 2022 году международный консорциум по психиатрической генетике шизофрении (Schizophrenia Working Group of the Psychiatric Genomics Consortium, PGC) идентифицировал более 280 локусов риска шизофрении — масштаб, который в начале 21 века казался фантастическим [14]. Работа PGС дала биологам не просто карту «генетического ландшафта» шизофрении, но и конкретные цифры: для каждого варианта мы теперь знаем его статистический вес/вклад в проявление признака. Опираясь на аддитивность генетических факторов, возможно суммировать тысячи этих слабых сигналов, взвешенных на их вносимый эффект. Именно так рождается Полигенная Шкала Риска (ПШР, Polygenic Risk Score, PRS) — инструмент, который превратил GWAS из инструмента поиска генетических мишеней в метод количественной оценки индивидуальной уязвимости, о котором мы поговорим далее (рис. 3).
Полигенные шкалы риска: от генетической карты к навигации
Рисунок 3. Схема формирования полигенного риска. PRS отражает суммарное количество небольших генетических эффектов: чем больше накоплено риск-аллелей (красный), тем выше итоговое значение шкалы. В популяции это приводит к различию распределений PRS между пациентами и контролем.
Polygenic Risk Score (PRS) Tutorial (гитхаб)
За пятнадцать лет GWAS трансформировал психиатрию в область анализа и обработки больших данных: сегодня исследователи одновременно анализируют данные пациентов, формируют биобанки с сотнями тысяч биообразцов, оцифровывают и сопоставляют результаты опросников и анкет и дополняют их сведениями из медицинских архивов и национальных регистров.
Но это ведь только фундаментальная область изучения биологической природы шизофрении. Как применить это знание к конкретному пациенту, сидящему в кабинете врача? Ответ кроется в переходе от статистики популяции к индивидуальному прогнозу. И тогда на помощь приходит Полигенная Шкала Риска, о которой было упомянуто выше.
Математическая логика ПШР абсолютно прозрачна (рис.4 и 5). Раз болезнь формируется из множества мелких генетических сдвигов, мы можем «собрать» их в единый показатель для конкретного человека. Для этого используется формула взвешенной суммы, где каждый вариант умножается на силу его влияния:
PRS = Σ(генотип ⨉ вес)
Рисунок 4. Как складывается полигенный риск. PRS рассчитывают как сумму небольших эффектов множества генетических вариантов. βi — это сила влияния каждого варианта, а Gi — число копий риск-аллеля (0, 1 или 2). Чем больше таких вкладов накоплено, тем выше общий генетический риск.
Рисунок 5. Расчет ПШР — это буквально суммирование «веса» множества мелких факторов. Если раньше поиск и форматирование данных из исследований GWAS были трудоемким процессом, то теперь существуют централизованные инструменты, такие как PRSKB (Polygenic Risk Score Knowledge Base) [16]. Этот калькулятор содержит данные о более чем 250 000 генетических ассоциаций и позволяет исследователям легко «взвесить» риски, опираясь на массивные каталоги данных.
иллюстрация создана нейросетью по мотивам работ Александры Куришевой и с ее разрешения
Подходящая аналогия здесь — банковский кредитный рейтинг. Не существует одного «пропущенного платежа», который гарантированно делает вас банкротом. Но сумма тысяч мелких транзакций, задержек по кредитам и долгов формирует единый балл, который надежно предсказывает вашу финансовую надежность. ПШР делает то же самое с биологией: он превращает миллионы разрозненных букв ДНК в одно число, отражающее вашу уязвимость.
Важно понимать: ПШР — это относительная, а не абсолютная мера. Сам по себе балл «3.5» ничего не значит. Он обретает смысл только в сравнении с популяцией, как показано на рисунке 6. Оценка ПШР показывает ваше место на кривой нормального распределения: так, люди с значением ПШР в верхнем 5% (топ-перцентиль) имеет генетический риск во много раз выше, чем средний представитель популяции.
Рисунок 6. Практический пример: распределение уровней холестерина липопротеинов низкой плотности (ХС-ЛПНП) по квантилям полигенной шкалы риска в российской популяции как пример клинического применения. Показаны медианы, межквартильные размахи и выбросы для мужчин и женщин в квантилях ПШР. Видно, что повышение ПШР связано с постепенным увеличением концентрации ХС-ЛПНП, что подтверждает прогностическую ценность полигенной шкалы. Этот пример тут приводится из-за своей наглядности, хотя он и не связан с психиатрией.
Однако, как и кредитный рейтинг, высокий балл — это риск, а не приговор. Большинство людей с высоким генетическим риском никогда не заболеют шизофренией, но вероятность этого у них выше, чем у остальных [19].
Суммируем: ПШР — величина абстрактная, такая оценка имеет смысл только в сравнении и скорее служит инструментом ранжирования. Работает ли этот математический прогноз в жизни? Последние исследования показывают: да, и делает это лучше, чем многие социальные и клинические показатели. Вот несколько открытий, которые дополняют наше представление о генетической предрасположенности.
1. Прогноз работает, даже если мы не понимаем механизм
В науке долго считалось: «чтобы предсказать, нужно объяснить механизм». ПШР не подчиняется этому правилу. Наследуя логику GWAS (поиска ассоциаций без априорной гипотезы), этот метод полагается на чистую статистику. Его ценность — в эмпирической эффективности: он дает верный прогноз, даже если мы не понимаем, как именно работают вовлеченные гены.
Яркий пример — успеваемость. Полигенная шкала образовательных достижений способна предсказать 15% различий в школьных экзаменах. Для сравнения, социологические рейтинги качества школ объясняют лишь 4%. Генетический «черный ящик» работает в 4 раза точнее социальных индикаторов, даже если мы не знаем функцию каждого гена в этом уравнении [20].
Практический вывод: Нам не нужно ждать полного понимания молекулярной биологии мозга, чтобы начать выявлять группы риска.
2. Генетика личности: риск есть даже у здоровых
Что происходит, если у вас высокий ПШР шизофрении, но вы здоровы? Риск не исчезает бесследно — он вплетается в структуру личности.
Исследования Вейкки Лавониуса показали: у здоровых людей из общей популяции высокий полигенный балл шизофрении коррелирует с «Открытостью новому опыту» (любознательность, креативность). А связь с экстраверсией имеет форму перевернутой U: и очень низкий, и очень высокий риск делают человека замкнутым, а средний — максимально общительным.
Это доказывает, что «болезнь разума» — это не отдельная черта личности, а крайний полюс нормального спектра человеческого разнообразия [21].
3. Конец категорий: спектр психозов
Исследование Виктории Родригес и коллег, использовавшее данные пациентов с первым эпизодом психоза, выявило четкий обратный градиент полигенного риска в зависимости от клинического диагноза:
-
Пациенты, у которых риск SCZ (PRS-SZ) был высоким, а риск депрессии (PRS-D) низким, имели больше шансов получить диагноз расстройства шизофренического спектра (SSD).
-
И наоборот, низкий PRS-SZ в сочетании с высоким PRS-D значительно увеличивал шансы на аффективный психоз (например, психотическую депрессию).
Таким образом, диагноз зависит не от наличия уникальной «поломки», а от соотношения и баланса общих генетических рисков, распределенных по этому континууму [22].
Как эти выводы выглядят в статьях? Если представить данные ПШР графически, можно увидеть, что распределения баллов у пациентов с диагнозом систематически смещены вверх по сравнению с контролем, а квантильные и ROC-кривые подтверждают рост риска в верхних процентах шкалы (рис. 7).
Рисунок 7. Визуализация предсказательной способности полигенной шкалы риска. Разные типы графиков демонстрируют, как ПШР распределяется в популяции и насколько хорошо отличает случаи от контроля: violin plot — различия в распределениях ПШР между группами; density plot — сдвиг плотности ПШР у пациентов относительно контроля; quantile plot — рост относительного риска заболевания в верхних квантилях ПШР; ROC-кривая — общая точность классификации на основе ПШР.
Однако классический ПШР имеет одно фундаментальное ограничение: он линеен. Он исходит из предположения, что 1 + 1 = 2 [23]. Но биология нелинейна, и психиатрия чувствительна к этим нелинейностям особенно сильно. Эпистатические взаимодействия, средовые факторы и клиническая гетерогенность приводят к тому, что для психических расстройств предсказательная способность традиционных ПШР остается невысокой — зачастую лишь немного превосходящей случайный прогноз.
При этом исследования показывают, что ПШР начинают обретать клинический смысл только в сочетании с фенотипическими данными. Добавление клинических шкал — таких как PANSS (Positive and Negative Syndrome Scale), показатели негативной симптоматики, когнитивные тесты, длительность заболевания и возраст дебюта — существенно улучшает стратификацию пациентов, позволяя выделять более однородные подгруппы и предсказывать траекторию течения болезни. Так в ближайшем будущем психиатрам будет важно применять этот инструмент для клинической стратификации пациентов, прогнозирования течения заболевания и выбора оптимальной терапии [24].
А сейчас на сцену выходит Искусственный Интеллект, который умеет анализировать внутреннюю структуру данных с разных сторон. О том, как нейросети находят скрытые паттерны, которые пропускает обычная статистика, и как это повышает точность прогноза в психиатрии — в следующей главе.
Искусственный интеллект: от линейной суммы к глубокому пониманию
Прежде чем говорить о революции, которую несет искусственный интеллект, важно признать, что даже в своей классической форме полигенные шкалы риска уже стали важным инструментом персонализированной медицины. Они позволяют сжать сложную генетическую архитектуру человека — тысячи слабых сигналов, разбросанных по всему геному, — в одну понятную цифру, отражающую индивидуальную предрасположенность. Для таких состояний, как ишемическая болезнь сердца, рак груди или диабет 1 типа, предсказательная сила ПШР сегодня не уступает, а иногда и превосходит традиционные клинические факторы, такие как уровень холестерина или семейный анамнез. Это открывает дорогу к более тонкой стратификации пациентов: выявляя группы высокого риска задолго до первых симптомов, врачи могут назначать прицельную профилактику — от раннего скрининга до терапии статинами — там, где она принесет максимальную пользу [25]. При этом технология остается экономически доступной, ведь один недорогой анализ генотипа дает данные для расчета рисков сразу по десяткам заболеваний.
Тем не менее, у классических методов есть фундаментальное ограничение: они игнорируют сложную генетическую архитектуру признака. Линейные модели воспринимают ДНК как список изолированных инструкций, упуская из виду контекст. Биологические системы пронизаны нелинейными взаимодействиями, где эффект одного гена может кардинально меняться в присутствии другого или где один и тот же генетический фактор влияет на множество, казалось бы, не связанных признаков — явление, известное как плейотропия.
Поэтому ученые переходят от механического суммирования рисков к их глубокому моделированию с помощью искусственного интеллекта. ИИ не просто считает сумму — он ищет скрытую структуру в хаосе данных. Недавнее исследование Klau et al. (2023) наглядно продемонстрировало это преимущество, сравнив традиционные методы с глубокими нейронными сетями (DNN) на примере прогнозирования рака груди, болезней сердца и диабета [26].
Одно из недавних исследований предлагает переосмыслить сам принцип построения полигенных шкал риска. Вместо того чтобы складывать эффекты SNP по одному, как это делается в классическом ПШР, авторы используют нейросеть, которая учится распознавать сложные, нелинейные комбинации вариантов. Такой метод получил название PRSNN (Polygenic Risk Score Neural Network). В основе подхода лежит простая идея: пусть алгоритм сам решит, какой вклад вносит каждый SNP, опираясь не только на статистическую значимость из GWAS, но и на контекст других вариантов. Для этого нейросеть проходит обучение на суммарных статистиках крупных консорциумов (например, PGC) и учится предсказывать вероятность заболевания. После обучения модель «перераспределяет веса» SNP — и эти новые, переоцененные веса используются для расчета ПШР. Чтобы понять вклад каждого генетического варианта, авторы применяют метод SHAP (SHapley Additive exPlanations). Он позволяет оценить, насколько каждый SNP меняет прогноз модели — положительно, отрицательно или никак. Фактически SHAP создает карту важности SNP, аналогичную классическому «размеру эффекта», но рассчитанную с учетом нелинейных взаимодействий. Важно подчеркнуть, что исследование остается пилотным. Модель тестировалась на крайне небольшой выборке пользователей OpenSNP, почти полностью европейского происхождения, что ограничивает обобщаемость результатов. Также не проводилась независимая валидация на крупных биобанках, таких как UK Biobank или FinnGen [27]. Тем не менее, работа демонстрирует важный принцип: нейросетевые подходы способны извлечь из генома информацию, которая недоступна классическим линейным моделям. По сути, ученые перестают сами диктовать модели, какие гены считать важными. Сейчас data-driven стратегия позволяет алгоритмам самим находить закономерности в сырых данных.
Рисунок 8. Ключевые проблемы применения методов машинного обучения в психиатрической генетике. Инфографика обобщает основные ограничения современных моделей, включая нестабильность результатов, высокий риск смещения (bias), широкий диапазон точности (AUC) между различными психиатрическими расстройствами и ключевые источники ошибок. Представлены также рекомендации для повышения надежности исследований: строгая валидация, необходимость отчетности о калибровке моделей и обязательный учет генетической неоднородности выборок.
иллюстрация автоматически сгенерирована на основе текста статьи [28] при помощи NotebookLM
Однако, несмотря на впечатляющий потенциал, машинное обучение в психиатрической генетике пока остается инструментом с серьезными ограничениями, как показано на рисунке 8. На уровне отдельных исследований модели нередко демонстрируют высокие значения точности, но систематические обзоры показывают обратное: результаты нестабильны, непоследовательны и часто завышены из-за методологических ошибок. Даже самые продвинутые алгоритмы начинают «ломаться» там, где сталкиваются с биологической гетерогенностью диагнозов, шумностью фенотипов и сложной популяционной структурой. В результате улучшение прогноза оказывается не столь надежным, как кажется по первым публикациям, и требует серьезной проверки на больших, независимых выборках [28].
Параллельно, сами методы анализа ДНК продолжают эволюционировать, и на смену приходят инновационные подходы, заимствованные из лингвистики (подробнее про становлении этих методов — в статье «История развития искусственного интеллекта и его пришествия в биологию» [29]). Тут важно привести в пример ДНК-языковые модели (DNA Foundation Models), такие как GENA (разработанная институтом AIRI) [30] или Alpha-Genome [31]. В отличие от классических алгоритмов, они не просто ищут совпадения букв. Они обучены понимать контекст и грамматику генома. В психиатрии их роль пока исследовательская, но критически важная: они помогают нам понять смысл найденных кандидатных SNP. Например, когда GWAS указывает: «в этом локусе замена буквы», то модель уровня GENA способна предсказать: «эта новая буква в некодирующей области способна изменить регуляцию соседнего гена». Это переход от слепой статистики к пониманию биологического механизма.
Тем не менее, даже самый совершенный ИИ, если анализирует только геномом, упрется в естественный предел. ДНК — это лишь архитектурный чертеж организма, потенциал, реализация которого зависит от множества динамических слоев: эпигенетики, активности генов (транскриптомики) и синтеза белков (протеомики).
Кстати, что насчет протеомики: многие наверняка слышали про AlphaFold, который отметил свое пятилетие [32–34]. Этот алгоритм стал первой научной ИИ-звездой в биологии, научившись предсказывать 3D-структуры белков с невероятной точностью. Секрет его успеха кроется в использовании огромного массива генетических и структурных данных, накопленных учеными десятилетиями. О том, почему «чтение» текстовых эволюционных данных оказалось эффективно в моделировании 3D-структур, подробно написано в обзорной статье: «Как языковые модели покорили мир белков» [34].
Но вернемся к будущему молекулярной психиатрии, которое лежит за пределами чистой генетики — в создании мультимодальных моделей ИИ. Мультиомиксные технологии уже стремятся одновременно анализировать и неизменный генетический код, и текущее состояние клеток в реальном времени, чтобы окончательно перейти от вероятностных прогнозов к точной медицине.
Заключение. От генетического кода к цифровому двойнику пациента
Рисунок 9. Разгадывая генетический код шизофрении, важно помнить: каждая новая модель — это не точный ответ, а шаг к более глубокому пониманию болезни.
иллюстрация создана нейросетью по мотивам работ Александры Куришевой и с ее разрешения
В предыдущих главах мы подробно разобрали, как полигенные шкалы риска (ПШР) позволяют оценить врожденную уязвимость человека. Однако важно признать: до сих пор мы рассматривали только генетическую компоненту (рис. 9), которая не меняется в течение жизни. Но шизофрения — это динамический процесс, разворачивающийся во времени. Самая большая загадка психиатрии кроется не в самой спирали ДНК, а в том, как именно крошечные поломки в генетическом коде приводят к фундаментальным нарушениям клеточных процессов, заканчивающимся психозом, бредом и распадом личности. Чтобы разгадать этот механизм, современной науке необходимо объединять данные всех «омик»: транскриптомики (активность генов), протеомики (белки) и метаболомики [35]. Это напоминает поиск биомаркеров патологических процессов, которые возникают здесь и сейчас. Удачный пример уже реализованного подхода — определение с помощью ИИ биологического возраста [36]. Это интегральный показатель, который, показывает реальный износ организма в текущий момент.
Так постепенно искусственный интеллект перестает быть просто экспериментальным инструментом и становится необходимостью. Уже сегодня алгоритмы машинного обучения глубоко интегрированы в передовые исследования психики. Например, методы кластеризации (такие как K-means или автокодировщики) позволяют разделять группы пациентов на биологически обоснованные подтипы, связывая их с конкретными генотипами и анализом МРТ-снимков. В задачах прогноза алгоритмы контролируемого обучения (например, градиентный бустинг или нейросети) уже демонстрируют впечатляющие результаты: модели, обученные на мультимодальных данных, способны предсказывать переход в психоз с точностью до 85,5% и оценивать риск побочных эффектов антидепрессантов с чувствительностью до 88%. Более того, ИИ выходит за пределы лабораторий в реальную жизнь: технологии цифрового фенотипирования анализируют данные со смартфонов и фитнес-трекеров, улавливая ранние признаки рецидива по изменениям в двигательной активности и сне, а большие языковые модели лежат в основе чат-ботов, обеспечивающих круглосуточную поддержку и первичную сортировку пациентов [37].
Однако мы находимся лишь в начале пути. Будущее психиатрии — за масштабируемой мультимодальной интеграцией, где трансформерные архитектуры будут одновременно обрабатывать геном, снимки мозга, электронные медицинские карты и поведенческие данные, создавая целостный «цифровой портрет» болезни. Это позволит перейти к каузальному (причинно-следственному) ИИ, который не просто находит корреляции, а моделирует эффект лечения для конкретного человека, динамически обновляя прогноз по мере поступления новых данных. Безусловно, этот путь сопряжен с вызовами: почти половина современных исследований страдает от утечки данных при обучении, а модели часто плохо работают на новых популяциях. Поэтому важно соблюдать строгие протоколы валидации клинических данных на базе крупных биобанков, например, таких как коллекция биоматериалов «НейроРесурс» Научного Центра Психического Здоровья.
Тем не менее, вектор развития определен. Мы уходим от психиатрии, основанной только на описании симптомов, к точной медицине, опирающейся на понимание биологии. ИИ становится тем самым мостом, который соединяет абстрактную статистику полигенных рисков с живой, динамической реальностью болезни, давая врачам надежный навигатор для выбора терапии, а пациентам — шанс на опережение болезни.
Литература
- Шизофрения и гены: поиск иголки в стоге сена;
- Dinesh C. Soares, Becky C. Carlyle, Nicholas J. Bradshaw, David J. Porteous. (2011). DISC1: Structure, Function, and Therapeutic Potential for Major Mental Illness. ACS Chem. Neurosci. 2, 609-632;
- Спокоен как GABA;
- GROUP Investigators, Elliott Rees, Jun Han, Joanne Morgan, Noa Carrera, et. al. (2020). De novo mutations identified by exome sequencing implicate rare missense variants in SLC6A1 in schizophrenia. Nat Neurosci. 23, 179-184;
- Patrick F. Sullivan, Kenneth S. Kendler, Michael C. Neale. (2003). Schizophrenia as a Complex Trait. Arch Gen Psychiatry. 60, 1187;
- Penny H. Benchek, Nathan J. Morris. (2013). How meaningful are heritability estimates of liability?. Hum Genet. 132, 1351-1360;
- Гены и безумие: генетическое тестирование в психиатрии;
- A. B. Smulevich. (2015). Schizophrenia or a group of endogenous diseases? The past and the present. Z. nevrol. psikhiatr. im. S.S. Korsakova. 115, 4;
- Todd Lencz, Philip R Szeszko, Pamela DeRosse, Katherine E Burdick, Evelyn J Bromet, et. al. (2010). A Schizophrenia Risk Gene, ZNF804A, Influences Neuroanatomical and Neurocognitive Phenotypes. Neuropsychopharmacol. 35, 2284-2291;
- Tuuli Lappalainen, Yang I. Li, Sohini Ramachandran, Alexander Gusev. (2024). Genetic and molecular architecture of complex traits. Cell. 187, 1059-1075;
- Настоящее и будущее генетических тестов;
- Loïc Yengo, Sailaja Vedantam, Eirini Marouli, Julia Sidorenko, Eric Bartell, et. al. (2022). A saturated map of common genetic variants associated with human height. Nature. 610, 704-712;
- GWAS и психогенетика: консорциумы в поисках ассоциаций;
- Vassily Trubetskoy, Antonio F. Pardiñas, Ting Qi, Georgia Panagiotaropoulou, Swapnil Awasthi, et. al. (2022). Mapping genomic loci implicates genes and synaptic biology in schizophrenia. Nature. 604, 502-508;
- Kaylyn Clark, Yuk Yee Leung, Wan-Ping Lee, Benjamin Voight, Li-San Wang. (2022). Polygenic Risk Scores in Alzheimer’s Disease Genetics: Methodology, Applications, Inclusion, and Diversity. Journal of Alzheimer’s Disease. 89, 1-12;
- Madeline L. Page, Elizabeth L. Vance, Matthew E. Cloward, Ed Ringger, Louisa Dayton, et. al. (2022). The Polygenic Risk Score Knowledge Base offers a centralized online repository for calculating and contextualizing polygenic risk scores. Commun Biol. 5;
- Харитонов Д.Э., Коваленко Е.В., Камелин А.В., Шахин Л., Рубинова В.С., Ракитько А.С. (2024). Валидация полигенных шкал риска для 42 биомаркеров крови в российской популяции. Российский национальный конгресс кардиологов;
- Рукавишников Г., Болотова Д., Касьянов Е., Ракитько А., Незнанов Н., Кибитов А., et al. (2025). Анализ ассоциаций полигенных шкал риска сердечно-сосудистых заболеваний, ассоциированных биохимических показателей и депрессии: перспективы использования соматических препаратов при коморбидных состояниях. Современная Терапия Психических Расстройств. 1, 2–9;
- Saskia C. Sanderson, Michael Inouye. (2025). Psychological and behavioural considerations for integrating polygenic risk scores for disease into clinical practice. Nat Hum Behav. 9, 1098-1106;
- A. G. Allegrini, S. Selzam, K. Rimfeld, S. von Stumm, J. B. Pingault, R. Plomin. (2019). Genomic prediction of cognitive traits in childhood and adolescence. Mol Psychiatry. 24, 819-827;
- Veikka Lavonius, Liisa Keltikangas-Järvinen, Leo-Pekka Lyytikäinen, Binisha Hamal Mishra, Elina Sormunen, et. al. (2025). Polygenic risk for schizophrenia predicting Big Five personality traits in individuals without non-affective psychosis. Schizophrenia Research. 281, 229-236;
- Victoria Rodriguez, Luis Alameda, Diego Quattrone, Giada Tripoli, Charlotte Gayer-Anderson, et. al. (2023). Use of multiple polygenic risk scores for distinguishing schizophrenia-spectrum disorder and affective psychosis categories in a first-episode sample; the EU-GEI study. Psychol. Med. 53, 3396-3405;
- Naomi R. Wray, Tian Lin, Jehannine Austin, John J. McGrath, Ian B. Hickie, et. al. (2021). From Basic Science to Clinical Application of Polygenic Risk Scores. JAMA Psychiatry. 78, 101;
- Cathryn M. Lewis, Evangelos Vassos. (2022). Polygenic Scores in Psychiatry: On the Road From Discovery to Implementation. AJP. 179, 800-806;
- Heribert Schunkert, Emanuele Di Angelantonio, Michael Inouye, Riyaz S Patel, Samuli Ripatti, et. al. (2025). Clinical utility and implementation of polygenic risk scores for predicting cardiovascular disease. European Heart Journal. 46, 1372-1383;
- Jan Henric Klau, Carlo Maj, Hannah Klinkhammer, Peter M. Krawitz, Andreas Mayr, et. al. (2023). AI-based multi-PRS models outperform classical single-PRS models. Front. Genet. 14;
- Sara Benoumhani, Saima Jabeen, Mariam M AlEissa. (2024). Machine learning-driven polygenic risk scores for bipolar disorder, depression, and panic disorder. 2576-8484. 8, 1758-1773;
- Matthew Bracher-Smith, Karen Crawford, Valentina Escott-Price. (2021). Machine learning for genetic prediction of psychiatric disorders: a systematic review. Mol Psychiatry. 26, 70-79;
- История развития искусственного интеллекта и его пришествия в биологию;
- Veniamin Fishman, Yuri Kuratov, Aleksei Shmelev, Maxim Petrov, Dmitry Penzar, et. al. (2025). GENA-LM: a family of open-source foundational DNA language models for long sequences. Nucleic Acids Research. 53;
- Žiga Avsec, Natasha Latysheva, Jun Cheng, Guido Novati, Kyle R. Taylor, et. al. AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model — Cold Spring Harbor Laboratory;
- AlphaFold: нейросеть для предсказания структуры белков от британских ученых;
- Несуществующие в природе белки́ — за что вручили Нобелевскую премию по химии (2024);
- От структуры к функции: революция ИИ в белковом дизайне;
- «Омики» — эпоха большой биологии;
- Как и почему искусственный интеллект биологический возраст определял;
- Jie Sun, Tangsheng Lu, Xuexiao Shao, Ying Han, Yu Xia, et. al. (2025). Practical AI application in psychiatry: historical review and future directions. Mol Psychiatry. 30, 4399-4408.