Подписаться
Оглавление
Биомолекула

Лицо генетики: как искусственный интеллект распознает синдромы по фотографиям

Лицо генетики: как искусственный интеллект распознает синдромы по фотографиям

  • 20
  • 0,0
  • 0
  • 0
Добавить в избранное print
Обзор

Актер спектакля кабуки.

нейросеть Sora

Статья на конкурс «Био/Мол/Текст»: Представь: редкие генетические синдромы, которые годами остаются нераспознанными врачами, теперь диагностируются с помощью одного фото. Исследуй роль ИИ в анализе генома, с акцентом на синдроме Кабуки — названном в честь японского театра кабуки из-за поразительного сходства черт лица с драматическим гримом кумадори. Узнай, как нейросеть DeepGestalt, обученная на тысячах снимков, с точностью 91% распознает мутации в генах KMT2D или KDM6A, помогая установить диагноз на основе симптомов. Открой синергию биологии, математики, программирования и медицины в инструментах вроде Face2Gene, которые ускоряют поиск, облегчают жизнь пациентам и ведут к эре персонализированной медицины. А впереди? ИИ, прогнозирующий болезни, оценивающий риски и подбирающий терапию под каждого — это уже реальность!

Конкурс «Био/Мол/Текст»-2025/2026

Эта работа опубликована в спецноминации «Искусственный интеллект в биологии» конкурса «Био/Мол/Текст»-2025/2026.

BIOCAD

Генеральный партнер конкурса — международная инновационная биотехнологическая компания BIOCAD.


Центральный университет

Партнер номинации — компания Центральный университет в лице совместной с институтом AIRI Лаборатории ИИ, анализа данных и моделирования.


«Альпина нон-фикшн»

«Книжный» спонсор конкурса — «Альпина нон-фикшн»

От педиатра к генетику и долгий путь к разгадке редких заболеваний

При обсуждении редких генетических синдромов неизменно возникает один типичный сценарий. Сначала педиатр, потом невролог, потом еще десяток врачей, и каждый раз звучит новая версия.

Редкие генетические заболевания остаются одной из самых сложных областей современной медицины. Орфанные (редкие) заболевания затрагивают менее 1 человека на 2 000 населения в ЕС или 10:100 000 в РФ [1]. Для многих пациентов путь к диагнозу растягивается на годы. Симптомы могут быть размытыми. Анализы в пределах нормы. Внешние проявления не укладываются в привычные клинические категории из учебников. Причина такой неопределенности в том, что каждая редкая болезнь — это отклонение в одной из миллионов возможных точек генома. Чтобы найти значимую мутацию вручную, врачу и генетику приходится анализировать огромный объем данных. Из ~7 000 известных орфанных болезней 80% имеют генетическую природу, а 70% дебютируют в детстве [1], [2]. Ключевые барьеры в их диагностике: доступность исследований — в большинстве регионов лишь единичные генетические центры способны проводить дифференциальную диагностику; высокая стоимость — полное секвенирование экзома стоит 500–1 500 €, панели генов — 300–800 €; среднее время до диагноза 5–7 лет, до 8 специалистов, 2–3 ошибочных диагноза [3]. Последствия также удручающие. Хронизация симптомов, неадекватная терапия, высокий риск осложнений (например, внезапная сердечная смерть при недиагностированных кардиопатиях). Семьи сталкиваются с эмоциональным выгоранием, финансовым истощением и социальной изоляцией.

Главная проблема в диагностике редких генетических заболеваний — не размер генома как таковой, а неопределенность цели поиска. Среди тысяч известных синдромов лишь малая часть моногенна (с четкой причиной в одном гене), и для них часто достаточно прицельного теста: ПЦР на мутацию, биохимический маркер или даже клиническая картина. Куда сложнее орфанные синдромы с вариабельным фенотипом, где симптомы размыты, а причинный ген неизвестен заранее. Здесь нельзя просто «взять и проверить все» — секвенирование экзома или генома стоит дорого (500–1500 €), требует обоснования для страховки и дает миллионы вариантов, из которых лишь единицы патогенны. Вручную (то есть без автоматизации) генетик тратит недели на фильтрацию: сопоставляет клинические признаки с базами вроде ClinVar, ранжирует варианты по частоте в gnomAD, проверяет литературу. Это и есть «массивы данных» — не сырые нуклеотиды, а анализируемые VCF-файлы с аннотациями.

ИИ вступает на этапе гипотезы, когда есть подозрение (отставание в развитии, дисморфии, пороки сердца), но нет ясного направления. Традиционные методы — биохимия, кариотип, панели генов — уже пройдены и ничего не дали. Секвенировать геном «на всякий случай» — нецелесообразно.

Чтобы показать, как ИИ может менять диагностику генетических заболеваний на практике, разберем один из наиболее показательных кейсов последних лет.

Что такое синдром Кабуки?

Это редкое наследственное заболевание, вызванное патогенными вариантами в генах KMT2D (70–80% случаев) или KDM6A (5–10%), кодирующих ключевые эпигенетические регуляторы хроматина. Ген KMT2D (ранее MLL2) кодирует гистон-метилтрансферазу, которая в составе комплекса COMPASS добавляет триметильные группы к лизину 4 гистона H3 (H3K4me3) — активаторную метку, открывающую хроматин и запускающую транскрипцию. Эта модификация особенно важна в энхансерах — регуляторных участках, управляющих экспрессией генов развития.

Звучит сложно, потому что так это и есть. «Биомолекула» помогала разбираться в этой картине в спецпроекте «Эпигенетика», почитайте например статью «Молекулы‌ ‌и‌ ‌эпигеном‌» [4].

Ген KDM6A (UTX) кодирует деметилазу H3K27, удаляющую репрессивные метки H3K27me3, тем самым снимая блокировку транскрипции. Оба белка работают в тандеме: KMT2D «включает», KDM6A «разблокирует». Мутации (обычно потеря функции) нарушают эпигенетический баланс на тысячах локусов, особенно в нейрональных, кардиальных и иммунных линиях. Это приводит к дисрегуляции нейрогенеза и как следствие задержке развития и гипотонии; аномалиям краниофациального морфогенеза — длинные глазные щели, вывернутые веки, широкая переносица (из-за сбоя в сигнальных путях HOX и FGF); дефектам кардиогенеза — коарктация аорты, ДМЖП; иммунодефицит — рецидивирующие инфекции, аутоиммунные реакции (нарушение дифференцировки В- и Т-клеток).

Ключевая особенность — плеотропия и вариабельность: один и тот же вариант KMT2D может давать от легких дисморфий до тяжелого фенотипа.

Синдром получил название благодаря открытию японских ученых. Само по себе кабуки — классическая форма японского театра, которая сочетает драматическое представление, традиционные танцы, музыку, пантомиму и эффектные костюмы с гримом. Спектакли известны своей стилизованной манерой, яркими костюмами и особым гримом под названием «кумадори», который подчеркивает эмоции персонажей через преувеличенные линии на лице — красные для героев, синие для злодеев (рисунок 1).

«Кумадори» — это кабуки-макияж, который показывает зрителям моральные качества и характер персонажа

Рисунок 1. «Кумадори» — это кабуки-макияж, который показывает зрителям моральные качества и характер персонажа. Цвета и формы линий несут символическое значение: красный обозначает силу, доблесть и героизм; черный — решительность и свирепость; синий — злодейство, злобу или холодность; белый фон символизирует чистоту, благородство или сверхъестественную сущность. Маски с красными завитками изображают благородных воинов и защитников справедливости, с черно-белыми контрастами — демонов или духов тьмы, а с синими волнообразными узорами — коварных злодеев или мистических существ.

Sacura.co

Синдром получил название Kabuki-makeup syndrome в 1981 году, когда японские генетики Ниикава и Курода описали его, заметив, что черты лица пациентов напоминают грим актеров в театре кабуки — особенно преувеличенные брови, глаза и форму лица, похожие на кумадори. Позже makeup убрали, оставив просто Kabuki syndrome, чтобы избежать негативных коннотаций (рис. 2).

Изображение сцены из японской драмы кабуки и фотография мальчика с синдромом Кабуки

Рисунок 2. Изображение сцены из японской драмы кабуки и фотография мальчика с синдромом Кабуки. Стрелками указаны длинные глазные щели. Склеры (белки) глаз мальчика слегка голубоватые.

Обычно у детей с синдромом Кабуки встречаются мягкие, едва заметные черты лица: миндалевидный разрез глаз, высоко поднятые брови, широкая переносица или низко посаженные уши. Клиническая картина также не специфична. Со стороны нервной системы и уровня развития возможны задержка моторного (ходьба >18 мес.) и речевого развития (80%), интеллектуальная недостаточность легкой/средней степени (85%), гипотония (70%). Кардиологические проявления встречаются часто. У 40–50% пациентов отмечают врожденные пороки сердца, среди которых наиболее типичны коарктация аорты и различные дефекты межжелудочковой или межпредсердной перегородок. Синдром Кабуки может проявляться иммунодефицитом: рецидивирующие отиты, синуситы, аутоиммунные нарушения (гипогаммаглобулинемия, ИТП (идиопатическая тромбоцитопеническая пурпура)) в 50–60%. Другие органы и системы также могут давать о себе знать. Часты скелетные аномалии, такие как сколиоз или дисплазия тазобедренных суставов. У части детей наблюдается преждевременное половое созревание. Проблемы со слухом встречаются примерно у 60%. Рост обычно в норме или слегка снижен. Прогноз: продолжительность жизни близка к популяционной при своевременной коррекции пороков, главные риски же определяются инфекциями и осложнениями со стороны сердца. Но эти признаки настолько вариативны, что неопытный врач легко может принять их за особенности развития, а не за генетическую патологию.

Синдром Кабуки под прицелом ИИ

Несколько лет назад исследователи из компании FDNA представили алгоритм DeepGestalt — нейросеть, созданную для распознавания редких генетических синдромов по фотографиям лиц. Ее обучили на десятках тысяч изображений людей с подтвержденными диагнозами [5].

В 2019 году в журнале Nature Medicine вышла статья, где DeepGestalt протестировали на 216 генетических синдромах. Результат оказался впечатляющим: точность составила 91% [6] (рис. 3). Особенно хорошо алгоритм справился именно с распознаванием синдрома Кабуки.

DeepGestalt: высокоуровневый поток и архитектура сети

Рисунок 3. DeepGestalt: высокоуровневый поток и архитектура сети. а: Новое входное изображение сначала предварительно обрабатывается для обнаружения лица, выявления ключевых точек и выравнивания. Гистограмма с правой стороны отображает синдромы, выявленные DeepGestalt, отсортированные по сумме коэффициентов сходства. б: Архитектура сверточной нейросети в DeepGestalt и трансформации изображения, проходящего через сеть.

[6]

Особенно ярко модель проявила себя при диагностике синдрома Кабуки. В одном из клинических случаев родители несколько лет не могли получить ответ, почему ребенок отстает в развитии и имеет неочевидные дисморфические признаки. Все анализы были нормальными, а визуальные особенности не давали ясной картины [7], [8]. Фотографию пациента загрузили в систему, и алгоритм указал на синдром Кабуки как наиболее вероятный диагноз. Врачи провели секвенирование и подтвердили мутацию KMT2D.

Но на этом развитие технологий не остановилось. Уже в следующем поколении алгоритмы научились сопоставлять внешний вид пациента с его фенотипическими особенностями и генетическими данными. В исследованиях показано, что нейросеть способна различать даже разные подтипы синдрома Кабуки, связанные с различными вариантами мутаций [6]. Это уже не просто «подсказка», а направление для прицельного поиска.

Подобные примеры важны не только как демонстрация возможностей ИИ. Они показывают, насколько ценными становятся алгоритмы, умеющие анализировать огромные массивы данных. DeepGestalt не «узнает» лица — он находит статистические закономерности в мельчайших деталях, которые человеческий глаз может пропустить. Врач по-прежнему принимает решение, но теперь у него появляется инструмент, который позволяет заметить то, что ранее оставалось невидимым.

На первый взгляд DeepGestalt — обычная сверточная нейросеть, как те, что распознают котиков в социальных сетях. Но DeepGestalt — это все же специализированный инструмент на базе ResNet-подобной архитектуры, обученный на курированном датасете из более чем 17 000 фотографий пациентов с 216 подтвержденными генетическими синдромами. Каждое изображение — стандартизированный фронтальный портрет с выровненным лицом, хорошим освещением и учтенным возрастом. Без такой предобработки сеть будет видеть шум, а не сигнал.

Сначала слои-свертки извлекают базовые признаки — края, текстуры, симметрию, затем глубокие слои формируют сложные паттерны вроде формы глазной щели, высоты бровей или ширины переносицы. Ключевая особенность нейросети — встроенный механизм внимания, который выделяет «горячие зоны» на тепловых картах, как на рисунке 4, где при синдроме Кабуки акцент падает на внешние углы глаз, брови и нос — именно те черты, что напоминают кумадори. Это не магия, а градиентный анализ значимости, при котором модель учится, какие пиксели больше всего влияют на итоговый вектор сходства. Обучение идет как многоклассовая классификация с метками синдромов, но с хитростью — используется триплетная потеря: сеть получает три фото (якорное с синдромом X, положительное (positive) с тем же синдромом и отрицательное (negative) с другим). Задача DeepGestalt сделать расстояние между positive меньше, чем между negative: так формируется эмбеддинг-пространство , где лица с синдромом Кабуки сближаются, а с Корнелией де Ланге — отталкиваются. Техническая красота в универсальности: одна архитектура учится на чем угодно, главное — данные, а в редких синдромах их мало, поэтому FDNA применяет федеративное обучение и аугментацию — повороты, затемнения, морфинг лиц, превращая 50 фото Кабуки в 5000 вариаций, чтобы сеть видела суть, а не артефакты [5].

многомерное математическое пространство, в котором каждому объекту соответствует вектор фиксированной длины. «Базу» мы давали в спецпроекте «Искусственный интеллект в биологии»: «История развития искусственного интеллекта и его пришествия в биологию» [9] и «Как языковые модели покорили мир белков» [10].

Такая же архитектура работает в дерматологии, где CNN распознают меланому по дерматоскопии с точностью выше 90 %. В радиологии, где системы вроде CheXNet или русский аналог Botkin.AI находят патологии на рентгентгенограммах и КТ-снимках грудной клетки. В офтальмологии ИИ диагностирует диабетическую ретинопатию по снимкам сетчатки, а вне медицины — в системах распознавания лиц в аэропортах, в тегировании эмоций в соцсетях.

Как ИИ анализирует биологию и почему без математики тут никуда

Эффективность подобных систем возможна благодаря объединению нескольких областей в единую вычислительную модель:

  • Биология задает контекст. Мутации в KMT2D и KDM6A влияют на эпигенетические механизмы и процессы раннего развития, что отражается на фенотипе. Эти сведения позволяют правильно интерпретировать выводы модели и уточнять клинические предположения.

  • Математика определяет структуру алгоритма. Глубокие нейросети анализируют изображение как набор чисел, извлекают признаки, оценивают вероятность принадлежности к определенному синдрому и сопоставляют результаты с обучающей выборкой.

  • Программирование превращает теорию в практический инструмент. Специалисты создают архитектуры моделей, обрабатывают большие датасеты, повышают стабильность обучения и контролируют качество данных.

  • Медицина обеспечивает конечную интерпретацию. Врач оценивает клиническую картину, сопоставляет ее с подсказкой алгоритма, назначает генетические тесты и формирует окончательный диагноз. Уже собранные крупные геномные базы данных, такие как gnomAD, дополняют алгоритмический анализ, поскольку позволяют быстро оценить частоту вариантов и определить, какие мутации имеют клиническое значение [11].

Когда эти части соединяются, мы получаем инструмент, который ускоряет диагностику, делает ее точнее и снижает вероятность пропустить редкий синдром.

Революция в клинике: Как ИИ упрощает жизнь врачам и пациентам

Использование таких алгоритмов уже заметно изменило реальную практику.

Врачам проще ориентироваться в редких синдромах. Алгоритм подсказывает, какие гены стоит проверить в первую очередь и помогает фокусировать диагностику. На данный момент алгоритмы DeepGestalt и GestaltMatcher широко используется клиницистами, в том числе в Российской Федерации, для анализа фотографий пациентов. На их основе создан программный пакет Face2Gene в виде сайта и приложения (рис. 4А, Б).

Анализ фотографий пациентов в программе Face2Gene

Рисунок 4А. Анализ фотографий пациентов в программе Face2Gene. Исходные лица показаны в выровненном виде с композитным изображением, созданным программным обеспечением Face2Gene для синдрома Кабуки. Также показана шкала сходства, отражающая балл совпадения с синдромом. На рисунке 4Б в крутилке — вид мобильного приложения, помогающего поставить диагноз синдрома Кабуки.

[7]

Наглядное применение программы Face2Gene

Рисунок 4Б. Наглядное применение программы Face2Gene на телефоне.

Пациентам не нужно проходить десятки специалистов. Нейросеть снижает число лишних анализов, сокращает путь к диагнозу и уменьшает эмоциональное и финансовое давление на семью. Клиникам становится проще работать с большими массивами генетических данных. Системы машинного обучения автоматически ранжируют варианты в геноме и выделяют те, которые имеют клиническое значение. Исследования показывают, насколько масштабны эти данные и почему без автоматизации их невозможно анализировать вручную [12]. Что особенно важно для редких синдромов, время критично. Чем раньше поставлен диагноз, тем быстрее ребенок получает правильную терапию, коррекцию развития и поддержку.

Место ИИ в диагностическом алгоритме: от фото к геному

Так как же происходит непосредственное применение ИИ на практике?

Представьте пациента в кабинете педиатра: ребенок отстает в развитии, у него необычные черты лица, но ничего критичного. Врач не спешит сразу назначать дорогое секвенирование экзома — это как стрелять из пушки по воробьям. Вместо этого начинается ступенчатая диагностика, где каждый шаг оправдан клинической пользой, стоимостью и вероятностью найти ответ.

Первый уровень — клиническая оценка и рутинные тесты. Педиатр или генетик осматривает ребенка, собирает анамнез, назначает УЗИ сердца, анализ крови, аудиологический скрининг. Если симптомы неспецифичны, а тесты в норме — диагноз не ставится. Здесь ИИ еще не нужен: это территория человеческого опыта и базовых методов.

Второй уровень — фенотипический скрининг с ИИ. Если врач подозревает генетический синдром, но не уверен в диагнозе, он загружает фото в Face2Gene. За секунды алгоритм выдает топ-10 вероятных синдромов с процентом сходства. Это не «гадание по фото», а визуальный триаж: инструмент отсеивает 90% неверных направлений и подсказывает, какие гены проверить в первую очередь. Целесообразность: стоимость — ноль (приложение бесплатно для клиницистов), время — минуты, польза — сужение поиска с тысяч генов до десятка.

Третий уровень — прицельное генетическое тестирование. Подсказки ИИ подтверждаются клинически. Назначается панель генов (например, на KMT2D/KDM6A при подозрении на Кабуки) или секвенирование экзома. Это уже недешевые, но оправданные методы исследований: ПЦР, NGS, секвенирование по Сэнгеру. Без ИИ панель могла бы быть шире и дороже, или врач вообще не дошел бы до генетики.

Таким образом, ИИ не заменяет секвенирование, а направляет его. Как рентген перед КТ: дешевый, быстрый, безопасный — и решает, нужен ли следующий, более инвазивный шаг. В эпоху, когда геном каждого ребенка можно прочитать за день, главная проблема — не данные, а интерпретация.

Что дальше?

Персонализированная медицина — это уже рабочая парадигма, где ИИ интегрирует мультиомиксные данные (геном, транскриптом, протеом, метаболом) с клиническими признаками и изображениями для стратификации пациентов и выбора терапии [13]. Модели вроде AlphaFold предсказывают структуру белков по мутациям KMT2D, выявляя патогенные домены, а графовые нейросети связывают фенотип из OMIM с геномными вариантами из gnomAD и эпигенетическими сигнатурами из Roadmap Epigenomics. В клинической практике мультимодальные ИИ-системы решают задачи прогнозирования ответа на иммунотерапию при онкологии по данным TCGA и гистологии, раннего выявления сепсиса по ЭКГ и лабораторным маркерам из MIMIC-III, приоритизации вариантов в экзоме с учетом фенотипа через DeepVariant и GestaltMatcher.

В России это тоже уже не теория, а практика: отечественные платформы СберМедИИ «ТОП-3» и AIDA валидированы на ретроспективных когортах и внедрены в некоторых субъектах РФ, ускоряя дифференциальную диагностику на 40%. Botkin.AI и CareMentor анализируют рентген и КТ с AUC 0.92–0.96 для пневмонии, туберкулеза, онкопатологии. Глобально и ВОЗ поддерживает этот тренд через этические рамки ИИ, прогнозируя сокращение расходов на здравоохранение на 10–15% к 2030 г. Будущее строится на каскадных моделях: от фенотипического скрининга через Face2Gene к прицельному секвенированию. ИИ не заменяет врача, а формализует неявное знание, превращая его в куратора данных, где каждая мутация — не случайность, а точка входа в персонализированный протокол.

Литература

  1. Редко, но метко: орфанные заболевания как вызов современной медицине;
  2. Stéphanie Nguengang Wakap, Deborah M. Lambert, Annie Olry, Charlotte Rodwell, Charlotte Gueydan, et. al. (2020). Estimating cumulative point prevalence of rare diseases: analysis of the Orphanet database. Eur J Hum Genet. 28, 165-173;
  3. The Lancet. (2009). Listening to patients with rare diseases. The Lancet. 373, 868;
  4. Молекулы‌ ‌и‌ ‌эпигеном‌ ‌;
  5. Yaron Gurovich, Yair Hanani, Omri Bar, Nicole Fleischer, Dekel Gelbman, et al. (2018). DeepGestalt - Identifying Rare Genetic Syndromes Using Deep Learning. arXiv;
  6. Yaron Gurovich, Yair Hanani, Omri Bar, Guy Nadav, Nicole Fleischer, et. al. (2019). Identifying facial phenotypes of genetic disorders using deep learning. Nat Med. 25, 60-64;
  7. Ashish Marwaha, Gregory Costain, Cheryl Cytrynbaum, Roberto Mendoza‐Londono, Lauren Chad, et. al. (2022). The utility of DNA methylation signatures in directing genome sequencing workflow: Kabuki syndrome and CDK13‐related disorder. American J of Med Genetics Pt A. 188, 1368-1375;
  8. Christina Theodore‐Oklota, Shayna Egan, Maggie Paulich, Christopher J. Evans, Deborah S. Hartman, et. al. (2020). Caregiver‐reported clinical characteristics and the burden associated with Kabuki syndrome. American J of Med Genetics Pt A. 182, 1592-1600;
  9. История развития искусственного интеллекта и его пришествия в биологию;
  10. Как языковые модели покорили мир белков;
  11. Konrad J. Karczewski, Laurent C. Francioli, Grace Tiao, Beryl B. Cummings, Jessica Alföldi, et. al. (2020). The mutational constraint spectrum quantified from variation in 141,456 humans. Nature. 581, 434-443;
  12. Siwei Chen, Laurent C. Francioli, Julia K. Goodrich, Ryan L. Collins, Masahiro Kanai, et. al. (2024). A genomic mutational constraint map using variation in 76,156 human genomes. Nature. 625, 92-100;
  13. От медицины для всех — к медицине для каждого!.

Комментарии