Лицо генетики: как искусственный интеллект распознает синдромы по фотографиям
16 декабря 2025
Лицо генетики: как искусственный интеллект распознает синдромы по фотографиям
- 20
- 0
- 0
Актер спектакля кабуки.
нейросеть Sora
Статья на конкурс «Био/Мол/Текст»: Представь: редкие генетические синдромы, которые годами остаются нераспознанными врачами, теперь диагностируются с помощью одного фото. Исследуй роль ИИ в анализе генома, с акцентом на синдроме Кабуки — названном в честь японского театра кабуки из-за поразительного сходства черт лица с драматическим гримом кумадори. Узнай, как нейросеть DeepGestalt, обученная на тысячах снимков, с точностью 91% распознает мутации в генах KMT2D или KDM6A, помогая установить диагноз на основе симптомов. Открой синергию биологии, математики, программирования и медицины в инструментах вроде Face2Gene, которые ускоряют поиск, облегчают жизнь пациентам и ведут к эре персонализированной медицины. А впереди? ИИ, прогнозирующий болезни, оценивающий риски и подбирающий терапию под каждого — это уже реальность!
Конкурс «Био/Мол/Текст»-2025/2026
Эта работа опубликована в спецноминации «Искусственный интеллект в биологии» конкурса «Био/Мол/Текст»-2025/2026.
Генеральный партнер конкурса — международная инновационная биотехнологическая компания BIOCAD.
Партнер номинации — компания Центральный университет в лице совместной с институтом AIRI Лаборатории ИИ, анализа данных и моделирования.
«Книжный» спонсор конкурса — «Альпина нон-фикшн»
От педиатра к генетику и долгий путь к разгадке редких заболеваний
При обсуждении редких генетических синдромов неизменно возникает один типичный сценарий. Сначала педиатр, потом невролог, потом еще десяток врачей, и каждый раз звучит новая версия.
Редкие генетические заболевания остаются одной из самых сложных областей современной медицины. Орфанные (редкие) заболевания затрагивают менее 1 человека на 2 000 населения в ЕС или 10:100 000 в РФ [1]. Для многих пациентов путь к диагнозу растягивается на годы. Симптомы могут быть размытыми. Анализы в пределах нормы. Внешние проявления не укладываются в привычные клинические категории из учебников. Причина такой неопределенности в том, что каждая редкая болезнь — это отклонение в одной из миллионов возможных точек генома. Чтобы найти значимую мутацию вручную, врачу и генетику приходится анализировать огромный объем данных. Из ~7 000 известных орфанных болезней 80% имеют генетическую природу, а 70% дебютируют в детстве [1], [2]. Ключевые барьеры в их диагностике: доступность исследований — в большинстве регионов лишь единичные генетические центры способны проводить дифференциальную диагностику; высокая стоимость — полное секвенирование экзома стоит 500–1 500 €, панели генов — 300–800 €; среднее время до диагноза 5–7 лет, до 8 специалистов, 2–3 ошибочных диагноза [3]. Последствия также удручающие. Хронизация симптомов, неадекватная терапия, высокий риск осложнений (например, внезапная сердечная смерть при недиагностированных кардиопатиях). Семьи сталкиваются с эмоциональным выгоранием, финансовым истощением и социальной изоляцией.
Главная проблема в диагностике редких генетических заболеваний — не размер генома как таковой, а неопределенность цели поиска. Среди тысяч известных синдромов лишь малая часть моногенна (с четкой причиной в одном гене), и для них часто достаточно прицельного теста: ПЦР на мутацию, биохимический маркер или даже клиническая картина. Куда сложнее орфанные синдромы с вариабельным фенотипом, где симптомы размыты, а причинный ген неизвестен заранее. Здесь нельзя просто «взять и проверить все» — секвенирование экзома или генома стоит дорого (500–1500 €), требует обоснования для страховки и дает миллионы вариантов, из которых лишь единицы патогенны. Вручную (то есть без автоматизации) генетик тратит недели на фильтрацию: сопоставляет клинические признаки с базами вроде ClinVar, ранжирует варианты по частоте в gnomAD, проверяет литературу. Это и есть «массивы данных» — не сырые нуклеотиды, а анализируемые VCF-файлы с аннотациями.
ИИ вступает на этапе гипотезы, когда есть подозрение (отставание в развитии, дисморфии, пороки сердца), но нет ясного направления. Традиционные методы — биохимия, кариотип, панели генов — уже пройдены и ничего не дали. Секвенировать геном «на всякий случай» — нецелесообразно.
Чтобы показать, как ИИ может менять диагностику генетических заболеваний на практике, разберем один из наиболее показательных кейсов последних лет.
Что такое синдром Кабуки?
Это редкое наследственное заболевание, вызванное патогенными вариантами в генах KMT2D (70–80% случаев) или KDM6A (5–10%), кодирующих ключевые эпигенетические регуляторы хроматина. Ген KMT2D (ранее MLL2) кодирует гистон-метилтрансферазу, которая в составе комплекса COMPASS добавляет триметильные группы к лизину 4 гистона H3 (H3K4me3) — активаторную метку, открывающую хроматин и запускающую транскрипцию. Эта модификация особенно важна в энхансерах — регуляторных участках, управляющих экспрессией генов развития.
Звучит сложно, потому что так это и есть. «Биомолекула» помогала разбираться в этой картине в спецпроекте «Эпигенетика», почитайте например статью «Молекулы и эпигеном» [4].
Ген KDM6A (UTX) кодирует деметилазу H3K27, удаляющую репрессивные метки H3K27me3, тем самым снимая блокировку транскрипции. Оба белка работают в тандеме: KMT2D «включает», KDM6A «разблокирует». Мутации (обычно потеря функции) нарушают эпигенетический баланс на тысячах локусов, особенно в нейрональных, кардиальных и иммунных линиях. Это приводит к дисрегуляции нейрогенеза и как следствие задержке развития и гипотонии; аномалиям краниофациального морфогенеза — длинные глазные щели, вывернутые веки, широкая переносица (из-за сбоя в сигнальных путях HOX и FGF); дефектам кардиогенеза — коарктация аорты, ДМЖП; иммунодефицит — рецидивирующие инфекции, аутоиммунные реакции (нарушение дифференцировки В- и Т-клеток).
Ключевая особенность — плеотропия и вариабельность: один и тот же вариант KMT2D может давать от легких дисморфий до тяжелого фенотипа.
Синдром получил название благодаря открытию японских ученых. Само по себе кабуки — классическая форма японского театра, которая сочетает драматическое представление, традиционные танцы, музыку, пантомиму и эффектные костюмы с гримом. Спектакли известны своей стилизованной манерой, яркими костюмами и особым гримом под названием «кумадори», который подчеркивает эмоции персонажей через преувеличенные линии на лице — красные для героев, синие для злодеев (рисунок 1).
Рисунок 1. «Кумадори» — это кабуки-макияж, который показывает зрителям моральные качества и характер персонажа. Цвета и формы линий несут символическое значение: красный обозначает силу, доблесть и героизм; черный — решительность и свирепость; синий — злодейство, злобу или холодность; белый фон символизирует чистоту, благородство или сверхъестественную сущность. Маски с красными завитками изображают благородных воинов и защитников справедливости, с черно-белыми контрастами — демонов или духов тьмы, а с синими волнообразными узорами — коварных злодеев или мистических существ.
Sacura.co
Синдром получил название Kabuki-makeup syndrome в 1981 году, когда японские генетики Ниикава и Курода описали его, заметив, что черты лица пациентов напоминают грим актеров в театре кабуки — особенно преувеличенные брови, глаза и форму лица, похожие на кумадори. Позже makeup убрали, оставив просто Kabuki syndrome, чтобы избежать негативных коннотаций (рис. 2).
Рисунок 2. Изображение сцены из японской драмы кабуки и фотография мальчика с синдромом Кабуки. Стрелками указаны длинные глазные щели. Склеры (белки) глаз мальчика слегка голубоватые.
Обычно у детей с синдромом Кабуки встречаются мягкие, едва заметные черты лица: миндалевидный разрез глаз, высоко поднятые брови, широкая переносица или низко посаженные уши. Клиническая картина также не специфична. Со стороны нервной системы и уровня развития возможны задержка моторного (ходьба >18 мес.) и речевого развития (80%), интеллектуальная недостаточность легкой/средней степени (85%), гипотония (70%). Кардиологические проявления встречаются часто. У 40–50% пациентов отмечают врожденные пороки сердца, среди которых наиболее типичны коарктация аорты и различные дефекты межжелудочковой или межпредсердной перегородок. Синдром Кабуки может проявляться иммунодефицитом: рецидивирующие отиты, синуситы, аутоиммунные нарушения (гипогаммаглобулинемия, ИТП (идиопатическая тромбоцитопеническая пурпура)) в 50–60%. Другие органы и системы также могут давать о себе знать. Часты скелетные аномалии, такие как сколиоз или дисплазия тазобедренных суставов. У части детей наблюдается преждевременное половое созревание. Проблемы со слухом встречаются примерно у 60%. Рост обычно в норме или слегка снижен. Прогноз: продолжительность жизни близка к популяционной при своевременной коррекции пороков, главные риски же определяются инфекциями и осложнениями со стороны сердца. Но эти признаки настолько вариативны, что неопытный врач легко может принять их за особенности развития, а не за генетическую патологию.
Синдром Кабуки под прицелом ИИ
Несколько лет назад исследователи из компании FDNA представили алгоритм DeepGestalt — нейросеть, созданную для распознавания редких генетических синдромов по фотографиям лиц. Ее обучили на десятках тысяч изображений людей с подтвержденными диагнозами [5].
В 2019 году в журнале Nature Medicine вышла статья, где DeepGestalt протестировали на 216 генетических синдромах. Результат оказался впечатляющим: точность составила 91% [6] (рис. 3). Особенно хорошо алгоритм справился именно с распознаванием синдрома Кабуки.
Рисунок 3. DeepGestalt: высокоуровневый поток и архитектура сети. а: Новое входное изображение сначала предварительно обрабатывается для обнаружения лица, выявления ключевых точек и выравнивания. Гистограмма с правой стороны отображает синдромы, выявленные DeepGestalt, отсортированные по сумме коэффициентов сходства. б: Архитектура сверточной нейросети в DeepGestalt и трансформации изображения, проходящего через сеть.
Особенно ярко модель проявила себя при диагностике синдрома Кабуки. В одном из клинических случаев родители несколько лет не могли получить ответ, почему ребенок отстает в развитии и имеет неочевидные дисморфические признаки. Все анализы были нормальными, а визуальные особенности не давали ясной картины [7], [8]. Фотографию пациента загрузили в систему, и алгоритм указал на синдром Кабуки как наиболее вероятный диагноз. Врачи провели секвенирование и подтвердили мутацию KMT2D.
Но на этом развитие технологий не остановилось. Уже в следующем поколении алгоритмы научились сопоставлять внешний вид пациента с его фенотипическими особенностями и генетическими данными. В исследованиях показано, что нейросеть способна различать даже разные подтипы синдрома Кабуки, связанные с различными вариантами мутаций [6]. Это уже не просто «подсказка», а направление для прицельного поиска.
Подобные примеры важны не только как демонстрация возможностей ИИ. Они показывают, насколько ценными становятся алгоритмы, умеющие анализировать огромные массивы данных. DeepGestalt не «узнает» лица — он находит статистические закономерности в мельчайших деталях, которые человеческий глаз может пропустить. Врач по-прежнему принимает решение, но теперь у него появляется инструмент, который позволяет заметить то, что ранее оставалось невидимым.
На первый взгляд DeepGestalt — обычная сверточная нейросеть, как те, что распознают котиков в социальных сетях. Но DeepGestalt — это все же специализированный инструмент на базе ResNet-подобной архитектуры, обученный на курированном датасете из более чем 17 000 фотографий пациентов с 216 подтвержденными генетическими синдромами. Каждое изображение — стандартизированный фронтальный портрет с выровненным лицом, хорошим освещением и учтенным возрастом. Без такой предобработки сеть будет видеть шум, а не сигнал.
Сначала слои-свертки извлекают базовые признаки — края, текстуры, симметрию, затем глубокие слои формируют сложные паттерны вроде формы глазной щели, высоты бровей или ширины переносицы. Ключевая особенность нейросети — встроенный механизм внимания, который выделяет «горячие зоны» на тепловых картах, как на рисунке 4, где при синдроме Кабуки акцент падает на внешние углы глаз, брови и нос — именно те черты, что напоминают кумадори. Это не магия, а градиентный анализ значимости, при котором модель учится, какие пиксели больше всего влияют на итоговый вектор сходства. Обучение идет как многоклассовая классификация с метками синдромов, но с хитростью — используется триплетная потеря: сеть получает три фото (якорное с синдромом X, положительное (positive) с тем же синдромом и отрицательное (negative) с другим). Задача DeepGestalt сделать расстояние между positive меньше, чем между negative: так формируется эмбеддинг-пространство , где лица с синдромом Кабуки сближаются, а с Корнелией де Ланге — отталкиваются. Техническая красота в универсальности: одна архитектура учится на чем угодно, главное — данные, а в редких синдромах их мало, поэтому FDNA применяет федеративное обучение и аугментацию — повороты, затемнения, морфинг лиц, превращая 50 фото Кабуки в 5000 вариаций, чтобы сеть видела суть, а не артефакты [5].
многомерное математическое пространство, в котором каждому объекту соответствует вектор фиксированной длины. «Базу» мы давали в спецпроекте «Искусственный интеллект в биологии»: «История развития искусственного интеллекта и его пришествия в биологию» [9] и «Как языковые модели покорили мир белков» [10].
Такая же архитектура работает в дерматологии, где CNN распознают меланому по дерматоскопии с точностью выше 90 %. В радиологии, где системы вроде CheXNet или русский аналог Botkin.AI находят патологии на рентгентгенограммах и КТ-снимках грудной клетки. В офтальмологии ИИ диагностирует диабетическую ретинопатию по снимкам сетчатки, а вне медицины — в системах распознавания лиц в аэропортах, в тегировании эмоций в соцсетях.
Как ИИ анализирует биологию и почему без математики тут никуда
Эффективность подобных систем возможна благодаря объединению нескольких областей в единую вычислительную модель:
-
Биология задает контекст. Мутации в KMT2D и KDM6A влияют на эпигенетические механизмы и процессы раннего развития, что отражается на фенотипе. Эти сведения позволяют правильно интерпретировать выводы модели и уточнять клинические предположения.
-
Математика определяет структуру алгоритма. Глубокие нейросети анализируют изображение как набор чисел, извлекают признаки, оценивают вероятность принадлежности к определенному синдрому и сопоставляют результаты с обучающей выборкой.
-
Программирование превращает теорию в практический инструмент. Специалисты создают архитектуры моделей, обрабатывают большие датасеты, повышают стабильность обучения и контролируют качество данных.
-
Медицина обеспечивает конечную интерпретацию. Врач оценивает клиническую картину, сопоставляет ее с подсказкой алгоритма, назначает генетические тесты и формирует окончательный диагноз. Уже собранные крупные геномные базы данных, такие как gnomAD, дополняют алгоритмический анализ, поскольку позволяют быстро оценить частоту вариантов и определить, какие мутации имеют клиническое значение [11].
Когда эти части соединяются, мы получаем инструмент, который ускоряет диагностику, делает ее точнее и снижает вероятность пропустить редкий синдром.
Революция в клинике: Как ИИ упрощает жизнь врачам и пациентам
Использование таких алгоритмов уже заметно изменило реальную практику.
Врачам проще ориентироваться в редких синдромах. Алгоритм подсказывает, какие гены стоит проверить в первую очередь и помогает фокусировать диагностику. На данный момент алгоритмы DeepGestalt и GestaltMatcher широко используется клиницистами, в том числе в Российской Федерации, для анализа фотографий пациентов. На их основе создан программный пакет Face2Gene в виде сайта и приложения (рис. 4А, Б).
Пациентам не нужно проходить десятки специалистов. Нейросеть снижает число лишних анализов, сокращает путь к диагнозу и уменьшает эмоциональное и финансовое давление на семью. Клиникам становится проще работать с большими массивами генетических данных. Системы машинного обучения автоматически ранжируют варианты в геноме и выделяют те, которые имеют клиническое значение. Исследования показывают, насколько масштабны эти данные и почему без автоматизации их невозможно анализировать вручную [12]. Что особенно важно для редких синдромов, время критично. Чем раньше поставлен диагноз, тем быстрее ребенок получает правильную терапию, коррекцию развития и поддержку.
Место ИИ в диагностическом алгоритме: от фото к геному
Так как же происходит непосредственное применение ИИ на практике?
Представьте пациента в кабинете педиатра: ребенок отстает в развитии, у него необычные черты лица, но ничего критичного. Врач не спешит сразу назначать дорогое секвенирование экзома — это как стрелять из пушки по воробьям. Вместо этого начинается ступенчатая диагностика, где каждый шаг оправдан клинической пользой, стоимостью и вероятностью найти ответ.
Первый уровень — клиническая оценка и рутинные тесты. Педиатр или генетик осматривает ребенка, собирает анамнез, назначает УЗИ сердца, анализ крови, аудиологический скрининг. Если симптомы неспецифичны, а тесты в норме — диагноз не ставится. Здесь ИИ еще не нужен: это территория человеческого опыта и базовых методов.
Второй уровень — фенотипический скрининг с ИИ. Если врач подозревает генетический синдром, но не уверен в диагнозе, он загружает фото в Face2Gene. За секунды алгоритм выдает топ-10 вероятных синдромов с процентом сходства. Это не «гадание по фото», а визуальный триаж: инструмент отсеивает 90% неверных направлений и подсказывает, какие гены проверить в первую очередь. Целесообразность: стоимость — ноль (приложение бесплатно для клиницистов), время — минуты, польза — сужение поиска с тысяч генов до десятка.
Третий уровень — прицельное генетическое тестирование. Подсказки ИИ подтверждаются клинически. Назначается панель генов (например, на KMT2D/KDM6A при подозрении на Кабуки) или секвенирование экзома. Это уже недешевые, но оправданные методы исследований: ПЦР, NGS, секвенирование по Сэнгеру. Без ИИ панель могла бы быть шире и дороже, или врач вообще не дошел бы до генетики.
Таким образом, ИИ не заменяет секвенирование, а направляет его. Как рентген перед КТ: дешевый, быстрый, безопасный — и решает, нужен ли следующий, более инвазивный шаг. В эпоху, когда геном каждого ребенка можно прочитать за день, главная проблема — не данные, а интерпретация.
Что дальше?
Персонализированная медицина — это уже рабочая парадигма, где ИИ интегрирует мультиомиксные данные (геном, транскриптом, протеом, метаболом) с клиническими признаками и изображениями для стратификации пациентов и выбора терапии [13]. Модели вроде AlphaFold предсказывают структуру белков по мутациям KMT2D, выявляя патогенные домены, а графовые нейросети связывают фенотип из OMIM с геномными вариантами из gnomAD и эпигенетическими сигнатурами из Roadmap Epigenomics. В клинической практике мультимодальные ИИ-системы решают задачи прогнозирования ответа на иммунотерапию при онкологии по данным TCGA и гистологии, раннего выявления сепсиса по ЭКГ и лабораторным маркерам из MIMIC-III, приоритизации вариантов в экзоме с учетом фенотипа через DeepVariant и GestaltMatcher.
В России это тоже уже не теория, а практика: отечественные платформы СберМедИИ «ТОП-3» и AIDA валидированы на ретроспективных когортах и внедрены в некоторых субъектах РФ, ускоряя дифференциальную диагностику на 40%. Botkin.AI и CareMentor анализируют рентген и КТ с AUC 0.92–0.96 для пневмонии, туберкулеза, онкопатологии. Глобально и ВОЗ поддерживает этот тренд через этические рамки ИИ, прогнозируя сокращение расходов на здравоохранение на 10–15% к 2030 г. Будущее строится на каскадных моделях: от фенотипического скрининга через Face2Gene к прицельному секвенированию. ИИ не заменяет врача, а формализует неявное знание, превращая его в куратора данных, где каждая мутация — не случайность, а точка входа в персонализированный протокол.
Литература
- Редко, но метко: орфанные заболевания как вызов современной медицине;
- Stéphanie Nguengang Wakap, Deborah M. Lambert, Annie Olry, Charlotte Rodwell, Charlotte Gueydan, et. al. (2020). Estimating cumulative point prevalence of rare diseases: analysis of the Orphanet database. Eur J Hum Genet. 28, 165-173;
- The Lancet. (2009). Listening to patients with rare diseases. The Lancet. 373, 868;
- Молекулы и эпигеном ;
- Yaron Gurovich, Yair Hanani, Omri Bar, Nicole Fleischer, Dekel Gelbman, et al. (2018). DeepGestalt - Identifying Rare Genetic Syndromes Using Deep Learning. arXiv;
- Yaron Gurovich, Yair Hanani, Omri Bar, Guy Nadav, Nicole Fleischer, et. al. (2019). Identifying facial phenotypes of genetic disorders using deep learning. Nat Med. 25, 60-64;
- Ashish Marwaha, Gregory Costain, Cheryl Cytrynbaum, Roberto Mendoza‐Londono, Lauren Chad, et. al. (2022). The utility of
DNA methylation signatures in directing genome sequencing workflow: Kabuki syndrome andCDK13 ‐related disorder. American J of Med Genetics Pt A. 188, 1368-1375; - Christina Theodore‐Oklota, Shayna Egan, Maggie Paulich, Christopher J. Evans, Deborah S. Hartman, et. al. (2020). Caregiver‐reported clinical characteristics and the burden associated with Kabuki syndrome. American J of Med Genetics Pt A. 182, 1592-1600;
- История развития искусственного интеллекта и его пришествия в биологию;
- Как языковые модели покорили мир белков;
- Konrad J. Karczewski, Laurent C. Francioli, Grace Tiao, Beryl B. Cummings, Jessica Alföldi, et. al. (2020). The mutational constraint spectrum quantified from variation in 141,456 humans. Nature. 581, 434-443;
- Siwei Chen, Laurent C. Francioli, Julia K. Goodrich, Ryan L. Collins, Masahiro Kanai, et. al. (2024). A genomic mutational constraint map using variation in 76,156 human genomes. Nature. 625, 92-100;
- От медицины для всех — к медицине для каждого!.