Самая большая семья
16 декабря 2019
Самая большая семья
- 8547
- 1
- 3
-
Автор
-
Редактор
-
Рецензент
-
Иллюстратор
Темы
В двух предыдущих статьях спецпроекта о генетической генеалогии мы разобрали такие понятия как «этнос», «нация» и «популяция». Мы также писали о том, как популяционная генетика помогает ответить на вопросы историков. Теперь, когда мы подготовили достаточную базу, поговорим о развлекательных генетических тестах — тех, которые проходят, чтобы узнать больше о своем происхождении, найти потерянных родственников и просветиться насчет своих генетических особенностей. В этой статье мы расскажем, как правильно трактовать результаты этих тестов и как извлечь из них пользу.
Генетическая генеалогия
В статьях спецпроекта мы расскажем, что изучает генетическая генеалогия, чем она отличается от популяционной генетики, какую роль играет в истории человечества, и с какими трудностями можно столкнуться при интерпретации результатов генетических тестов на этническую принадлежность.
Независимый консультант спецпроекта — Артём Недолужко, к.б.н., сотрудник Nord University (Норвегия) и главный редактор сайта «Квакша».
Представьте такой сценарий: парень сделал генетический тест и выяснил, что у него есть сестра, о существовании которой он и не догадывался. Событие, казалось бы, достойно индийского фильма, где воссоединившиеся после долгой разлуки брат и сестра радуются, поют и танцуют. Однако это правдивая история, которая случилась с выпускником факультета биоинженерии и биоинформатики МГУ Павлом Федоровым (рис. 1).
Павел сделал генетический тест компании 23andMe. Компания также предлагает пользователям зарегистрироваться на сайте и вступить в «генетическую социальную сеть», где можно увидеть степень родства с другими людьми, сделавшими тот же анализ, и общаться с ними. Через несколько лет после того, как Павел сделал тест, он узнал, что у него есть единокровная сестра Наталья: у них разные матери, но общий отец. Ни Наталья, ни Павел до знакомства и не предполагали о существовании друг друга. По словам Павла, узнав, что у него есть сестра, он испытал скорее не сентиментальные чувства, а «научное детское любопытство — а что из фенотипа/поведения будет у нас похоже?»
Наталья — блондинка, живет в Сан-Франциско, работает инженером в Uber, занимается альпинизмом, любит хаски и спасать природу Аляски. Павел — брюнет, живет в Москве и занимается совершенно другими вещами. Но почему-то тоже любит хаски. Хотя кто же их не любит? А еще, судя по фотографии, они оба носят очки и предпочитают один и тот же оттенок серого цвета. Или это мы, сторонние наблюдатели, глядя на фотографию двух людей, обязательно найдем их сходства, если узнаем, что они брат и сестра?
Ох уж эти родственники!
Результаты генетических тестов — штука личная, и не каждый согласится на то, чтобы его родословную разбирали публично. Поэтому для того, чтобы обсудить кое-какие вопросы, касающиеся этих тестов, мы разберем выдуманный пример — возможно, слегка нелепый, но забавный.
Допустим, Витя и Маша решили пожениться. Пышная свадьба им была не по карману, но и совсем без праздника оставаться не хотелось. Поэтому они решили отпраздновать свадьбу скромно и позвать только родственников.
Маша начала составлять список гостей со своей стороны: мама и папа, дедушка Володя и бабушка Раиса, дядя Коля из Барнаула и его внучатый племянник Еремей (а также жена дяди Коли и их сын Федя), тетя Лариса из Новочеркасска с тремя дочками... И это Маша только начала.
Когда Витя увидел этот список, ему тоже захотелось составить свой. Но никого, кроме мамы, папы, двух бабушек и младшего брата он вспомнить не мог. Тут ему пришла в голову мысль: а что если сделать генетический тест и найти родственников по ДНК?
Витя так и сделал: заказал тест от 23andMe, плюнул в пробирку, отправил и стал ждать. А Маша тем временем всё вспоминала своих дядюшек и тетушек, писала им письма, спрашивала их об общих родственниках и всех аккуратно записывала в свою таблицу [1].
Через месяц Витя получил результат теста и ужасно обрадовался: его список родственников оказался длиннее, чем у Маши — 1245 человек! Но как только он начал разбираться, кто есть кто в этом списке, его энтузиазм заметно поубавился. Оказалось, что большинство найденных родственников живет очень далеко — в Северной Америке (рис. 2).
Казалось бы, Витины родственники должны жить в России, ведь никаких американцев в его семье не было. Как так получилось? Всё очень просто: большинство покупателей тестов 23andMe — жители США и Канады. Среди них действительно могут попасться Витины родственники, но все-таки больше можно было бы найти в России, откуда Витя родом. И чтобы их найти, Вите стоило обратиться в компанию, находящуюся в России — например, «Генотек».
Более того, все найденные родственники были далекими — четвероюродные, пятиюродные, шестиюродные братья и сестры. В английском языке все братья и сестры, начиная с двоюродных, называются cousins (часто переводится как «кузены», хоть это и не совсем точно). Таким образом, cousin — двоюродный брат или сестра, а 5th cousin — это шестиюродный брат или сестра (рис. 3). Если считать, что от мамы и папы Витя получил по 50% генов, те — по 50% генов бабушек и дедушек, и так далее, то получается, что уже с четвероюродными братьями и сестрами мы делим всего около 0,78% ДНК (рис. 3). Хотя у родных братьев и сестер обычно совпадает около 50% генов, но чисто теоретически между ними может не быть совпадений вовсе (хотя для этого должен хорошенько поработать демон Максвелла), а может быть и 100% совпадений (как в случае с однояйцевыми близнецами). Так происходит потому, что родные братья и сестры наследуют от родителей не одни и те же гены. Поэтому и кузены, не набравшие нужного процента совпавших генов, могут просто не появиться в списке родственников (рис. 5).
Есть и случаи, когда ребенок наследует гены от матери и отца не поровну. Это явление называется однородительской дисомией и заключается в том, что ребенок наследует две копии какой-нибудь хромосомы (или ее участка) от одного родителя и ни одной от другого. Удвоение может случайно возникнуть на стадии формирования яйцеклетки или сперматозоида или же на стадии формирования зародыша.
У Павла и Натальи, чей случай описан в начале этой статьи, было более 25% совпадений. Однако такое количество совпадений может быть не только у единокровных или единоутробных братьев и сестер, но также у племянников и их дядей или тетей, у внуков и их бабушек и дедушек. Определяя родство, Павел и Наталья все-таки ориентировались на семейную историю, и отчество было не последней уликой.
Но результаты Витиного теста были совсем не такие выдающиеся, как у Павла и Натальи. Вот, например, первая предполагаемая родственница Вити в списке — Вероника (рис. 4). С ней у Вити совпало 0,33% ДНК: 3 сегмента в 25 сантиморганов.
Обычно, чем ближе родственная связь двух людей, тем больше общих участков ДНК и тем больше значение в сантиморганах. Хотя бывают и исключения: например, с конкретным четвероюродным кузеном вы можете делить больше ДНК, чем с конкретным троюродным.
Разные хромосомы имеют различную склонность к перекресту (рекомбинации), поэтому число пар оснований, соответствующих одному сантиморгану, варьирует. Для человека 1 сантиморган соответствует примерно одному миллиону пар оснований [2].
С родителями мы обычно делим около 3500 сМ, с братьями и сестрами — около 2500 сМ, а вот уже с кузенами — сильно меньше: начиная от четвероюродных братьев и сестер мы можем просто не иметь общих сегментов (0 сМ), а можем иметь 50 (рис. 5) [3]. Поэтому нельзя точно определить, кем Вите приходится Вероника — она может быть и четвероюродной, и семиюродной, а может быть и еще более дальней родственницей.
Тут Витя подумал: а что, если их общие с Вероникой сегменты просто указывают на то, что их предки были из одной и той же популяции? В каком-то смысле все люди — родственники, просто нужно хорошенько покопаться.
Наличие нескольких идентичных участков ДНК само по себе еще не указывает на то, что два человека имеют общего недавнего предка. Возможно, два человека случайно унаследовали один и тот же фрагмент ДНК их далекого предка. А также эти два человека могут происходить из одной генетически гомогенной популяции. Например, ашкеназы часто имеют общие участки ДНК, потому что на самом деле являются далекими родственниками и имеют множество общих предков на протяжении многих поколений.
Если считать, что одно поколение — 25 лет, то общий предок Вити и Вероники родился около 150 лет назад (см. рис. 3). Чтобы найти такого далекого предка, нужно собирать рассказы бабушек и дедушек, искать свидетельства о смерти и церковные записи о крещении и проследить свой род до шестого колена. Собственно, Маша примерно этим и занялась, когда начала составлять список приглашенных на свадьбу.
К тому моменту, как Витя получил результаты теста и задумчиво пролистывал на экране список своих кузенов, у Маши набралось 300 человек, с большинством из которых она не была знакома. «Столько гостей на свадьбе — это перебор», — подумала она. И сказала: «Вить, а давай не будем звать всех этих родственников? Ведь мы их даже не знаем. Давай просто позовем родителей, бабушек, моего дедушку, твоего брата и наших самых близких друзей?» — «Давай», — обрадовался Витя, — «все равно я уже выиграл. У меня получилось больше родственников, чем у тебя». — «Зато я нашла всех близких, а у тебя — седьмая вода на киселе! — заметила Маша. — Но знаешь, что самое главное? — продолжила она. — Я выяснила, что мы с тобой не близкие родственники, а значит, смело можем пожениться!» — «Даже если бы ты была моей кузиной, — ответил Витя, — меня бы все равно это не остановило. Ведь великий Чарльз Дарвин женился на своей двоюродной сестре Эмме!»
Витя и Маша весело рассмеялись и поцеловались.
На этой трогательной развязке мы их оставим.
Далекие предки
Генетические тесты часто проходят те, кто хочет подтвердить семейные легенды о прабабушке-цыганке, прадедушке-шотландце и тому подобном, или те, кто родился и вырос в генетически разнообразных смешанных сообществах (например в США или Канаде).
Компаниям, предлагающим генетические тесты, такой спрос выгоден — ведь благодаря ему можно продать больше тестов. Также этот спрос играет на руку и владельцам туристических компаний, ведь многие из тех, кто прошел генетический тест и «узнал свою родословную», обязательно захотят узнать больше о своих предках. А как узнать больше, если никаких записей и фотографий этих предков не сохранилось? Конечно же, съездить на историческую родину!
Следуя этой логике, нам всем стоит побывать в Африке, откуда родом все представители рода Homo sapiens [5]. Но предприниматели отнеслись к этой идее вполне серьезно. Например, летом 2019 года 23andMe и Airbnb начали партнерские отношения, суть которых состоит в том, чтобы предлагать людям, прошедшим генетический тест, съездить на каникулы «на родину предков». Но как понять, земли каких именно предков нужно почтить таким визитом?
Компании, продающие генетические тесты, дают следующий ответ: они сравнивают результаты пользователя с данными, полученными по различным популяциям (о том, как составляют такие геногеографические карты, мы рассказали в предыдущей статье «Щепки в потоке истории» [6]). Потом на основании полученных результатов пользователю выдают список популяций, с которыми у него наибольшее количество совпадений. И из этого уже делается вывод о том, кем были его предки и где жили.
Здесь у вдумчивого читателя могут возникнуть вопросы: ведь сравнивают данные современного человека с данными современных популяций. А люди из этих популяций никак не могут быть предками того, кто проходит генетический тест. Две современные популяции могут иметь общую предковую популяцию — как, например, современные молдаване и итальянцы.
Социолог и антрополог Дарья Халтурина остроумно прокомментировала результаты своего генетического теста, обнаружив там балканцев и итальянцев: «Балканцы и итальянцы — это следы [моих] молдавских предков с Кубани. Наверное, всем молдаванам пишут, что они частично итальянцы. Уж писали бы “римляне”». Так какую же родину стоит посетить Дарье — Италию или Молдавию? Следуя рекомендациям, которые теперь совместно выдают 23andMe и Airbnb, посещать надо Италию. И это замечательно: в Италии тепло и красиво, вкусная еда и великолепные музеи. Но почему не Молдавию? И вообще, с какой стати на основании каких-то кусочков ДНК можно указывать человеку, в какой музей ему идти?
Оставим этот вопрос риторическим и снова займемся Витей.
Когда Витя сдавал тест, он надеялся получить какой-нибудь интересный результат и узнать больше о своем происхождении. А получилось, что тест выдал то, что Витя и сам знал: скорее всего, его предки из России (рис. 6). «Спасибо, кэп», — подумал Витя.
Итак, тест показал, что Витя на 97,3% из России, Польши и Украины. А на остальные 2,7%? Тут Витя задумался: что означают эти проценты?
А они в данном случае отражают долю этноспецифических SNP, представленных в анализируемом геноме.
Например, если бы у Вити в результате теста оказалось 30% сходства с шотландцами, это бы означало, что у Вити и представителей коренного населения Шотландии общая вероятная популяция происхождения. И доля этой предковой популяции в геноме Вити — 30%.
Но шотландцами называть эту популяцию мы не можем, потому что шотландцы — это нация, а нация и народ никакого отношения к генам не имеют, так как это социологические понятия, которые могут меняться (всё это подробно разобрано в статье «В поисках национального генотипа» [7]).
Покопавшись еще немного в результатах своего теста, Витя обнаружил, что 0,1% его генов совпадает с генами коренных американцев. Вот это было интересно! Может быть, кто-то из его предков был вождем племени?
По умолчанию, для того чтобы сообщить результаты, 23andMe выставляет уровень доверия доверительного интервала в 50% и не показывает результаты, которые этот порог не прошли. Но пользователь может и сам выставить уровень доверия. На рис. 7 видно, как в зависимости от этого уровня меняется результат теста. Популяции с малыми процентами пропадают уже при 80%.
Так что же означают эти малые проценты? Здесь приходит на ум какой-нибудь кулинарный пример: скажем, вам дали три вареные фасолинки и попросили угадать, частью какого блюда они являются. Грузинское лобио или мексиканское chili con carne? А может, что-то другое? Для того чтобы достоверно определить, из какого блюда эти фасолинки, нужны дополнительные подсказки. Когда речь идет о генетических тестах, такими подсказками станут семейные архивы.
Развлекательные генетические тесты
Рынок генетических тестов — интересное явление.
С одной стороны, генетические тесты — это развлечение. В интернете можно найти много рекомендаций, основанных на генетических тестах: подбор сорта вина, диет, склонности к различным видам спорта и творчества. Особой популярностью пользуются тесты на происхождение. Символично, что в 2018 году главным исполнительным директором компании Ancestry стала Марго Георгиалис, занимавшая до этого ту же позицию в Mattel — компании, продающей игрушки (в том числе кукол Барби).
По данным исследовательской компании Kalorama Information, объемы продаж развлекательных ДНК-тестов выросли с 15 миллионов долларов в 2010 году до более 99 миллионов долларов в 2017 году [9].
В ноябре 2018-го CEO Ancestry заявила, что компания продала 14 миллионов генетических тестов. А их главный конкурент, 23andMe, к тому моменту всего 10 миллионов наборов.
С другой стороны, эти тесты могут служить хорошим подспорьем в криминалистике и разработке лекарств. Компании, продающие генетические тесты, собрали огромные массивы генетических данных — причем им удалось это сделать за счет покупателей.
В прошлом году 23andMe и GlaxoSmithKlein (GSK) заключили соглашение, согласно которому, GSK может пользоваться базой данных, собранной 23andMe [10], [11]. Большинство клиентов 23andMe также предпочитают отвечать на вопросы о своем здоровье, что дает представление о взаимосвязи между генетикой и конкретными заболеваниями. Правда, есть одна проблема: покупатели теста 23andMe составляют вполне определенную социальную группу — тех, кому не жалко потратить 100–200 долларов на развлечение. То есть группу белых обеспеченных американцев.
Но США — страна большая и генетически разнообразная, поэтому генетические тесты не решают проблему сбора информации о генетических особенностях ее жителей. В других странах дело обстоит по-другому. Например, популяция Финляндии формировалась обособленно, поэтому для нее можно выделить список наиболее распространенных болезней и мутаций [12]. Но активность генов регулируется эпигенетическими механизмами — то есть приобретенной «надстройкой» над генами. Поэтому предсказательная сила генетического анализа немного снижается.
Вообще, тема генов и их влияния на личность человека окружена огромным количеством мифов. Самые главные из них разобраны в статье «6 мифов о генах», опубликованной на сайте «ПостНаука» [13]. Интересную разоблачительную статью опубликовал и Сергей Белков в ответ на якобы найденный компанией «Генотек» «ген алкоголизма» [14].
Приведем еще один пример неправильной методологии трактовки генетических данных. В 2017 году компания «Генотек» опубликовала результаты исследования, согласно которым на долю «коренных русских» приходится лишь 16,2% от генома «среднего россиянина». В статье «Щепки в потоке истории» мы уже писали о том, какие разнообразные популяции формировались на территории России [6]. Поэтому у тех, кто читал эту статью (или просто хорошо разбирается в теме), должен сразу возникнуть вопрос: кто такие «коренные русские»? Может быть, дославянское население? Иван в ушанке, играющий на балалайке и танцующий с медведем? Или житель Среднерусской возвышенности? Результаты, опубликованные компанией «Генотек», вызвали у специалистов недоумение и были качественно разобраны — например, в статье, написанной Артемом Космарским и опубликованной на сайте Indicator [15].
Вообще, все эти примеры только лишний раз указывают на то, что генетический материал мало собрать и секвенировать — нужно его и правильно трактовать. А что такое «правильно» зависит от того, что мы ищем. Хорошим примером может стать компания yRisk, созданная Андреем Афанасьевым и Антоном Тихоновым. Компания занимается именно трактовкой результатов тестов [16]. Работники высылают образец крови исследуемого человека в стороннюю лабораторию, а потом по сырым данным оценивают вероятность возникновения рака, основываясь на наследственной предрасположенности. Конечно, риск возникновения рака из-за курения или других внешних факторов таким образом не оценить, да и наследственная предрасположенность к раку не означает, что у человека он обязательно разовьется. Но все же предупрежден — значит вооружен.
Здесь стоит добавить, что большинство компаний, предлагающих генетические тесты, позволяют пользователям скачать и сырые данные, которые потом можно проанализировать с помощью других инструментов. Правда, не факт, что эти компании изучают все важные участки генома.
Поговорим теперь о другой важной области применения генетических тестов — о криминалистике. 25 апреля 2018 года полиция Сакраменто объявила об аресте бывшего полицейского — Джозефа Деанжело, «убийцы из Золотого штата», обвиняемого, по крайней мере, в 13 убийствах и 50 изнасилованиях. Трудно представить себе, что чувствовали жертвы и близкие убитых: преступника не удавалось обнаружить в течение 40 лет. Биоматериала убийцы у полиции было предостаточно, но так как он никогда не привлекался к ответственности, найти его в полицейской базе данных не удавалось.
На помощь пришел GEDmatch — сервис, созданный для того, чтобы люди могли найти потерянных родственников. Полиция нашла родственников Деанжело и уже по родственным связям и психологическому портрету добралась до самого преступника.
Как видите, генетические тесты могут здорово помочь криминалистике. И этим пользуются: например, Family Tree DNA, одна из крупнейших частных компаний, продающая генетические тесты, позволяет агентам Федерального бюро расследований (FBI) пользоваться своей обширной базой данных для поиска преступников, совершивших жестокие преступления.
Ловить опасных преступников — это прекрасно, но что, если данные генетических тестов попадут не в те руки? Поделившись с кем-то информацией о своей ДНК, вы также автоматически делитесь информацией о родственных связях и о ДНК ваших ближайших родственников — родителей, братьев, сестер и так далее. Например, если двоюродный брат Вити, прошедшего тест 23andMe в начале этой статьи, работает в разведке, то спецслужбы его легко вычислят, если раздобудут его ДНК. Они прогонят данные разведчика через базу данных 23andMe, обнаружат, что она похожа на ДНК Вити и проследят за родственными связями. Но у Вити нет двоюродного брата, так что и волноваться тут нечего.
Согласно российскому законодательству, граждане России не могут отправлять свой генетический материал за границу. Это правило касается только образцов в контейнерах — внутри себя вы можете смело провозить любые свои биоматериалы. Так что если вы хотите пройти генетический тест, не выезжая из России, вам нужно воспользоваться услугами компаний, зарегистрированных здесь, — например, «Генотека» или «Атласа».
Мнения экспертов
Как мы уже писали в этой статье, трактовка данных генетических тестов — дело сложное. Разные ученые и работники компаний могут подходить к этому вопросу по-разному, и от их подхода зависит, что же мы получим на выходе. Мы задали несколько вопросов экспертам: Александру Ракитько, представляющему компанию «Генотек», и специалистам по генетической генеалогии — Олегу Балановскому и Вадиму Вереничу.
Вопросы Александру Ракитько
1. Что показывают тесты на этническую принадлежность?
Человек обращается в генетические компании с вопросами: «Кем были мои бабушки, прадедушки?», «К каким народам они принадлежали?». Не совсем понятно, как определять этническую принадлежность человека, у которого папа был горским евреем, а мама — татаркой. А воспитывался он в приемной семье азиатов, проживающих в Финляндии. В этом случае задача генетического теста состоит в определении того, что половина предков данного человека была татарского происхождения, а половина — горские евреи. К счастью для популяционных генетиков, 150 лет назад самолетов еще не было, а миграционные процессы и межэтнические браки не имели столь высокую интенсивность, как сейчас. Так что технологии расшифровки генома подоспели вовремя: у нас еще есть возможность разобраться, когда и какие группы людей смешивались. Как в контексте одного человека, так и в контексте целых народов.
Для проведения генетического теста на этническое происхождение необходимы три компонента:
- Расшифрованные геномы людей, чье происхождение известно. Так называемая обучающая выборка. Как правило, требуется, чтобы все бабушки и дедушки человека были из одной популяции / этнической группы (например, жили в одной деревне). Эти геномы составляют некоторую референсную панель. Чем больше разных популяций представлено и чем больше образцов в каждой популяции, тем лучше панель.
- Расшифрованный геном исследуемого.
- Алгоритм, который на основании референсной панели из геномов с известным происхождением сможет сказать, из каких «составных частей» состоит геном исследуемого.
Мы можем представлять себе, что геном каждого человека состоит из перемешанных фрагментов, доставшихся от прародителей, словно покрывало из разноцветных лоскутков. Фрагменты одного происхождения (например, из одного и того же этноса) будем раскрашивать в один цвет, другого происхождения — в другой цвет. Тогда задача генетического теста сводится к тому, чтобы понять, какова доля фрагментов каждого цвета в геноме исследуемого. Основные алгоритмические сложности состоят в том, что мы не знаем, где начинается и заканчивается каждый фрагмент, а также в какой цвет его правильно раскрасить.
Изначально мы работаем с размеченной выборкой референсных геномов — геномов, происхождение которых мы знаем. Но нужно учитывать ряд важных моментов. Например, кто-то ошибся и неправильно сообщил информацию о своем происхождении. Такие выбросы мы сможем увидеть и отфильтровать на стадии формирования обучающего датасета. Какие-то популяции окажутся слишком похожими друг на друга генетически, и мы будем вынуждены рассматривать их объединение как единый генетический кластер (например, генетически русские и белорусы слабо различаются, по крайней мере, текущими статистическими инструментами различия определить сложно).
По сути, это означает, что генетические тесты основаны на сравнении генома человека не с различными этносами, а с некоторыми генетическими кластерами. Которые формируются так, чтобы быть хорошо отличимыми друг от друга, покрывать как можно больше различных популяций и состоять из достаточно большого количества расшифрованных геномов. С формальной точки зрения эти кластеры описываются теми образцами, которые в них входят, и набором генетических маркеров, которые были расшифрованы. Однако для исследуемого эта информация малопонятна и не информативна.
Чаще всего биоинформатически выделенный генетический кластер соответствует некоторому этносу или набору этносов. Другими словами, почти все люди из одного генетического кластера относятся к одному этносу / набору этносов. В то же время, подавляющее большинство людей из рассматриваемого этноса будут генетически более похожи на образцы именно из соответствующего кластера, а не из какого-либо иного генетического кластера. Именно поэтому для упрощения восприятия генетическим кластерам дают названия этносов или географических регионов (когда генетический кластер состоит из многих этносов).
Резюмируя, можно сказать, что генетические тесты определяют, какова доля в конкретном геноме того или иного генетического кластера (кластеры определяются как обучающей выборкой, так и используемым алгоритмом и его ограничениями). Результаты же сообщаются после некоторого упрощения, в ходе которого генетическим кластерам сопоставляются популяции, этносы, регионы. Эти сопоставления обусловлены историческими и статистическими факторами.
Итак, мы разобрались, откуда в генетических тестах появляются этносы и народы. Теперь необходимо понять, каким образом рассчитываются доли для каждого из генетических кластеров (этносов/регионов). Существует два основных подхода: global ancestry inference и local ancestry inference.
Подход global ancestry inference основан на анализе различий частот генетических маркеров в разных популяциях (далее слово «популяция» будем использовать как синоним генетического кластера). Для этого в геноме выделяют набор генетических маркеров (SNP), которые разбросаны по всему геному, независимы и имеют различные частоты в разных популяциях. Мы предполагаем, что геном исследуемого сформировался в результате смешения в некоторых пропорциях референсных (донорских) популяций. Зная генотип исследуемого в этих точках, мы можем выбрать пропорцию смешивания донорских популяций, которая будет наиболее правдоподобной для этого исследуемого. У такого подхода есть ряд плюсов: вычислительная эффективность, необходимость знать лишь частоты SNP для каждой популяции, возможность предполагать существование «древних» популяций, которые сформировали текущие популяции. К недостаткам стоит отнести то, что данный подход не сообщает, из какой именно популяции пришел конкретный участок генома человека, не используется информация о LD-структуре (LD — linkage disequilibrium, неравновесное сцепление генов), алгоритм плохо работает для близких популяций.
В этом свете подход local ancestry inference выглядит более предпочтительным, поскольку он основан непосредственно на раскраске хромосом (фазированных) в цвета разных популяций. Такой подход сложнее вычислительно и требует бóльших размеров обучающих выборок. Однако позволяет разделять относительно близкие популяции и учитывает LD-структуру. Нужно понимать, что оба подхода представляют вероятностно-статистические методы, которые работают с некоторой (не 100-процентной) точностью.
В итоге мы получаем, что генетические тесты определяют, на какие генетические кластеры были похожи геномы предков исследуемого. Для упрощения генетические кластеры сопоставляются этносам/регионам. В результате генетического теста сообщают, в каких пропорциях геном исследуемого включает маркеры различных генетических кластеров (в случае local ancestry inference геном предварительно «раскрасят» в каждый из кластеров).
2. Какие базы SNP и частот SNP используют компании: одну общедоступную или каждая свою? Насколько эти базы обширные и охватывают ли они все континенты в достаточной мере? Позволяют ли выделять мелкие кластеры: регионы государств, отдельные города?
К сожалению, единой базы с геномами из популяций со всего мира не существует. Есть несколько проектов (1000 Genomes, HapMap, HGDP) с открытыми данными, которые входят практически в любую референсную панель. Однако это всего лишь несколько тысяч геномов, которые покрывают лишь часть популяций. Причем почти для всех популяций количество проанализированных образцов недостаточно для того, чтобы качественно охарактеризовать генетическое разнообразие данной популяции. Это означает, что каждая компания вынуждена собирать свою собственную базу референсных геномов. И в этом, в частности, заключается конкуренция: чем лучше собранная база, тем более детальные результаты может предлагать компания.
Можно выделить три основных источника данных:
- Образцы с известным происхождением, собранные и генотипированные самой компанией.
- Выборки из статей по популяционной генетике, которых в последнее время, к счастью, становится все больше.
- Выборки из статей по генетике здоровья. Размеры этих выборок в разы превышают выборки из популяционных исследований. Однако, сильно зашумлены, содержать большое количество метисов, описываются регионами, а не этносами.
Стоит отметить, что научное сообщество предпринимает определенные попытки по агрегации и систематизации различных выборок.
Estonian Biocentre — коллекция статей и данных в открытом доступе от эстонского биоцентра.
David Reich Lab — агрегированный датасет Медицинской школы Гарварда из более 7000 современных и древних геномов.
Для популяционных выборок характерна несбалансированность. Например, можно обнаружить гораздо большее количество расшифрованных геномов якутов, нежели геномов белорусов. Потому что якуты формируют изолированную популяцию, представляющую бóльший научный интерес, нежели белорусы.
С одной стороны, на текущий момент доступно не так много данных, позволяющих полно и качественно охарактеризовать различные регионы в масштабе этносов и субэтносов. С другой стороны, количество расшифрованных геномов в последнее время существенно выросло. Мы весьма оптимистично настроены относительно возможностей разделения близких этнических групп. И генетические компании должны сыграть одну из главных ролей в формировании обучающих выборок и совершенствовании предсказательных алгоритмов.
3. Какова глубина (в поколениях) этих тестов?
Однозначного ответа на этот вопрос не существует, так как слишком много факторов оказывает влияние на точность и полноту предсказания происхождения. Существуют инструменты (например ADMIXTURE), которые позволяют оценивать долю «древних» популяций, существовавших сотни и тысячи лет назад. Если же говорить о раскраске хромосом в различные популяции, то даже уже на уровне трех поколений возникают проблемы — фрагменты ДНК, доставшиеся нам от прадедов, достаточно коротки, чтобы иметь возможность идентифицировать их с достаточной точностью. Также важно понимать, какие популяции смешивались. Если это были африканские и европейские популяции, то обнаружить их смешение несколько поколений назад гораздо больше шансов, чем, например, двух популяций с Северного Кавказа.
Любопытно отметить, что популяционные генетики и исследователи из коммерческих компаний часто решают схожие задачи, но для разных временных интервалов (как следствие, и алгоритмы используют разные). Коммерческим компаниям важно уметь отвечать на вопрос «Из каких народов были ваши предки несколько поколений назад (<5)?». Научно-исследовательские институты, наоборот, интересуются событиями, происходившими 5–20 поколений назад, причем не для конкретного человека, а в масштабе целых популяций. С поиском родственников ситуация, кстати, противоположная. Коммерческие компании соревнуются в определении наиболее дальнего родства. А в научно-исследовательских лабораториях внимание обращают на близких родственников (их необходимо исключать из выборок, иначе будут возникать разного рода смещения).
4. Почему результаты (интерпретации) по одной и той же пробе у разных компаний разнятся (причем часто сильно разнятся)?
Я не могу согласиться с тем, что результаты у разных компаний разнятся часто и сильно. По нашему опыту сравнения тестов Genotek, MyHeritage, 23andMe и нескольких других компаний, результаты почти всегда совпадают в пределах статистической погрешности методов для крупных регионов (Африка / Западная Европа / Восточная Европа / Азия), а отличия чаще всего вызваны разными обучающими выборками, о чем компании заявляют заранее.
В целом, я бы выделил три основные причины различий в результатах:
- Различные референсные базы данных с геномами известного происхождения. Как мы уже говорили, единой базы не существует. Поэтому каждая компания собирает свою базу данных. Кто-то фокусируется на афроамериканцах, кто-то на народах Сибири.
- Различные алгоритмы оценки происхождения. Хотя основные игроки на мировом рынке используют сходные подходы, не существует золотого стандарта и лучшего алгоритма.
- Различные методики генотипирования. Разные компании используют разные модели чипов для генотипирования. А кто-то вообще использует секвенирование со сверхнизким покрытием.
5. Могут ли специалисты компаний ошибочно интерпретировать результаты тестов и какие возможны ошибки?
В тех компаниях, с которыми я знаком, нет специалистов, вручную интерпретирующих результаты ДНК-тестов. Клиент получает проценты, рассчитанные искусственным интеллектом. С одной стороны, это хорошо. Потому что машина работает так, как ее запрограммировали, ее результат не зависит от настроения. С другой стороны, если в ее «программе» есть систематическая ошибка или неточность, то она будет в результатах всех клиентов.
Наиболее частый пример систематических ошибок (или ограничений метода) — неполнота обучающей выборки. Например, если в референсной панели из народов Восточной Сибири будут только якуты, то все тувинцы и буряты будут определяться как якуты. Хотя сами по себе эти народы различимы генетически.
Вопросы Олегу Балановскому
1. Что показывают тесты на этническую принадлежность?
Тесты, которые (некорректно, но доходчиво) называются тестами на этническую принадлежность, или этнокалькуляторами, показывают степень сходства генотипа конкретного человека с каждой из основных популяций мира. Если этот генотип неотличим от одной из них, можно сделать вывод, что практически все предки человека происходят из этой популяции. Если генотип похож на две или три, можно сделать вывод, что предки человека были из этих разных популяций, и можно примерно оценить, какая доля из всего множества его предков происходила из одной популяции, какая — из другой, и так далее.
Но тут есть две сложности. Первая — определяются именно популяции, а не этносы (народы). Вторая — многое зависит от выбора основных популяций, с которыми производится сравнение.
Сначала о первой сложности. Связь популяции и этноса — неоднозначная научная проблема, потому что принадлежность человека к этносу определяется самосознанием самого этого человека, то есть это психология, а принадлежность к популяции — это биология. Поэтому этнос и популяция, с одной стороны, могут быть не связаны (Пушкин — русский поэт, несмотря на своего африканского предка), а с другой стороны, в какой степени представители одного народа заключают браки со своими, в такой же мере большинство членов этноса относятся и к одной биологической популяции. Получается, что то, что определяют эти тесты, точнее называть «биогеографическое происхождение», а вовсе не «этническая принадлежность». Применительно к генетической генеалогии все это означает, что генетическая принадлежность к какой-либо популяции показывает лишь вероятную (но вовсе не обязательную) принадлежность предков исследуемого к соответствующему народу. Обратите внимание на слово «соответствующему». Какому народу соответствует популяция «южная Европа» — испанцу, греку или румыну? Каждому из них! И почти все популяции, включенные в генетико-генеалогические тесты, соответствуют довольно большим территориям, на которых проживает не один, а несколько народов.
Вот мы и подошли ко второй сложности. Пример 1: генотип исследуемого человека сравнивается с русскими, чеченцами и татарами, и обнаруженное совпадение с татарами может означать, что его предки происходят из любой популяции, более похожей на татар, чем на чеченцев или русских, — например из популяций башкир или узбеков. И формально совершенно правильный результат «100% татарского компонента» может ввести в заблуждение. Пример 2: для исследуемого показано сходство с Южным Кавказом и конкретно с азербайджанцами и армянами. Но на Южном Кавказе много других народов, и то, что не отмечено сходство с талышами или езидами, может означать либо что исследуемый на них не похож, либо что этих народов просто нет в панели сравнения. Напрашивается идея сравнивать с максимально большим числом популяций — десятками и сотнями по всему миру. Но эта идея создает больше проблем, чем решает: во-первых, многие популяции генетически очень сложно отличить друг от друга (например, русских и поляков, казахов и киргизов, и т.д.). Во-вторых, если популяций сравнения много, то проценты происхождения из каждой из них теряют свой прямой смысл — поскольку сами базовые популяции становятся смесью друг из друга; в результате человек, имеющий всех предков только из Центральной России, будет смоделирован как имеющий и славянские, и финно-угорские, и степные корни — поскольку сам генофонд русских Центральной России представляет собой смесь этих компонентов.
Поэтому при рассмотрении результатов такого тестирование имеет смысл всмотреться в список всех возможных компонентов, прикинуть, насколько географически широким является каждый из них, и не спешить приравнивать биологическое происхождение своих предков к тому, к какому народу они себя относили и на каком языке говорили.
2. Какие базы SNP и частот SNP используют компании: одну общедоступную или каждая свою? Насколько эти базы обширные и охватывают ли они все континенты в достаточной мере? Позволяют ли выделять мелкие кластеры: регионы государств, отдельные города?
Каждая использует свою. Если каждая база данных составлена хорошо, то это не проблема — они дадут одинаковые результаты. Но как говорилось в предыдущем ответе, если одна база данных включает много популяций, а другая мало, результаты заведомо будут разные.
Также нужно понимать, что проследить биологическую историю человека можно тремя способами — по отцовской линии наследования (гаплогруппам Y-хромосомы), по материнской линии (митохондриальной ДНК) или по всем линиям суммарно (аутосомным маркерам). В основном используют аутосомные тесты, и я здесь комментирую только их, но если использовать Y-хромосому или митохондриальную ДНК, то возникают как новые возможности, так и новые вопросы к качеству баз данных и уровню дробности выделяемых гаплогрупп.
Есть и еще одна небольшая сложность — понять, что конкретно обозначает то или иное название популяции. Например, популяция «Восточная Европа» в результатах одной генетико-генеалогической компании может означать европейскую часть России, а для другой — полосу стран от Польши до Греции, при этом у третьей компании Греция может относиться к популяции «Балканы», а у четвертой компании — к популяции «Южная Европа». Конечно, эту сложность легко решить, если четко описать (или нарисовать на карте) населения каких регионов или какие народы включены в ту или иную основную популяцию, но, к сожалению, не все компании это делают.
Касательно качества покрытия континентов и стран — доступных данных сейчас много, и нет проблем включить все континенты и большинство стран. Вопрос лишь в том, какие именно популяции будут выбраны как стандартные для работы алгоритма и включат ли компании лишь свои собственные данные по своим предыдущим клиентам, или постараются собрать обширную базу данных из всех доступных источников.
Можно ли найти различия внутри страны? Для большинства стран это вряд ли возможно, но, например, различия между северными и южными русскими совершенно реальны, а между южными и северными китайцами огромны. Однако при этом северные русские могут быть неотличимы от финнов, а северные китайцы — от корейцев. Различия между городами — еще более сомнительная идея, ведь города обычно аккумулируют смесь всего населения страны, поэтому все города похожи. Например, большинство населения почти всех городов России составляют генетически неразличимые между собой русские (южные и центральные), украинцы и белорусы, поэтому генетически едва ли различимы, скажем, Новосибирск и Петербург. Хотя исключения возможны (например, Махачкала населена в основном народами Дагестана, а Кызыл — тувинцами), но они будут отражать различия не между городами как таковыми, а между соответствующими регионами.
3. Какова глубина (в поколениях) этих тестов?
Если мой папа — негр, а мама — китаянка, то в каждой паре моих хромосом одна будет африканская, а другая — восточноазиатская. И это будет очень наглядно видно в моем генотипе. Моему ребенку я передам уже хромосомы, которые будут состоять из чередующихся африканских и восточноазиатских кусков, причем длина этих кусков будет в среднем совершенно определенной (на генетическом языке эта единица длины хромосомы называется «морганида»). А своим детям — моим внукам, правнукам негра и китаянки, — мой ребенок передаст африканские и азиатские куски, которые будут в два раза короче. И так каждое поколение они будут становиться все короче и короче, пока не станут совсем неразличимыми. И это произойдет уже через несколько поколений.
Поэтому при анализе генотипа клиента можно не только определить количество (долю) генома, пришедшую из определенной популяции, но и посмотреть, рассеяна эта доля по длине генома мелкими блоками или средними, или вообще по одному блоку на хромосому. Чем длиннее блок, тем ближе в родословной предок из этой популяции.
В научных исследованиях этот метод работает и на глубине в десятки поколений, до двадцати поколений точно. На там мы суммируем блоки, найденные у всех изученных индивидов, и усредняем. Тогда если у одного индивида блоков вообще нет, а у другого в два раза больше, это не страшно для результата. По идее, для целей генеалогии, когда надо получить достоверный ответ для одного индивида, эта глубина меньше, но сам я не работал этими методами для таких целей, поэтому не могу прокомментировать детали.
Анализ таких блоков генома — аутосомных гаплотипов (не путать с гаплотипами, изучаемыми на Y-хромосоме!) — позволяет также выявить, есть ли среди ранее протестировавшихся людей близкие родственники данного клиента. Логика тут та же самая — если блоки генома у двух людей совпадают, и это нельзя объяснить случайностью, значит, эти люди унаследовали эти блоки от своего общего предка. И чем длиннее эти блоки, чем ближе в родословной этот предок. Родственники первой, второй и третьей степеней родства выявляются четко, а более глубокое родство обнаруживается менее надежно, а родство далее четвероюродного выявить малореально.
4. Почему результаты (интерпретации) по одной и той же пробе у разных компаний разнятся (причём часто сильно разнятся)?
Полагаю, что примеры больших расхождений — вроде неодинаковых результатов для близнецов или совсем разных предковых популяций для одного и того же человека по результатам разных компаний — вызваны ошибками самих алгоритмов анализа. Ошибки неизбежны в любой работе. Если компании начнут подробнее описывать свои алгоритмы, таких грубых ошибок станет значительно меньше.
Кроме ошибок — с которыми справиться относительно легко, — есть и не столь большие, но систематические различия в результатах разных компаний. Они могут возникать либо из-за различий в базах данных — вроде разобранных выше различий в составе выделяемых основных популяций мира, — либо из-за различий в алгоритмах анализа. Эти различия неизбежны, но опять-таки, если алгоритмы будут более прозрачны, постепенно станет ясно, какие из них дают самые точные результаты, и все компании перейдут на них.
5. Могут ли специалисты компаний ошибочно интерпретировать результаты тестов и какие возможны ошибки?
Мелкие ошибки возможны и случаются чаще, чем хотелось бы. Иногда мелкие ошибки или недопонимание компаниями их собственных результатов может привести к громким проколам — вроде вывода, что среднестатистический россиянин является русским лишь на 16%, сделанного и растиражированного одной из крупнейших российских компаний. Но я надеюсь, что имеющиеся ошибки интерпретаций можно считать издержками роста, неточностями, недопониманием, и в процессе обсуждений и дальнейших работ их будет становиться все меньше. (Конечно, для этого результаты должны обсуждаться, комментироваться, а компании — прислушиваться к критике, когда она конструктивна.) Но глобально коммерческие компании просто решают свою задачу — определить, из каких популяций происходят предки клиента, как давно жили те или иные предки, кто из клиентов является родственником друг друга, — решают, как могут, и часто решают неплохо, и те интерпретации, которые компании дают, основаны, как правило, на корректных подходах и адекватной логике, хотя для своего усовершенствования и нуждаются в обсуждении со стороны специалистов.
Вопросы Вадиму Вереничу
1. Что показывают тесты на этническую принадлежность?
В принципе, подобный тип тестов, которые можно обозначать как этнопопуляционные тесты, показывает наиболее вероятное распределение условных компонентов этнопопуляционного происхождения клиентов. В зависимости от выбранной компанией модели и алгоритмов, они могут показывать либо процент аллельных вариантов (в данном случае снипов (SNP)) в геноме клиента компании, совпадающих с тем или иным набором референсных популяций, либо процент аллелей снипов, доставшихся клиенту от определенной условной предковой популяции.
Наибольшую проблему представляет собой интерпретация результатов таких тестов. К сожалению, простые модели панмиктических популяций, заложенные во многие наиболее популярные алгоритмы определения этнопопуляционного происхождения по результатам широкогеномного тестирования (например, в программах ADMIXTURE, STRUCTURE, sNMF, TESS, fineSTRUCTURE) на практике оказываются малоинформативными. Дело в том, что эти алгоритмы практически не учитывают, что кроме процесса смешивания (адмикса) условных предковых популяций человека, на эволюционный процесс развития этих популяций оказывали не менее важное влияние другие факторы — например, генный дрейф (искажение частот аллельных вариантов) в результате инбридинга или изоляции, появление редких аллелей в результате мутаций и т.д. Кроме того, зачастую сами условные предковые популяции или современные референсные популяции частично «перекрываются», поскольку разделяют общую эволюционную историю с другими подобными референсными популяциями/компонентами.
Разумеется, всё это оказывает колоссальное влияние на аккуратность вычисляемых процентов компонентов этнопопуляционного происхождения (снипов). Безусловно, разработчики алгоритмов и консультанты коммерческих компаний в курсе этой проблемы, и пытаются усовершенствовать свои наработки c различным успехом. Из всех изученных мной методов определения этничности по результатам тестирования в коммерческих компаниях, наиболее надежным мне представляется методология компании 23andMe. В отличие от своих конкурентов, они используют подход, который в академической литературе называют методом local ancestry, то есть определяют процент вклада различных референсных групп в этническое происхождение посегментно . Другие же компании (AncestryDNA, MyHeritage, FTDNA), очевидно, исходят из более обобщенной модели алгоритмов — global ancestry, то есть из обычного распределения аллельных вариантов.
Под сегментами тут понимаются сегменты аутосомных хромосом (реже X-хромосом), длина которых измеряется либо в сантиморганах, либо в количестве пар нуклеотидов между началом и концом сегмента.
Что касается моего личного мнения, то я склонен полагать, что наилучшие результаты в определении могли бы дать более сложные алгоритмы, основанные на редких, специфичных для каждой популяции алелльных вариантах, и в которых вместо имплицитного дискретного моделирования происхождения клиента используются популярные методы машинного обучения (например, классический анализ главных компонент или, скажем, t-SNE), поскольку они способны создать континуальную (в виде непрерывного градиента) модель этнического происхождения. Впрочем, и эти методы тоже имеют свои, хорошо изученные статистические ограничения.
Поэтому к результатам всех подобных анализов нужно относиться с большой осторожностью.
2. Какие базы SNP и частот SNP используют компании: одну общедоступную или каждая свою? Насколько эти базы обширные и охватывают ли они все континенты в достаточной мере? Позволяют ли выделять мелкие кластеры: регионы государств, отдельные города?
Базы частот аллелей относительно редко используются в современных коммерческих тестах.
Действительно, в самом начале изучения изменчивости в различных этнических и континентальных группах популяций первоначально применяли так называемые AIMs (ancestry informative markers), то есть определенную панель маркеров (обычно не более 10 000 снипов), частоты аллелей которых были статистически значимы среди различных этнических групп или чаще среди метапопуляций. В своей время, когда стоимость широкогеномного (не говоря уже о полногеномном) тестирования была высока, этот метод был очень эффективен. Однако по мере удешевления тестов, усовершенствования алгоритмов для анализа больших массивов данных и накопления самих результатов массового тестирования от этого метода отошли.
На самом деле, насколько я понимаю, для определения этнического происхождения компании используют либо гипотетические частоты аллелей в условных предковых популяциях, вычисленные с помощью программ вроде ADMIXTURE, либо векторы (упорядоченные наборы) частот аллелей или, скажем, эйгенвекторы (иногда и факторы загрузки) аллельных вариантов в каждой современной референсной группе или каждом компоненте этнического происхождения.
Для вычисления этих векторов компании активно используют как публичные (или условно-публичные) источники данных (вроде проектов HapMap, 1000 genomes, HGDP, EGDP, SGDP, а также опубликованные данные из огромного количества научных статей), так и собственную клиентскую базу. С последней, правда, иногда возникает конфуз, ибо академический принцип отбора выборки по строгим параметрам популяционной этничности в коммерческих компаниях часто заменяется на self-reported ancestry, то есть на самостоятельное декларирование клиентами своей этничности, что вносит существенный шум в процесс статистической обработки данных, заведомо снижая точность результатов.
3. Какова глубина (в поколениях) этих тестов?
Временной коридор, или интервал поколений, — наиболее сложная часть интерпретации результатов подобных тестов. Существует значительное количество разнообразных алгоритмов, которые с определенным уровнем вероятности могут дать представление о том, в каком временном интервале на генеалогическом древе клиента могли появиться представители определенной референсной группы или условного предкового компонента. На практике же аккуратность такого метода существенно ограничена тем, что нам неизвестна подлинная демографическая история человечества и как она отражается в геноме конкретного человека. Большинство таких методов основано на скоростях рекомбинации и наличии в геноме определенных блоков неравновесного сцепления (LD).
Теоретически, при определении локального происхождения каждого хромосомного сегмента можно выявить (по величине неравновесного сцепления внутри этого сегмента) условный интервал в поколениях, когда могло произойти смешение.
Однако скорости рекомбинации не являются универсальными — причем не только в отношении разных этнических групп, но даже между полами (у женщин она выше, чем у мужчин). Кроме того, до сих пор неизвестна мутационная история по всем популяциям людей, и, разумеется, во всех популяциях она разная.
Поскольку эти важные параметры до сих пор точно неизвестны, все подобные временные реконструкции носят сугубо спекулятивный характер. И относиться к ним следует лишь как к определенному статистически возможному варианту.
Возможно, в ближайшее время, после того как молекулярная демография популяций будет лучше изучена, результаты будут более надежны.
4. Почему результаты (интерпретации) по одной и той же пробе у разных компаний разнятся (причем часто сильно разнятся)?
По тем причинам, которые я упомянул при ответах на предыдущие вопросы. Во всех компаниях используются более или менее разные алгоритмы определения этнического происхождения. Используются различные академические и собственные базы данных, поэтому часто этнический состав и плотность выборок по разным популяциям различаются, что привносит искажение результатов в сторону определенных групп. Даже формат подачи данных клиенту различается.
Поэтому при использовании разных алгоритмов, разных дизайнов и методов вычисления на различных выборках трудно ожидать одинакового результата. К сожалению, людей, кто это понимает, не так уж и много.
5. Могут ли специалисты компаний ошибочно интерпретировать результаты тестов, и какие возможны ошибки?
Ошибки возможны на любом уровне — от инструментальных ошибок (например, неправильно определился аллель на чипе или при прочтении полного генома, что происходит не так уж и редко) до ошибок алгоритмов и обычного человеческого фактора. Но в целом проблема совсем в другом.
Есть еще одна причина — перенасыщение этого маленького сегмента на рынке интерпретации генетических данных. Существует уже целый ряд компаний (не менее дюжины), вышедших на рынок ДНК-генеалогии в относительно недавнее время. Каждая из них разработала свой алгоритм и красивый графический интерфейс для визуализации данных по прогнозируемому этнопроисхождению клиента. Увеличилось число крепких и активных любителей (я знаю не менее десяти таких людей), занимающихся в принципе тем же самым, причем иногда качество полученных ими моделей этнического происхождения выше таковых в коммерческих компаниях. Благодаря их усилиям число доступных этнопопуляционных калькуляторов увеличилось буквально в разы.
Но перейдем к конкретике. Часто люди систематически получают странные результаты — таких примеров можно приводить много. Причем иногда такие странные и неверные расклады можно встретить в больших этнических сообществах — например, у чеченцев стабильно в MyHeritage выскакивают в раскладе предковых групп одинаковые 10–15% жителей Британских островов.
Этот, конечно, нелепый пример отлично иллюстрирует первую проблему, связанную с разделением выборки и клиентской базы на кластеры. В отличие от любителей, большинство коммерческих компаний (за исключением разве что FTDNA, где алгоритм определения процентов этнического происхождения разработал как раз любитель) не занимается поисками настоящих предковых компонентов — вроде европейских охотников-собирателей, земледельцев и скотоводов бронзового века. Вместо этого все образцы популяций (преимущественно из академических источников) объединяются по географическому признаку в отдельные кластеры — например, скандинавский или балканские кластеры. Кластеры задаются как условные предковые компоненты (их может быть довольно много, как, например, в компании AncestryDNA), якобы позволяющие в данном случае более точно выявить недавнее этнопопуляционное происхождение клиента. И что хуже всего, в эти же кластеры включают данные самих клиентов — очень часто просто со слов клиента о своем этническом происхождении (как было в своё время в 23andMe). Хотя в последнее время в некоторых компаниях (AncestryDNA) алгоритм усовершенствовали путем включения дополнительных фильтров для отсеивания (например, с помощью определения в анализе главных компонентов, резко отличающихся и резко выделяющихся в плане этнического происхождения клиентов). Тем не менее даже самое методичное применение всевозможных дополнительных фильтров не может гарантировать повышение точности предсказания этнического происхождения. Проблема в том, что в человеческих популяциях (за исключением небольшого количества изолированных задрейфованных популяций вроде нганасан, чукчей, ульцев, калашей, папуасов) ни в одной из этнических групп компоненты не являются дискретными, а представляют собой градиенты частот аллелей, очень часто с большим разбросом, из-за чего хвосты распределения этих частот перекрываются. На практике этот феномен приводит к появлению в индивидуальных клиентских данных фантомных компонентов. Например, у европейцев часто появляются всевозможные невозможные компоненты происхождения — Amerindian, Papuan, Onge и так далее. Подобный подход только вносит сумятицу или, говоря статистическим языком, шум в результаты. Очевидно, что данная проблема связана с классической проблемой статистики — проблемой организации и подразделения выборки.
Схожей по характеру второй проблемой является проблема разнообразия выборки, используемой для определения компонентов происхождения. Очевидно, что очень сложно впихнуть всё генетическое разнообразие человечества в относительно небольшую выборку — даже если ее размер достигает полумиллиона или больше образцов (как у 23andMe). Проблема в сверхпредставленности отдельных этнических или квазиэтнических групп в подобных базах данных (западных европейцев, американцев, финнов, ашкеназов и так далее). При неравномерности выборки наблюдается другой классический статистический эффект — искажение результатов выборки в сторону наиболее представленных групп (как было в свое время в 23andMe, когда наблюдался эффект сверхпредставленности евреев-ашкеназов в числе так называемых генетических совпаденцев — предполагаемых близких родственников по результатам тестов).
Существует и третья проблема — в количестве совпадающих снипов (одинаковом их числе) между тестируемыми индивидуальными образцами и референсными группами. Это проблема затрагивает, правда, только любительские калькуляторы на базе DIYDodecad — в алгоритмах коммерческих компаний число снипов в референсных популяциях и индивидуальных образцах одинаково, так как анализируются только те образцы, которые тестировались самой компанией. В любительских же этнопопуляционных калькуляторах анализируемые всегда «кроссплатформенны». И если разработчик использовал для создания калькулятора только те снипы, которые содержаться в чипах 23andMe, то при анализе данных от компаний FTDNA или AncestryDNA совпадение снипов будет частичным (так как наборы снипов, генотипируемые в этих компаниях, совпадают лишь частично). В итоге возникает ситуация, где сравниваются аллельные частоты снипов референсных популяций (полученные при одном количестве снипов) с аллельными частотами снипов индивида (полученными при совсем другом количестве снипов). Элементарная логика подсказывает, что в таком случае будет наблюдаться искажение результатов в совершенно непредсказуемую сторону.
К счастью, у двух последних проблем есть разумные решения. Число совпадающих снипов между чипами FTDNA, 23andMe (разных версий) и AncestryDNA составляет примерно 300 000, что достаточно для создания калькуляторов, приемлемых для анализа данных от всех этих компаний. Решение первой проблемы тоже есть, но его стоимость немыслимо высока — необходимо использовать примерно несколько десятков миллионов полных геномов популяций людей со всего мира. Разумеется, никакие любители никогда в жизни не смогут собрать такое количество данных для создания сверхточных калькуляторов.
Все вышеперечисленные проблемы — сущая мелочь в сравнении с настоящими проблемами, обусловленными алгоритмической стороной вопроса. Дело в том, что все компании (и, разумеется, любители) так или иначе при вычислении аллельных частот в компонентах референсных популяций используют программы, работающие по парадигме ADMIXTURE/STRUCTURE. А они используют ML-алгоритмы, минимизирующие групповые частоты аллелей между всеми образцами выборки, то есть аллельные частоты в этом случае полностью зависят от состава исходной выборки, даже в случае так называемого supervised («обучаемого») анализа, в ходе которого некоторые популяции принимаются за исходные «чистые предковые группы». Поскольку в ранних версиях ADMIXTURE отсутствовала опция фиксирования одной из вычисляемых матриц (P-матрица — матрица аллельных частот снипов в каждом из гипотетических компонентов происхождения; Q-матрица — матрица индивидуальных коэффициентов вклада предковых компонентов в индивидуальный геном с общей построковой суммой 100%), и практически все компании использовали один и тот же алгоритм (он во всех подобных программах схож, хотя разняться его имплементации и способы оптимизации функции правдоподобия), то все результаты подвергнуты искажению истинных частот аллелей. Этот косяк вносит решающий вклад в появление фантомных компонентов происхождения.
Пользователи популярного сервиса GEDmatch назвали этот феномен эффектом калькулятора (как бы намекая на косорукость кода этой утилиты). На самом деле сам калькулятор здесь ни при чем — все дело в принципиальных различиях между определением происхождения на основании частот аллелей, вычисленных по группе образцов, и тем же самым вычислением частот аллелей, но уже не в группе, а в индивидуальном порядке. В этом легко убедиться самому — возьмите клиентские данные, например, норвежца. Вставьте его в большую выборку образцов (например, 2000 человек) и прогоните эту выборку в программе ADMIXTURE, задав такое количество гипотетических предковых популяций (K), при котором становится заметной субструктура генофонда популяций на внутриконтинентальном уровне. А затем возьмите того же самого норвежца, но уже в единственном числе, и снова прогоните в ADMIXTURE, только зафиксировав в виде предковых популяций полученные в предыдущем шаге аллельные частоты. И вы увидите, что различия между результатами анализа одних и тех же данных могут достигать двадцати, а то и более процентов. Это-то и есть ядро так называемого пресловутого эффекта калькулятора. Очевидно, что и GEDmatch Oracle (то есть инструмент определения ближайших к клиенту этнических популяций, а также моделирования происхождения клиента через набор из двух, трех, четырех популяций) в этом случае (искаженных аллельных частот) будет искусственно создавать фантомные предковые популяции. Например, у русского из Владимирской области могут появиться в качестве предков шведы, эстонцы или англичане из Кента.
Заключение
Проходить генетический тест или нет, каждый решает самостоятельно. Результаты генетических тестов могут помочь тем, кто разрабатывает лекарства, и тем, кто ловит преступников — и это прекрасно. Генетические тесты могут помочь построить семейное древо, но только если вы дополните данные теста архивными материалами и если ваши родственники также воспользуются этими тестами и добавят свои имена в базы данных.
Но не стоит относиться к тестам как к волшебной призме, которая разложит вашу личность на составляющие и покажет вам, кто же вы такой на самом деле. Результаты сильно зависят от того, данными каких популяций пользуется компания, какими алгоритмами проводит вычисления и насколько хорошо удалось собрать ваш образец.
И, наконец, гены — это далеко не всё, что нас определяет.
Литература
- Как побольше узнать об истории своей семьи? (2016). «Медуза»;
- L. Stubbs. (2001). Pulsed Field Gel Electrophoresis (PFGE). Encyclopedia of Genetics. 1582-1585;
- Bettinger B. (2017). August 2017 update to the shared cM project. The Genetic Genealogist;
- DNA relatives: detecting relatives and predicting relationships. 23andMe;
- Кто все эти люди?!;
- Щепки в потоке истории;
- В поисках «национального генотипа»;
- Алексенко А. (2017). Гены нации. «Сноб»;
- Brown K.V. and Porter K. (2019). Ancestry is said to prepare for IPO as DNA-test industry booms. Bloomderg;
- Ducharme J. (2018). A major drug company now has access to 23andMe’s genetic data. should you be concerned? Time;
- Roland D. (2019). 23andMe and GSK are mining customers’ DNA data in a hunt for new drugs. The Wall Street Journal;
- Helena Kääriäinen, Juha Muilu, Markus Perola, Kati Kristiansson. (2017). Genetics in an isolated population like Finland: a different basis for genomic medicine?. J Community Genet. 8, 319-326;
- 6 мифов о генах. (2015). «ПостНаука»;
- Белков С. (2018). Генотек и гены алкоголизма. Medium;
- Космарский А. (2017). В поисках «коренных» русских: как не надо рассказывать о генетических исследованиях. Indicator;
- Васина В. (2019). 3,6 млн человек в России болеют раком. Познакомьтесь с двумя гиками, которые намерены это изменить. «Секрет фирмы»;
- Балановский О. (2018). Мифы о генетике народов. pikabu;
- Костинская Л. (2019). Авраам родил Ицхака, или Тест на происхождение. «Детали»;
- Agro C. and Denne L. (2019). Близнецы получили «загадочные» результаты, проверив 5 сервисов поиска предков по ДНК. «Хабр»;
- Brown K.V. (2018). How DNA testing botched my family's heritage, and probably yours, too. Gizmodo.