В полку генов убыло
06 февраля 2008
В полку генов убыло
- 1382
- 1
- 3
-
Автор
-
Редакторы
Сколько генов кодирует человеческая ДНК? За последние двадцать лет звучали самые разнообразные ответы на этот вопрос. К моменту обнародования «черновой» последовательности генома человека в 2001 году общепринятой считалась цифра 35 000, сейчас же генетические каталоги включают примерно 24 500 генов. Новое биоинформатическое исследование свидетельствует, что число «реальных» генов ещё меньше: около 20 500, а остальное в нынешних базах данных — попавшие туда по недосмотру некодирующие последовательности ДНК.
Уже давно всему прогрессивному человечеству известно, что нашумевший проект «геном человека» завершён, и что последовательность ДНК, делающая нас людьми, общедоступна [1]. Однако если оставить в стороне сенсационность, нужно сказать, что полученные тогда данные продолжают уточняться по сегодняшний день и, мало того, что остаются не полными (последовательность некоторых участков хромосом с трудом поддаётся секвенированию), но и не дают отчётливой картины даже относительно числа генов, входящих в геном. Что же говорить о том, чтобы понять все их функции!..
«Генетические атласы» (например, Ensembl) содержат информацию о генах, составляющих геномы различных организмов. Однако как из многомегабайтного генетического текста вычленить последовательности, соответствующие генам (то есть, участкам хромосомы, на которых происходит считывание генетической информации)? Ведь подавляющее количество ДНК, хотя и может выполнять важные функции, вроде регуляции транскрипции «истинных» генов, ничего не кодирует! (Из-за этого такая ДНК получила обидное название «мусорной».)
Обычно для поиска генов (и, соответственно, занесения их в «атласы») используются биоинформатические методы, идентифицирующие в тексте ДНК открытые рамки считывания (ОРС), соответствующие участкам хромосомы, на которых происходит связывание РНК-полимеразы и синтез мРНК. Говоря грубо, любая достаточно протяжённая (>300 пар оснований в сплайсированной форме) ОРС, идентифицированная на компьютере, является гéном в «генетическом атласе».
Однако жизнь всегда сложнее схемы: не все такие ОРС соответствуют генам — видимо, в силу особенностей упаковки ДНК на хромосоме, облигатной супрессии промоторов и по ряду других малоизученных причин. Таким образом, генетические базы данных содержат как «реальные» (существование которых подтверждено на уровне белкового продукта), так и «потенциальные» гены. Причём среди последних наверняка есть как те, активность которых крайне мала в данном месте и в данное время, так и некодирующие последовательности, содержащие «мнимую» рамку считывания и лишь сбивающие с толку исследователей. (Кстати, знать точный перечень генов важно хотя бы для того, чтобы можно было проводить масштабные эксперименты с участием абсолютно всех человеческих белков [2].)
В трёх основных генетических «атласах» — Ensembl, Vega и RefSeq — на настоящий момент в сумме содержится ≈24 500 генов, но уже в 2002 году, после сравнения геномов человека и мыши стало понятно, что довольно много генов человека не имеют гомологов в мышином геноме, и наоборот. Исследования же показывают, что за время эволюции млекопитающих вряд ли могло возникнуть и исчезнуть такое количество генов. Вывод напрашивался сам собой: аннотация генетических текстов недостаточно совершенна. Однако сейчас не существует стандартных механизмов «чистки» генетических банков с целью удалить из них «самозванцев».
Решение этой проблемы предлагает группа американских учёных во главе с Мишелем Клампом (Michele Clamp) и Эриком Лэндером (Eric Lander), основываясь на эволюционном родстве генов и сравнении нескольких геномов между собой [3]. Ген считался «истинным», если удавалось идентифицировать гомологичные ему в геномах двух других млекопитающих — мыши и собаки (или были найдены «истинные» гены-гомологи в самом человеческом геноме). Таким образом, из 22 218 генов, содержащихся в «атласе» Ensembl v35, ≈19 000 было признано «реальными», а 1 177 — «сиротскими» (orphan genes). (Еще ≈1 500 генов было классифицировано как ретротранспозоны или псевдогены; кроме того, были выявлены очевидные ошибки в аннотации некоторых генов.)
Однако одно лишь то, что у «сиротских» генов нет мышиных и собачьих гомологов, не позволяет, конечно, утверждать, что это и не гены вовсе. Можно предположить, что эти гены возникли в процессе эволюции приматов и специфичны именно для этой группы млекопитающих, или же были утеряны у мыши и собаки, но сохранились у приматов. К счастью, проверить можно и эту гипотезу: ведь на сегодняшний день уже известны геномы макаки [4] и шимпанзе! Но и в этом случае, применив методику, способную аккуратно выявлять родство генов, учёные лишь подтвердили прозвище «сиротских» генов: для подавляющего большинства из них не найдено гомологов ни в одном из геномов «родственничков» человека.
Аналогичный анализ, проведённый на всех трёх упомянутых каталогах генов, «убрал» из списка белок-кодирующих генов около 5 000 последовательностей ДНК, а общее число «реальных» генов стало равным 20 470. Исследователи допускают, что эта цифра будет постепенно увеличиваться (вряд ли, впрочем, превысив 21 000): ведь ограничение на минимальную длину ОРС наверняка отсеивает гены малых пептидных гормонов, а в сам анализ не была включена Y-хромосома, митохондриальные хромосомы и оставшиеся «неразмеченными» по хромосомам участки секвенированной ДНК.
Описанное исследование, кроме того, что предложило существенно пересмотренный список генов, также определяет процедуру по будущему добавлению генов в каталоги. Учёные предлагают включать новый, не имеющий гомологов в геномах других млекопитающих, «претендент» в гены, только если удаётся экспериментально доказать его существование (например, идентифицировав его белковый продукт). (Таким образом, кстати, в описанной работе было «реабилитировано» всего 12 генов из 1177 «сирот» — для них поиск по литературе выявил факт экспрессии in vivo.) В остальных случаях рекомендуется не верить «самозванцу».
«Не имея под рукой геномов других приматов, нам вряд ли удалось бы забить последний гвоздь в крышку гроба этих „сиротских“ генов», — подчёркивает значимость секвенирования геномов Кламп [5].
В ходе работы получены довольно веские доказательства того, что со времени расхождения приматов с другими ветвями млекопитающих, в геноме не появилось большого числа новых генов (да и старых не особо поубавилось). Фактически, это обозначает, что люди отличаются от мышей и собак вовсе не числом, функцией и структурой генов как таковых, а чем-то значительно более тонким, находящимся за гранью доступных нам на сегодняшний день свойств генома. А вот чем именно — предстоит выяснять, скорее всего, ещё не одному поколению биологов.
Литература
- Геном человека: как это было и как это будет;
- Подножка для вируса СПИДа;
- M. Clamp, B. Fry, M. Kamal, X. Xie, J. Cuff, et. al.. (2007). Distinguishing protein-coding and noncoding genes in the human genome. Proceedings of the National Academy of Sciences. 104, 19428-19433;
- Время обезьяньих исследований: расшифрован геном макаки резуса;
- Human gene count tumbles again. (2008). ScienceDaily.