Исследовательская группа Филиппа Хайтовича, или Как биологи работают с большими массивами данных
08 мая 2016
Исследовательская группа Филиппа Хайтовича, или Как биологи работают с большими массивами данных
- 1937
- 0
- 3
-
Автор
-
Редакторы
Ученые из лаборатории профессора Филиппа Хайтовича в Исследовательском центре по биотехнологиям и биомедицине Сколтеха работают с большими массивами данных, полученных на секвенаторах и масс-спектрометрах в партнерских лабораториях из разных уголков земного шара. Все это делается для того, чтобы раскрыть тайны эволюции и работы головного мозга человека и животных, а также решить множество других научных и практических задач.
Обратите внимание!
Спонсор публикации этой статьи — Лев Макаров.
Каждый визит в Сколтех — Сколковский институт науки и технологий — приносит что-то новое: я всегда узнаю там о чем-то интересном, вне зависимости от того, лекция ли это, беседа ли с ученым или посещение лаборатории. В Сколтехе всегда кипит жизнь, и тебя окружают мотивированные наукой и бизнесом студенты и профессора. Я занимаюсь в Сколтехе научными новостями и пиаром. Сегодня мне предстоит посетить собрание научной группы профессора Филиппа Хайтовича, которая занимается в основном биоинформатикой . Мне никогда не приходилось заниматься ею серьезно, но я уже давно с интересом засматриваюсь на эту довольно новую науку. Привлекает в первую очередь глобальность задач, поставленных перед этими учеными, ведь они жонглируют огромными массивами самых разнообразных данных! Мне кажется, что у биоинформатика больше шансов сделать что-то великое, но, может, это лишь иллюзия «мокрого» биолога.
Первое знакомство с биоинформатикой читателю даст статья «Я б в биоинформатики пошёл, пусть меня научат!» [1]. — Ред.
Нет, «мокрый» он не оттого, что попал под дождь (и не вследствие иных превратностей судьбы). Речь идет о противопоставлении «классических» лабораторных биохимии и молекулярной биологии (их называют «мокрыми» из-за растворов, с которыми работают ученые) и стремительно набирающей обороты компьютерной биологии, в которой самое мокрое — это, пожалуй, кофе: «Вычислительное будущее биологии» [2]. — Ред.
Большим данным — большой анализ
Вопрос о том, как обрабатывать большие массивы данных, встает перед очень многими биологами, и чем дальше, тем меньше остается тех, кого не коснулась эта революция. Рост количества публично доступных баз биологических данных с последовательностями генов, описанием их активности, структурой белков произвел настоящий переворот в биологии. В противовес классическим «мокрым» лабораториям (wet lab), где основу исследований составляют сделанные руками эксперименты, появились «сухие» лаборатории (dry lab), главный инструмент в арсенале которых — не пипетка, а компьютер.
Новые технологии создают настоящий информационный бум. После завершения проекта «Геном человека» [3] появилось много новых слов с суффиксом «-ом». Кроме всем известных генома, протеома, транскриптома, метаболома и микробиома, есть еще интерактом, повествующий о взаимодействии различных молекул; феном, описывающий все фенотипические характеристики; таксом, объединяющий все процессы с проявлением токсичности. А во главе стоит интегром, собирающий все «омы» в одно целое .
Очень советуем перед углублением в эту статью заглянуть в материалы, интересно и популярно объясняющие суть и кое-какие проблемы всевозможных «омик», изучающих эти самые «омы»: «„Омики“ — эпоха большой биологии» [4] и «Неизвестные пептиды: „теневая“ система биорегуляции» [5]. — Ред.
Все эти относительно новые слова, кроме генома, Word пока не знает и подчеркивает красным, однако соответствующие направления науки уже существуют и ежедневно поставляют исследователям огромные массивы данных. Одна из основных проблем работы с (много)терабайтными данными — это способ обращения с такими их объемами. Медицинские изображения высокого разрешения могут занимать с десяток гигабайт каждое, а исследователь, возможно, захочет, чтобы компьютер сравнил десятки тысяч таких изображений. Обработка одного такого файла может занять более 10 минут, а копирование их по сети и вовсе затянется на неопределенное время [6].
Биоинформатик — еще совсем молодая профессия, но она совершенно естественно заняла важное место в большинстве современных исследований, связанных с науками о жизни. Оказалось, что компьютеры могут решать задачи, непосильные ни величайшему человеческому мозгу, ни рукам самых опытных экспериментаторов. «Компьютерный биолог» и «биоинформатик» — эти термины предполагают уже достаточно много отдельных занятий, требующих разной подготовки и разного взгляда на науку и ее место в жизни: биоинформатик, специалист по обработке информации, разработчик баз данных, программист, куратор онтологий, специалист по молекулярному моделированию — все они занимаются разными вещами, хотя со стороны различить их будет непросто. Всё это без намеков говорит нам, что компьютеры прочно вошли в будни биологов [1].
Биоинформатиков становится всё больше и больше , и даже многие «мокрые» биологи углубляются в биоинформатику, так как хотят знать, что делать со своими многочисленными данными. Лауреат Нобелевской премии Филлип Шарп называет происходящее сейчас третьей революцией в биомедицине. Первой революцией, по его словам, было открытие структуры ДНК, второй — «революция генома», то есть расшифровка геномов живых организмов и разработка геномного подхода в целом. Сейчас происходит третья революция — слияние науки о жизни с математикой и информационными технологиями, с инжинирингом и физикой. Эта революция интегрирует науки о жизни на новой, информационной основе [7].
И вузы не успевают готовить соответствующие курсы: например, вслед за появлением в МГУ факультета биоинженерии и биоинформатики в Санкт-Петербурге открывается (полу)неформальный Институт биоинформатики: «Сome to the bioinformatics side: Институт биоинформатики в Санкт-Петербурге» [8]. — Ред.
О том, как читали первые геномы и что становится возможным сейчас, рассказывают материалы: «Геном человека: как это было и как это будет» [3], «Код жизни: прочесть не значит понять» [9] и «Технология: 1,000 $ за геном» [10]. — Ред.
Одна из областей, где очень остро встает вопрос обработки данных, — изучение работы и эволюции мозга человека и животных. Это связано с тем, что сложные процессы, происходящие в мозге, обусловливаются не менее сложными и запутанными схемами работы различных генов и белков. Например, в 2006 году был завершен проект Allen Mouse Brain Atlas. Этот атлас содержит в себе информацию об экспрессии генов в различных областях мозга мыши. Затем появился аналогичный атлас транскриптома человеческого мозга [11]. Естественно, что для создания этих материалов потребовалось проанализировать и структурировать очень много данных. В 2005 году появился Blue Brain Project, a в 2013 — Human Brain Project. Эти проекты тоже стараются пролить свет на работу головного мозга. В рамках первого проекта разработали компьютерную модель, которая с высокой точностью предсказывает расположение синапсов в коре головного мозга крысы. Далее эстафету принял Human Brain Project, посвященный моделированию уже человеческого мозга [12].
Одним из ученых, работающих в России и разгадывающих загадки головного мозга человека и животных, является профессор Сколковского института науки и технологии Филипп Хайтович. В сколтеховской исследовательской группе Хайтовича стараются комбинировать методы «сухой» и «мокрой» биологии. Но упор всё же делается на «сухую» — на анализ данных, — поэтому большинство сотрудников в лаборатории Филиппа — биоинформатики, а точнее — все, кроме него самого: он-то по образованию молекулярный биолог. Филипп закончил кафедру молекулярной биологии биологического факультета МГУ, потом получил PhD по биохимии в Чикаго. После этого он проработал шесть лет в Германии в Институте эволюционной антропологии Общества Макса Планка, а в 2006 году получил позицию в Институте сравнительной биологии (Шанхай).
Мозг: исследования «всухую»
Сколтех — совсем новый университет, и если театр начинается с вешалки, то университет начинается с людей. И биоинформатикам очень легко было оказаться среди этих людей, ведь для работы им не требуется ничего, кроме стола, стула, компьютера, быстрого интернета и хорошей компании. И вот, с 2014 года в Исследовательском центре по биотехнологиям и биомедицине Сколтеха существует исследовательская группа, возглавляемая Филиппом Хайтовичем. Параллельно с работой в Сколтехе Филипп возглавляет группу сравнительной биологии в Шанхайском технологическом университете, поэтому большинство данных, с которыми работает группа Филиппа, приходит из Китая. Также тесное сотрудничество ведется с лабораториями в Германии, Швейцарии, Японии и США. Некоторые аспиранты часть своих задач выполняют у иностранных коллабораторов. Например, в китайской лаборатории Филиппа проводят «мокрые» этапы исследования, посвященного клеткам нервной глии. Этой работой — и «сухой», и «мокрой» ее частями — в Сколтехе занимается Анна Шмелькова.
Биоинформатики могут позволить себе быть специалистами широкого профиля, которые легко переходят от одной темы к другой, и это не мешает им регулярно получать важные научные результаты и совершать открытия [2], поэтому в лаборатории параллельно ведется работа над очень разными проектами. Основной упор делается на изучение разных особенностей работы мозга человека и его эволюции. Исследователи стремятся понять, что именно сделало нас людьми и что происходит с мозгом в процессе эволюции видов; также изучаются мозг животных и временны́е изменения в нём в течение индивидуального развития организмов. Например, постдок в группе Хайтовича Павел Мазин изучает изменения паттернов сплайсинга у животных при переходе из пренатального периода в постнатальный, то есть до и после рождения [16] (см. врезку). Оказывается, сразу после рождения в сплайсинге наблюдаются большие изменения. Что служит сигналом для таких перемен, пока неизвестно.
Метаболиты долголетия
Один из проектов, выполняемых группой Хайтовича совместно с коллегами из Шанхая, посвящен изучению возрастных изменений у человека и других млекопитающих методами современной метаболомики (с определением метаболических профилей). Ранее такие профили уже изучали в мозге, сердце, печени и почках различных млекопитающих [19], в этом же исследовании обнаружили метаболиты, коррелирующие с продолжительностью жизни.
Передовые высокопроизводительные технологии позволяют получить достаточно полную картину молекулярного состава человеческого мозга. Исследователи из Сколтеха на основании данных масс-спектрометрии выделили метаболиты, уникальные для человеческого мозга. Эти данные были получены для префронтальной коры человека, шимпанзе и макаки. Оказалось, что значительная часть изменений метаболитов ассоциирована с возрастом. Помимо этого ученые интегрировали метаболические и транскриптомные данные, для того чтобы изучить, в каких метаболических путях кластеризуются человеко-специфичные изменения.
Также был осуществлен поиск видоспецифичных метаболитов. Наибольшее их количество наблюдается у человека и у летучей мыши, ночницы Брандта (Myotis brandtii) — самых долгоживущих видов в своих группах. Ранее было выявлено, что у этой летучей мыши метаболизм довольно необычный. В ее метаболическом профиле был обнаружен видоизмененный гормон роста — инсулиноподобный фактор роста [20]. Ночница Брандта наравне с голым землекопом относится к животным с пренебрежимым старением, то есть стареющим очень медленно [21]. Эта летучая мышь выделяется наиболее впечатляющим «разрывом» между массой тела и продолжительностью жизни среди млекопитающих [22].
Эпигенетика старения мозга
Эпигенетика — это научное направление, изучающее все факторы, которые влияют на активность генома, но не связаны с мутациями ДНК. Ученые уже продемонстрировали связь некоторых эпигенетических изменений со старением и патологическими возрастными явлениями [23]. Был даже предложен алгоритм предсказания возраста по анализу метилирования ДНК (так называемые эпигенетические часы [24]).
В ноябре 2015 года группа Филиппа Хайтовича выиграла грант Министерства образования и науки России на исследования по теме «Регуляция старения мозга человека: транскрипционные и эпигенетические карты и вычислительные модели». В этом проекте исследователи из Сколтеха активно изучают, как меняется работа генов и эпигенетический статус тканей коры головного мозга человека при старении. Результаты работы будут полезны не только исследователям в этой области, но и медицинским организациям и компаниям, занимающимся разработкой новых лекарств и методик для предотвращения и замедления старения мозга, а также предотвращения связанных с ним когнитивных расстройств.
Наш мозг — продукт грудного вскармливания?
В 2015 году в журнале Neuron вышла статья, демонстрирующая, что мозги млекопитающих сильно отличаются по липидному составу (Филипп — один из авторов этого исследования) [25]. Несмотря на то, что бόльшую часть функций в клетке выполняют белки, роль липидов тоже нельзя недооценивать [26]. Исследователи из группы Хайтовича захотели проверить, определяется ли эта разница в липидном составе мозга тем, что едят эти животные на ранних этапах постнатального развития — в период самого активного роста мозга, когда основной пищей служит молоко? (Речь, конечно, идет об эволюционном развитии головного мозга за большие промежутки времени. Если мы будем пить обезьянье молоко, обезьянами мы точно не станем.) То есть заложено ли в молоке различие, которое дальше определит такую существенную разницу в мозгах (см. врезку)?
Некоторые проекты пока еще находятся на стадии планирования. Например, совместно с Массачусетским технологическим институтом готовится исследование, направленное на анализ метаболома и липидома раковых опухолей мозга и печени на разных стадиях.
Национально, технологично, инициативно
Но планы на будущее не ограничиваются одной только фундаментальной наукой: Филипп хочет создать центр по производству и анализу больших данных, что может существенно помочь медицине и сельскому хозяйству. Планируется, что лаборатория Хайтовича примет участие в крупных проектах Национальной технологической инициативы (НТИ) Нейронет и Фуднет. Эти инициативы рассчитаны на развитие российской индустрии в области нейронаук (Нейронет) и агрокомплекса (Фуднет). В Фуднете лаборатория Филиппа будет заниматься научной стороной проекта, способствовать технологическим и наукоемким достижениям российских компаний. Например, одна из задач — создание программы оптимизации селекции высокопродуктивных сортов сахарной свеклы на основании генетических маркеров фенотипической вариабельности. В рамках этого направления будет осуществлен геномный анализ маркеров «сахарности» свеклы и ее устойчивости к гнили, разработан протокол генотипирования, выведены новые чистые линии. Глобальная цель Фуднета — устранить зависимость российской аграрной промышленности от импорта растительного и животного генетического материала.
Второй проект — Нейронет — будет осуществляться совместно с другими лабораториями Сколтеха. Планируется создать единую систему сбора и анализа данных о мозге, унифицировать алгоритмы их обработки и разработать программное обеспечение для предсказания на основе получаемых данных особенностей работы мозга. Этот проект должен поспособствовать развитию бизнеса в области нейронаук.
Будни «сухой» лаборатории
Сейчас в лаборатории помимо Филиппа работают два постдока, пять аспирантов и несколько студентов-магистрантов. Но количество новых идей и проектов растет, поэтому коллектив будет расширяться.
Пока в лаборатории нет ничего, кроме компьютеров, и при необходимости эксперименты проводятся в Китае или Германии. Но в ближайшее время появятся и свои приборы. Может быть, это связано с тем, что Филипп прошел классическую школу кафедры молекулярной биологии биофака МГУ, но он хочет, чтобы его сотрудники умели работать руками. Филипп уверен, что хорошие специалисты должны не только оперировать данными, но и уметь их получать. Это даст им представление обо всех проблемах и возможностях современных методов, позволит совершенствовать ход исследований, вносить что-то новое. «Ученые не должны быть рабами тех данных, которые они получают извне», — говорит Филипп. Поэтому скоро в лаборатории появятся секвенатор и масс-спектрометр, а в дальнейшем — различные приборы, которые на выходе будут давать изображения (всяческие микроскопы). Группу Филиппа Хайтовича интересует всё, с помощью чего возможно получать большие данные в биотехе.
В лаборатории всё время возникают новые проекты, поэтому и новые люди нужны. Для будущих претендентов Филипп выдвигает два основных условия: работать и самообразовываться. Филипп считает, что знаний, полученных в университете, всегда недостаточно, поэтому придется учиться.
Группа растет, и она открыта, но того, кто туда попадет, ждут нелегкие (хотя и интересные) годы. Работать приходится много, но по моим ощущением от лабораторного совещания, на которое я пришла, чтобы познакомиться с лабораторией, происходит всё это весело и непринужденно.
Утро четверга. Все плавно подтягиваются в аудиторию для обсуждения текущих рабочих моментов. Пока еще не все собрались, беседа плавно перетекает то на спорт, то на последние научные публикации; студенты уткнулись в компьютеры, поскольку им сейчас докладывать результаты своей недельной работы. Все ребята очень доброжелательны, и мне самой сразу становится комфортно и интересно. Но вот пора переходить к делу. Студенты мнутся и не горят желанием презентовать свои данные. «В следующий раз все до одного должны выступить», — с улыбкой говорит Филипп. Одна студентка всё-таки соглашается показать свои данные. Мне очень нравится его манера вести дискуссию с сотрудниками и студентами: он всё время в диалоге с докладчиком, всегда критичен, но при этом постоянно шутит. Одновременно предупреждает студентку, что с ней придется вести серьезную работу, и подмечает, что графики по форме напоминают карту России.
Обстановка на совещании свободная, неформальная, всем весело, наука не должна быть скучной. «Еще кто-нибудь будет что-то показывать?» — спрашивает Филипп и сразу же добавляет: «Думаю, что после такой критики никто не захочет!» И точно — никто не захотел. «Не хочешь позориться — сделай хороший график! В этом суть lab meeting!» — подытоживает Филипп. Так как от студентов сегодня ничего больше не добиться, слово переходит к постдокам и аспирантам. Все друг за другом рассказывают о том, что у них происходит, почти каждый занят своим проектом. Основные вопросы разобраны, и пришло время возвращаться к работе. Филипп напоминает всем, что из-за переноса праздников суббота будет рабочим днем, и он надеется всех увидеть. Все возвращаются к компьютерам, где их ждет куча данных и безграничные возможности.
Литература
- Я б в биоинформатики пошёл, пусть меня научат!;
- Вычислительное будущее биологии;
- Геном человека: как это было и как это будет;
- «Омики» — эпоха большой биологии;
- Неизвестные пептиды: «теневая» система биорегуляции;
- Биоинформатика: большие БД против «большого Р»;
- Жизнь — это компьютер;
- Сome to the bioinformatics side: Институт биоинформатики в Санкт-Петербурге;
- Код жизни: прочесть не значит понять;
- Технология: $1000 за геном;
- Allen Brain Atlas: транскриптом мозга;
- Blue Brain Project: как все связано?;
- Somjen G.G. (1988). Nervenkitt: notes on the history of the concept of neuroglia. Glia. 1, 2–9;
- Kimelberg H.K. (2004). The problem of astrocyte identity. Neurochem. Int. 45, 191–202;
- Wang D.D. and Bordey A. (2008). The astrocyte odyssey. Prog. Neurobiol. 86, 342–367;
- Mazin P., Xiong J., Liu X., Yan Z., Zhang X., Li M. et al. (2013). Widespread splicing changes in human brain development and aging. Mol. Syst. Biol. 9, 633;
- Элементы: «Почти все человеческие гены кодируют более одного белка»;
- Tazi J., Bakkour N., Stamm S. (2009). Alternative splicing and disease. Biochim. Biophys. Acta. 1792, 14–26;
- Ma S., Yim S.H., Lee S.G., Kim E.B., Lee S.R., Chang K.T. et al. (2015). Organization of the mammalian metabolome according to organ function, lineage specialization, and longevity. Cell Metab. 22, 332–343;
- Seim I., Fang X., Xiong Z., Lobanov A.V., Huang Z., Ma S. et al. (2013). Genome analysis reveals insights into physiology and longevity of the Brandt’s bat Myotis brandtii. Nat. Commun. 4, 2212;
- Преодолевшие старение. Часть II. Дети подземелья;
- Преодолевшие старение. Часть I. Кому выпал эволюционный джекпот?;
- Старение и долголетие: эпигеном раскрывает тайны;
- Эпигенетические часы: сколько лет вашему метилому?;
- Bozek K., Wei Y., Yan Z., Liu X., Xiong J., Sugimoto M. et al. (2015). Organization and evolution of brain lipidome revealed by large-scale analysis of human, chimpanzee, macaque, and mouse tissues. Neuron. 85, 695–702;
- Липидный фундамент жизни.