Жизнь — это компьютер

20 июля 2014

Научно-популярный конкурс «Био/мол/текст»-2014 Биоинформатика и молекулярная эволюция

Жизнь — это компьютер

2360
1,2
0
0

Добавить в избранное

**Почему лауреаты Нобелевской премии занялись информатикой?**

[23]

Автор
- Андрей Константинов
Редакторы
- Антон Чугунов
- Андрей Панов

Темы

Статья на конкурс «био/мол/текст»: Когда-то главным орудием биологов были сачок и лупа. Потом — микроскоп и пробирки. Сейчас основным инструментом, необходимым для понимания жизни, становятся информационные технологии. Чтобы проникнуть в тайны биоинформатики, мы поговорили с несколькими нобелевскими лауреатами, узнали, почему геном человека до сих пор не расшифрован, увидели, как физтех превращается в биотех, а физики — в биологов, и даже почти поняли, как ученые читают генетический код и перепрограммируют живые клетки.

Конкурс «био/мол/текст»-2014

Эта статья представлена на конкурс научно-популярных работ «био/мол/текст»-2014 в номинации «Биоинформатика и молекулярная эволюция».

Учитывая «общественный» стиль, выбранный автором, мы рекомендуем читателям за научными подробностями обращаться к статьям, упомянутым в редакционных комментариях.

Главный спонсор конкурса — дальновидная компания Генотек.
Конкурс поддержан ОАО «РВК».

Спонсором номинации «Биоинформатика» является Институт биоинформатики.
Спонсором приза зрительских симпатий выступила фирма Helicon.
Свой приз также вручает Фонд поддержки передовых биотехнологий.

Слушаю лауреата Нобелевской премии Филлипа Шарпа:

— Мы в Массачусетском технологическом институте называем это третьей революцией в биомедицине. Первой революцией было открытие структуры ДНК, второй — «революция генома», то есть расшифровка геномов живых организмов и разработка геномного подхода в целом. Сейчас происходит третья революция — слияние науки о жизни с математикой и информационными технологиями, с инжинирингом и физикой. Эта революция интегрирует науки о жизни на новой, информационной основе. Когда-то физики дали инженерам электрон, и в мире началась IT-революция. Потом биологи дали инженерам ген и вместе они создадут будущее.

В сколковском Гиперкубе на конференции «Терапия будущего» встретились сразу два нобелевских лауреата. Выступает Филлип Шарп (рис. 1), открывший множество новых видов РНК (их десятки, помимо тех, что мы изучали в школе ), создавший РНК-терапию и получивший нобелевку за открытие прерывистой структуры генов — каждый из них записан на ДНК небольшими кусочками, которые перемежаются вроде бы бессмысленными последовательностями символов. Вместе с нами его слушает Синья Яманака (рис. 2), получивший свою нобелевку [2] за то, что научил биологов менять генетическую программу клеток взрослого организма, возвращая их в «детство», а затем превращая эти забывшие о своей специализации юные плюрипотентные клетки в специализированные клетки разных органов и тканей .

«Биомолекула» рассказывала об этом в статье «Обо всех РНК на свете, больших и малых» [1]. — Ред.

Об индуцированных плюрипотентных стволовых клетках мы также не раз уже рассказывали, например в статьях «Была клетка простая, стала стволовая» и «Ствол и ветки: стволовые клетки» [2–4]. — Ред.

**Рисунок 1. Филипп Шарп, лауреат Нобелевской премии по физиологии и медицине 1993 года**
Nobel Prize Winner And Kentucky Native On His Life In Science

Помимо блестящей медицинской перспективы их открытий, сдержанного японца и харизматичного американца объединяет то, что оба корифея рассказывают, как передается и обрабатывается информация в живых клетках и между ними, — так, словно биологические системы — это своего рода живые компьютеры, и для их понимания больше всего подходит язык информатики. Наука, занимающаяся изучением биологических «программ» и «компьютеров», называется биоинформатикой.

С точки зрения биоинформатики, ядро каждой клетки — что-то вроде микроскопической флэшки огромной вместимости. Внутри ядра на молекулах ДНК записаны программы — одни и те же для всех клеток организма, но каждый клеточный компьютер выполняет их по-своему в зависимости от внешних сигналов (модификация генетического кода, приводящая к различному выполнению этой программы, называется эпигенетикой ). Если мы сумеем прочитать код и понять принципы работы клеточного компьютера, то сможем управлять программой сами. Может ли быть для ученых перспектива заманчивей этой?

Эпигенетика входит в число постгеномных проблем, потому что после прочтения последовательности ДНК человека так и не стало ясно, как же устроена жизнь, а эпигенетика обещает нас хотя бы отчасти приблизить к решению этого несомненно важного вопроса [5]. Разумеется, помимо удовлетворения ненасытного любопытства исследователей, эпигенетика, как и всякая стóящая проблема, таит и практические выгоды: так, уже начали появляться лекарства, действующие на эпигенетическом уровне [6]. — Ред.

В подтверждении своих слов о слиянии биологических технологий с информационными, Шарп показывает нам карту окрестностей Массачусетского технологического института, окруженного плотным кольцом зданий крупнейших мировых биотехнологических и IT-компаний, стремящихся даже физически быть как можно ближе к лабораториям, в которых делаются открытия.

— Вот поэтому университеты в США — сейчас главные драйверы инноваций и экономики вообще, — учит Шарп, а мы тем временем уводим Яманаку и его японскую свиту на небольшой разговор.

**Рисунок 2. Синья Яманака, лауреат Нобелевской премии по физиологии и медицине 2012 года**
Gladstone Institutes/Chris Goodfellow

Перепрограммисты

Наверное, каждый видел фотографии зеленых светящихся кроликов и свинок . Выглядит забавно, а достигается за счет внедрения гена флуоресцентного белка в геном животного. Это примерно то же, как дополнить свой Windows программой от Google. Из той же серии лечение наследственных заболеваний или создание бактерий, производящих топливо и лекарства .

Если кто не видел, то почитайте статью «Флуоресцентные белки: разнообразнее, чем вы думали!» [7], а если кто-то вообще не в курсе, что такое флуоресцентные белки (ударение на И), — то еще и статью «Флуоресцирующая Нобелевская премия по химии» [8]. — Ред.

Возможно, в будущем самое энергоемкое химическое топливо — водород — будет производиться фотосинтезирующими бактериями на просторах океана, генетически модифицированными именно для этой задачи [9]. — Ред.

Но можно не только дополнить «операционную систему» живого организма «приложениями» других производителей. Есть возможность заставить работать по-другому уже имеющуюся программу.

В 2006 году успехи других «перепрограммистов» живых клеток затмил Синья Яманака. Он взял клетку из кожи мышиного хвоста и превратил ее в плюрипотентную — ту, которая может порождать любые клетки организма. Такие клетки стали называть ИПСК — индуцированными плюрипотентными стволовыми клетками [2–4]. Настоящий рай для медиков. Уже в следующем году Яманака сумел повторить свой успех на человеческой клетке.

— Как происходит перепрограммирование соматической клетки в ИПСК?

— Суть очень проста: мы вводим в ткань из обычных клеток 4 белка. Каждый из них — это сигнал, включающий какие-то гены, запускающий сложный каскад реакций, которые и проводят к тому, что небольшая часть клеток в исходной ткани превращается в плюрипотентные. Это что-то вроде перезагрузки клеточного компьютера, но как именно это происходит, мы вообще говоря мало понимаем, тут еще работать и работать.

— А как же вы поняли, что именно эти 4 белка нужны?

— Можно сказать, методом тыка: у нас были 24 кандидата, которые, судя по тому, как они себя ведут в организме, могли подойти. Мы испытывали разные их сочетания на мышах, пока не нашли то сочетание четырех белков, которое работало.

— А обратный процесс? Как превратить ИПСК в нейрон или клетку крови?

— Мы использовали знания, накопленные эмбриологией, о том как эмбриональные клетки превращаются в клетки мозга или сердца. Мы пока умеем делать только несколько типов клеток — клетки легких, например, не умеем, клетки поджелудочной железы получаются незрелыми. Повторю: мы и десятой доли еще не знаем о том, как работает наше тело. У нас еще все впереди.

— Но если мы так мало знаем, как работают эти клетки... Вдруг они начнут размножаться как раковая опухоль?

— Во время производства ИПСК возникают мутации. Но мы используем новейшие технологии секвенирования, чтобы прочесть их геном, отследить вредные мутации и выбрать только безопасные клетки. Семь лет назад, когда мы начинали, риск таких мутаций был очень высок, но технология быстро совершенствуется, и риск мутаций уже намного меньше. Он еще не нулевой (да так и не бывает), но мы уже вплотную подошли к стадии клинических испытаний.

— Пересадкой ИПСК можно будет лечить болезни, исправлять мутации?

— Много лабораторий в мире работают над этим, но к клиническим испытаниям пока никто не приступил; зато уже были успешные эксперименты над животными. В теории, все должно сработать, но пока все это дойдет до клиник, еще 10 лет испытаний пройдет.

— А пока это единственный метод, позволяющий нам самим создавать нужные клетки?

— Нет, зато самый простой на сегодняшний день. Но все время появляется что-то новое — вероятно, на смену этому методу придут другие. В идеале, нам нужно научиться делать так, чтоб не мы пересаживали такие клетки в организм, а он сам их производил, лечил и омолаживал себя, когда нужно. Я мечтаю об этом.

Геном человека до сих пор не прочитан

Но все-таки огромное большинство людей, связанных с биоинформатикой, занимается не перепрограммированием геномов, а их расшифровкой и анализом. Об этом мы разговорились с Аллой Лапидус, замдиректора Лаборатории алгоритмической биологии Академического университета РАН, созданной в 2011 году в рамках программы мегагрантов.

— Наша задача — создание инструментов, то есть программ, с помощью которых врачи и биологи будут анализировать геном, — рассказывает Алла. — Они сейчас очень нужны, потому что количество производимых данных просто невероятно. Расшифровка только той небольшой части генома человека, которая кодирует белки, дает нам полтерабайта данных. И это только исходные данные, необходимые хоть для какого-то анализа реального пациента, — с ними еще ничего не делали. Представляете, какой нужен объем для хранения данных клиническому центру, в который приходят 3–4 тысячи пациентов?

В результате на сегодняшний день расшифровать ДНК куда дешевле, чем хранить информацию об этом. Не анализировать, а просто хранить! Поэтому IT-люди учатся новым методам сжатия, а главное — сборки информации.

— А сколько места занимает полная расшифровка всего генома?

— Вообще-то полностью геном человека до сих пор не прочитан . Может быть, есть коммерческие расшифровки, которые не выложены в открытый доступ. В каждой хромосоме есть много идентичных областей. Букв генетического кода всего четыре, поэтому, если брать куски шифра небольшой длины, то просто в силу комбинаторики идентичных кусков будет много. А современные методы расшифровки основаны на чтении маленьких кусочков, с последующей реконструкцией всей хромосомы . Из-за этого многие участки, там где много повторов, трудно восстановить. Года три назад Национальный институт здравоохранения США выделил три с половиной миллиона долларов на то, чтобы «закрыть дырки» в геноме человека. Я очень хорошо знаю женщину исключительного таланта, которая получила этот грант — если она не сделает, то не сделает никто. И вот пару месяцев назад вышла новая, официальная сборка человеческого генома, которую они выложили. И она все равно с дырками. Например, у хромосомы есть область в серединке, называется центромера, за которую при делении клетки клеточный аппарат «хватается» и растаскивает хромосомы в дочерние клетки. Эту область окружает огромное количество повторов. Очень много повторов и на концах хромосом — если эти концы будут торчать, их начнет съедать специальный фермент, поэтому края заворачиваются для защиты. Этот закрученный край, называющийся теломера , тоже целиком состоит из повторов. Разобрать эти куски современными методами невозможно, поэтому они не расшифрованы. Постепенно методы позволяют читать разом все более длинные куски ДНК, — с развитием таких методов мы, наконец прочтем весь геном.

Это утверждение может показаться парадоксальным в свете утверждений уже почти пятнадцатилетней давности, что он наконец-то прочитан: «Геном человека: как это было и как это будет» [10]. Понять, в чем тут дело, и какие подводные камни попадаются в решении как технических, так и концептуальных вопросов, можно из статьи «Код жизни: прочесть не значит понять» [11]. — Ред.

Хромосомные кончики стоят того, чтобы их изучать. По крайней мере, за их исследования вручена Нобелевская премия [12]. — Ред.

— А как вообще расшифровывают генетический код?

— Вы многократно прочитываете, определяете структуру одного и того же куска ДНК — многократно, чтобы быть уверенным в качестве данных. Для этого есть специальные приборы — секвенаторы. Они реконструируют маленькие кусочки ДНК — их надо собрать, чтобы реконструировать всю хромосому. Чтобы сделать такую сборку правильной последовательности из разных кусков данных, нужны серьезные математические методы. К сожалению, наша страна довольно сильно отстает в этой области, несмотря на то, что математика — это козырь России. Наших математиков очень уважают на международном рынке, считают, что математика у нас в где-то крови. Кстати, математик Павел Певзнер, директор нашей лаборатории и профессор Калифорнийского университета в Сан-Диего, недавно был признан в США человеком года в биоинформатике. Хотя основной массе сотрудников лаборатории нет еще и тридцати лет.

Одна из первых технологий определения последовательности нуклеотидов в молекулах нуклеиновых кислот «следующего поколения» (NextGen) получила название пиросеквенирование [13]; эта плеяда методик уже почти привела к снижению стоимости секвенирования индивидуального генома до «психологической» отметки в $1000 [14] и широко применяется в исследованиях [15], в том числе — секвенировании геномов единичных клеток [16]. — Ред.

— Какое-то время назад секвенаторы стали стремительно дешеветь, и все кинулись их покупать. Купили, поставили и развели руками: данных слишком много, а что с ними делать — непонятно. Проектов еще мало, народ не очень понимает, с чем это едят. Постепенно учатся, — с помощью биоинформатики появляется возможность что-то с этими данными делать. Сейчас такое же удешевление происходит и в области методов секвенирования белков. Для этого применяют масс-спектромеры — дорогие большие инструменты, которые тоже начали дешеветь, но в клинику не движутся, потому что врачам нечем обрабатывать эти данные. Есть кое-какие программы, созданные в университетах, но ими врачи пользоваться не могут — они слишком сложные и требуют специальных математических знаний. Мне один врач сказал: «ничего из этого я использовать не буду, пока у меня не будет кнопки, на которую я нажму, а в окошке появится идентификационный номер моего пациента и каким лекарством в какой дозировке его лечить».

Геном, транскриптом, протеом

— Анализа ДНК недостаточно, нужны еще и белки?

— Конечно, геномика позволяет узнать изменения и поломки в геноме, а значит, и причины связанных с ними болезней человека. Но отследив лишь изменения в геноме, вы мало что можете узнать. Ну, нашли вы точку в геноме, которая изменилась, но что эта мутация значит, каким образом она меняет работу организма? Подавляет она синтез белка или наоборот, интенсифицирует? Такие вещи нужно смотреть не на уровне ДНК, а на уровне РНК — потому что количество того белка, которое вырабатывается, определяется уровнем РНК. Знаете основную догму биологии — с ДНК считывается РНК, и уже с РНК — белок? Количество молекул РНК, произведенных каждым геном, показывает, насколько активен этот ген, сколько белка он производит. Информация обо всех РНК организма, показывающая, насколько активно работают его гены, называется транскриптомом , это следующий этап анализа после генома.

В последнее десятилетие в биологию проникла, и, кажется, уже не собирается ее покидать, парадигма «больших данных», отлившаяся в здании наук о жизни в концепцию «-омик» (геномики, транскриптомики, протеомики, метаболомики и т.д.) — подхода, анализирующего явления молекулярной биологии на системном уровне с помощью современных высокопроизводительных экспериментов и биоинформатики, занимающейся обработкой этих данных: «„Омики“ — эпоха большой биологии» [17]. Биологи верят, что с помощью такого системного подхода можно будет не только приблизиться с разгадке тайны жизни, но и, например, вылечить рак [18]. Будем надеяться, что они не слишком оптимистичны. — Ред.

— И транскриптом тоже нужен не только ученым, но и врачам?

— На основании данных транскриптомики врач может выписать лекарство, восстанавливающее уровень вещества, если он упал из-за мутации, или наоборот, тормозящее производство того вещества, если ген стал слишком активен, — например щитовидная железа при разных типах нарушений может производить слишком много или слишком мало своего гормона.

А третий этап анализа — это протеом, то есть совокупность всех белков, присутствующих в организме. Нужно посмотреть, где и в каких количествах эти белки находятся — там, где им положено, или в местах, где их никто не ждет и они никому не нужны.

— То есть, помимо данных расшифровки генома, которые и так хранить негде, современным клиникам нужны еще данные о транскриптоме и протеоме?

— Именно. Каждый из этапов дает очень много данных, и нет возможности сложить все эти данные вместе и хранить их. Это сейчас существенно тормозит развитие персонализированной медицины. Нужен комплексный подход в анализе человеческого организма, и нужны компьютерные продукты, которые помогут этот анализ проводить. Поэтому мы, биологи, вступили в естественный альянс с математиками, научились слушать IT-людей, а они — нас . Для начала мы занялись сборкой геномов микроорганизмов и выпустили программу для их анализа. Этому инструменту два года, и его уже используют тысячи лабораторий по всему миру.

Видимо, этот альянс установился надолго. В науке уже довольно прочно укоренилось понятие «сухой биологии» [19], фактически обозначающее биоинформатику, которая не занимается получением данных самостоятельно (это происходит в «мокрых» экспериментальных лабораториях), а анализирует данные, получаемые другими исследователями во все ускоряющемся темпе. В этой связи встает также вопрос стандартизации публикации экспериментальных данных в машиночитаемой форме и принцип открытого доступа к такого рода информации. Ну а биоинформатика уже de facto стала одной из популярных биологических специальностей, и в России с ней, к слову сказать, не так уж и плохо: «Я б в биоинформатики пошёл, пусть меня научат!» [20]. — Ред.

— Для микроорганизмов вроде кишечной палочки?

— Да, для любых бактерий. С кишечной палочкой все просто: сливаете в банку разные полезные для нее вещества, сажаете ее туда и утром у вас нарастает много материала. А многие микроорганизмы, которые живут в нашем теле некультивируемые: их невозможно вырастить в лаборатории. Так вот таких организмов подавляющее большинство — на сегодня мы умеем выращивать не больше 5–6% микроорганизмов. И вот нам надо просеквенировать сразу всю эту кучу живущих внутри нас микроорганизмов — это называется метагеномика, — и возникает задача вычленить каждого «жителя» в этом сообществе. Современные технологии позволяют растащить все эти клетки, оставив одну-единственную. Но в одной клетке очень мало ДНК — нужно ее как-то размножить, сделать так, чтобы ее стало больше, а потом секвенировать и собрать все нужные данные.

— Для чего это делают?

— Допустим, вам сделали операцию, а потом возник воспалительный процесс, или вы неправильно питаетесь, и начинается заболевание из-за изменений микроорганизмов желудочно-кишечного тракта. Или вот есть дети с аутизмом — уже показано, что население их желудочно-кишечного тракта сильно отличается от нормы: у всех аутичных детей есть проблемы с желудком. Изучают, что здесь первично, а что вторично — болезнь вызывает эти изменения или они становятся причиной болезни (например, если какой-то микроорганизм выделяет токсины, влияющие на мозг). Ведь есть болезни, которые вызывает микрофлора, а есть такие, которые приводят к изменениям микрофлоры, и по этим изменениям их можно диагностировать.

—А чем вы занимаетесь сейчас?

— Недавно мы создали инструмент для Лаборатории эволюционной геномики Алексея Кондрашова в МГУ, тоже выигравшей мегагрант. У них возникла задача делать сборку генома для диплоидных грибов, — то есть для таких, у которых в клетках по два ядра и двойной набор хромосом. Им тоже нечем было обрабатывать данные. Недавно мы представляли сделанный для них инструмент на конференции в США.

Думаем и над медицинскими приложениями. Обычно для медицинских целей нам не нужно собирать весь геном человека. Нас интересует какая-то область генома — одной точечной мутации чаще всего не достаточно, чтобы объяснить заболевание. Берутся определенные данные — исходя из области вашего интереса, — и программа осуществляет локальную сборку участков генома.

Все время возникают новые задачи, связанные с необходимостью секвенировать геномы различных организмов — для разных грибов или животных нужны свои подходы. Но в итоге мы хотим сделать универсальный инструмент, подходящий для любых организмов, или близкий к этому.

Клетка вместо атома

Оказывается, в МФТИ, цитадели российской физики, теперь тоже вовсю занимаются биологией: в прошлом году был создан факультет биологической и медицинской физики, заработали геномный центр и центр клеточных технологий, заканчивается строительства корпуса для биофармкластера «Северный», открыт Центр живых систем МФТИ, который будет внедрять достижения физиков практику биологов и медиков. На конференции ФизтехБио-2014, тоже не обошедшейся без пары нобелевских лауреатов, мы встречаем её организатора, руководителя Центра живых систем профессора Андрея Иващенко.

— Вы же Физтех, а не Биотех! Почему именно живые системы оказались сейчас для вас самым важным делом?

— Просто 21 век — это век изучения живых систем, это мировой мегатренд. Посмотрите публикации Массачусетского технологического института, ведущего физического университета мира, — половина будет в области медицины и живых систем. В 20-м веке у людей в основном получалось изучать неживую природу, а в 21 веке наука развилась достаточно для того, чтобы как следует заняться живой природой. Поэтому то место, которое в 20-м веке занимала физика, теперь заняла биология, да и вообще это разделение больше не актуально. Честно говоря, я уже устал объяснять, почему в физтехе занимаются таблетками. «Вот таблеточники, во что вы превращаете физтех! Вы же физики, вы должны делать ракеты и ядерные бомбы!», — говорят нам. Боюсь признаться, что мы еще собираемся заняться аквакультурой и агротехнологиями — там ведь тоже расцвет биотеха. Я думаю, лет через 20 большая часть сельского хозяйства будет в океане — земли же не хватает, а в океане много воды, много планктона, биомассы намного больше, чем на поверхности земли. Любые белки научатся выращивать в океане — это гораздо дешевле, эффективней и экологичней.

— Но мы-то традиционно сильны в физике и математике! Не получится ли как с конверсией при Горбачеве, когда вместо ракет стали выпускать кастрюли?

— Ракеты мы делаем, просто они отошли на второе место. Физика сейчас очень нужна как фундамент, инструмент химии и биологии. Посмотрите, самые прорывные медицинские центры в мире выросли из естественно-научных университетов. Клиника Джона Хопкинса — тот же физтех, который вырастил у себя медицинский центр. И мы на физтехе собираемся сделать университетский исследовательский госпиталь, который будет обеспечивать трансляцию научных достижений в практику. И кстати, лучший ответ на ваш вопрос о том, что делают физики и математики в биологии — это нобелевский лауреат Майкл Левитт, один из отцов биоинформатики. Он физик по образованию, а Нобелевскую премию в прошлом году получил за работу по моделированию молекул белка, которую Нобелевский комитет долго не мог понять, к чему относить — к химии, биологии или математике.

Прочитать об этом можно в статье «„Виртуальная“ Нобелевская премия по химии (2013)» [21], только нужно иметь в виду, что речь там идет о другой ветви биоинформатики — о структурном моделировании биологических молекул, а не об анализе генетических «текстов». — Ред.

Биоинформатика в четырехмерном мире

Несмотря на зубодробительные подробности, касающиеся его ученых занятий, Майкл Левитт (рис. 3) оказывается очень милым, искренним и расположенным к общению человеком.

— Как получилось, что именно вы получили Нобелевскую премию?

— Ответ на этот вопрос очень простой: мне просто нравилось играться с компьютером. Но в конце 60-х персональных компьютеров не было, и вообще компьютеры были большой редкостью. И я выбрал профессию и лабораторию так, чтобы можно было вволю наиграться.

— И в итоге стали отцом биоинформатики...

— На самом деле, настоящий отец биоинформатики — покойный уже иммунолог Элвин Кабат, который в 70-х написал первые книги о ней.

— А что представляет из себя биоинформатика сегодня?

— Книга жизни написана на языке информатики, и надо заметить, мы пока еще весьма далеки от понимания этой книги. Но сейчас многие ученые вносят свой вклад в её понимание — и как же это интересно! Методы анализа информации в ДНК в общем те же, что и при анализе документов или книг. Вот вы пишите что-нибудь в Ворде, а потом нажимаете кнопку, которая позволяет отследить все внесенные в текст изменения. Ворд запускает алгоритм сравнения нового текста со старым, — тот же алгоритм, который используется для сравнения двух цепочек ДНК. Такие алгоритмы имеют универсальный характер, поэтому можно сказать, что Google, создавая алгоритмы работы с большими данными, больше всех на сегодняшний день сделал для биоинформатики.

Но сейчас количество данных растет даже быстрее, чем способности наших программ обрабатывать их. Это связано с заблуждением многих работающих в этой области людей — о том, что можно просто взять данные и начать их анализировать, не имея никакой модели того объекта или процесса, который породил эти данные. Ну, например, сейчас много разговоров об анализе больших данных в шоппинге — из данных о том, кто что покупает, пытаются делать выводы о том, кто что будет покупать в перспективе. Но тут недостаточно корреляций между цепочками цифр — нужно понять психологию покупателей, построить модель поведения людей. И я думаю, что хороший анализ данных всегда требует создания такой модели поведения изучаемого объекта. Это сложно, и недостаток хороших моделей биологических объектов — очень важная проблема биоинформатики сегодня.

— Биоинформатика — это ведь не только анализ генома?

— Конечно, но сейчас, когда говорят о биоинформатике, чаще всего имеют в виду анализ расшифровки ДНК, то есть длинной одномерной цепочки символов. А я работал совсем в другой области — моделируя большие молекулы, я имел дело с трехмерным пространством, даже с четырехмерным, если учитывать изменения этих молекул во времени . Это область, кстати, более старая — первые работы в ней появились в начале 50-х, а первая расшифровка ДНК — только к 1985. Последние 15 лет именно здесь происходит взрыв исследований, поэтому она у всех на слуху. Но я думаю, самое интересное в биоинформатике будет связано с моделированием жизни организма как целого — то есть таких процессов как старение или эволюция.

Левитт имеет в виду здесь такие алгоритмы как молекулярная динамика («Молекулярная динамика биомолекул. Часть I. История полувековой давности» [22]), одним из основным идеологов которых он и является. — Ред.

— А область 3D-моделирования чем-то напоминает архитектуру, она очень сложна. Легко сравнивать две цепочки символов, и гораздо труднее — два трехмерных объекта. Отличия часто непросто заметить — они, например, похожи на отличия ваших рук от их изображения в зеркале. Вы ведь понимаете, что предмет и его отражение — разные?

Чтобы измерить сходство двух пространственных объектов, нужно сначала построить физические модели этих объектов. Поэтому многим из тех, кто занимается большими данными, очень не хватает понимания реальных объектов, с которыми они имеют дело. Но мыслить о четырехмерном мире гораздо труднее, чем об одномерном.

Любят ли биологи математиков?

— Вы — один из первых, кто пришел в биологию из физики и математики. Сейчас ведь многие так поступают. Не возникает у них трений или непонимания с биологами?

— Это давно происходит — еще в 50-х люди из физики и математики начали приходить в биологию. Уже Джон фон Нейман, математик, стоявший у истоков информатики, очень серьезно интересовался биологией. Я не вижу никакой напряженности между математиками и биологами, но стиль мышления у них действительно разный.

Математическое мышление опирается на небольшое число исходных принципов, аксиом, а мышление биологов опирается на историю. Биология — это же история того, что случилось с генетической информацией на протяжении последних четырех миллиардов лет. Это делает математический и биологический подходы очень разными. Физикам и в голову не может прийти, что скорость света могла меняться с возрастом вселенной, они привыкли к константам. А биология — это история, здесь все меняется со временем.

И еще здесь велика роль случайности — если вернуться в прошлое на машине времени и все повторить, то эта история станет совсем другой из-за множества случайностей. Мы пока очень мало знаем о вероятностных процессах и случайности... Мне кажется в школах нужно меньше изучать все это сложение дробей и прочую теорию цифр, и намного больше — основы статистики: это гораздо важнее! Сегодня для большинства людей вероятность один на тысячу и один на миллион — это примерно одно и то же. Но ведь разница огромна — это как иметь тысячу долларов или миллион долларов. Мне кажется серьезной проблемой, что люди этого не понимают.

В общем, биологам и математикам есть чему поучиться друг у друга, и это здорово! Мне так нравится, кстати, что сейчас столь легко стало учиться благодаря интернету. Вот недавно я заинтересовался теорией графов — и сначала нашел программы, которые мне всё показали, а потом и специалистов с которыми смог обсудить волновавшие меня вопросы. Так прекрасно понять что-то, чего ты раньше не понимал!..

— Мне сказали, что «биология — это физика сегодня» — в смысле центральной и объединяющей роли, которую стала играть биология в науке...

— Биология ведь так прекрасна и полезна! Как мы видим, слышим, думаем, болеем и выздоравливаем — все это биология, и нет науки полезней. И что важно, биология имеет дело с необычайно сложными процессами — допустим, биологические процессы проходят на наноуровне, более мелком, чем тот, с которым имеют дело нано-инженеры. Или вот ученые никак не научатся синтезировать какую-то молекулу, а обычное растение или даже бактерия — умеют! Способности растений к синтезу разных молекул просто поражают меня.

Я тоже думаю, что биология сегодня — это фокус, ключевая область науки. И биология сегодня собирает под своим крылом специалистов из самых разных научных дисциплин. Да и вообще это деление на математику, физику, биологию устарело, — думаю, оно изменится. Оно словно создано ради самозащиты, чтоб отгородиться от остальных — если я математик, то я не должен прислушиваться к химикам. Это же безумие! Это какой-то вид национализма, словно обращать внимание только на высказывания людей с определенным цветом кожи. Специалист в любой области может дать для решения научной проблемы что-то ценное — это как в жизни, каждый в итоге чем-то оказывается полезен. В моей группе работают физики, химики, биологи, математики, компьютерщики — и когда они вместе работают над чем-то, все хотят учиться друг у друга.

— А над чем ваша группа сейчас работает?

— Над несколькими предельно сложными, почти нерешаемыми проблемами — я люблю такие. Например, мы собираем информацию обо всех расшифрованных геномах, всех видах, живущих на планете. Сейчас у нас есть около 20 тысяч геномов. Уже известно около 500 общих для них функций, которые выполняют разные участки этих геномов — и мы пытаемся сравнивать их.

Знаете, эта нобелевская премия — странная штука. Вы вдруг получаете признание не за то, чем занимаетесь, а за то, что делали давным-давно. Поэтому она не приносит так уж много радости — ведь я живу не прошлым, а будущим, и верю, что самое интересное — впереди. Что может быть хуже, чем сказать: «ну все, я закончил, пора и на покой».

Первоначально статья была опубликована в журнале «Русский Репортер» [23].

Литература

Поддержите нас в деле просвещения

Больше Биомолекула рассказывает о биологии и медицине — сейчас у нас на сайте несколько тысяч статей. Если вам нравится наш сайт и вы хотите, чтобы он дальше работал, поддержите нас, пожалуйста, посильной суммой — разово или ежемесячно. Ежемесячные платежи предпочтительнее 😀

Ссылка скопирована в буфер обмена

Жизнь — это компьютер

Жизнь — это компьютер

Автор

Редакторы

Темы

Конкурс «био/мол/текст»-2014

Перепрограммисты

Геном человека до сих пор не прочитан

Геном, транскриптом, протеом

Клетка вместо атома

Биоинформатика в четырехмерном мире

Любят ли биологи математиков?

Литература

Комментарии

Поддержите нас в деле просвещения

Публикация отправлена в дорогую редакцию

Что-то пошло не так. Проверьте ваше интернет-соединение