Мечты о воспроизводимости

28 августа 2015

Мечты о воспроизводимости

2289
1,1
0
1

Добавить в избранное

**Кризис воспроизводимости.** Подобно тому, как полицейские пытаются идентифицировать преступника по фотороботам, составленным на основе описаний разных свидетелей, ученые пытаются проверить справедливость научных утверждений путем точного воспроизведения чужих экспериментов — обычно по методикам, приведенным в статьях. Что в первой, что во второй сферах результат чаще всего бывает обескураживающим.

Рисунок в полном размере.

иллюстрация Елены Беловой

Темы

Каждый день СМИ публикуют множество бодрых новостей о последних открытиях ученых. Однако в научных журналах на удивление часто попадаются пессимистичные заметки о том, что с наукой, несмотря на ее замечательные достижения, что-то не в порядке. В апреле редактор знаменитого медицинского журнала The Lancet написал в своей колонке, что наука ни много ни мало катится во тьму. А в Science недавно опубликовали целый набор статей, посвященных проблемам с воспроизводимостью научных результатов. «Биомолекула» разбирается, что же, по мнению редакторов ведущих научных журналов, идет не так в биомедицинских науках.

11 апреля 2015 г. главный редактор авторитетного медицинского журнала The Lancet Ричард Хортон опубликовал свои впечатления от участия в полусекретном симпозиуме фонда Wellcome Trust [1]. Симпозиум был посвящен воспроизводимости и надежности результатов биомедицинских исследований. Организаторы симпозиума посчитали его материалы такими важными, что участникам запретили фотографировать слайды и упоминать имена докладчиков. Тема действительно была очень деликатной, ведь воспроизводимость результатов — обязательный компонент научного поиска и один из столпов, на котором покоится общественное доверие к науке.

Немного информации о происхождении этого фонда (и сáмого что ни на есть фармацевтического термина «таблоид» заодно) можно найти в рассказе о нобелевском лауреате Генри Дейле, двигавшем «большую науку» в недрах «большой фармы»: «Фармаколог, понявший нейроны: Генри Дейл» [2]. — Ред.

Маленькие выборки, незначительные эффекты, некорректный анализ, частный интерес, желание рассказать красивую историю — обо всём этом говорили докладчики, обсуждая недостатки современного научного сообщества. После симпозиума Хортон написал в редакторской заметке в журнале The Lancet, что биомедицинская наука движется во тьму. К такому пессимизму его привели не только доклады на симпозиуме, но и собственный многолетний опыт редакторской работы в научном журнале. Ему прекрасно известно, какова доля положительных результатов, которые присылают в его журнал для публикации, и как часто в статьях обнаруживаются ошибки в статистических расчетах, некорректные интерпретации или отсутствие важных контролей. Однако редакторы научных журналов работают не зря, и все статьи, которые поступают в хоть сколько-нибудь престижные журналы, проходят проверку рецензентами, так что в печать в итоге проходят преимущественно качественные работы. Кроме того, научное сообщество всегда может проверить результаты своих коллег, когда эксперименты будут повторены в других лабораториях. Это свойство хороших экспериментов — воспроизводимость — оберегает научное сообщество от закрепления ошибочных выводов. Каков же истинный масштаб бедствия, и не слишком ли Ричард Хортон сгущает краски?

К сожалению, с воспроизводимостью биомедицинских исследований дело обстоит не так хорошо, как предполагает идеализированная модель жизни научного сообщества. В 2011 году специалисты компании Bayer попытались воспроизвести результаты нескольких часто цитируемых научных работ, в основном из области исследований рака. Им удалось повторить с теми же результатами, что заявлены в статьях, лишь 14 работ из 67 [3]. Три года назад похожий эксперимент провели сотрудники биомедицинской компании Amgen, взявшись исключительно за статьи, посвященные исследованию рака. Их статистика оказалась еще хуже, чем у Bayer: удалось повторить результаты только шести исследований из 53. По словам представителей компании, низкая воспроизводимость научных результатов, в том числе фундаментальных исследований, ведет к огромным убыткам. Сама компания Amgen, к примеру, ранее потратила значительные усилия на разработку лекарств, нацеленных на белок, связь которого с развитием опухолей им не удалось подтвердить в рамках этого проверочного проекта. Самое печальное, что соглашения о конфиденциальности, заключенные компанией с несколькими лабораториями, не позволяют ее представителям раскрыть даже названия статей, результаты которых они пытались воспроизвести. А детали — насчет того, что именно воспроизвелось, а что нет — и подавно.

Однако всем, кто работал в науке, известно, что у многих экспериментов есть особенности, которые трудно передать словами, а не то что вместить в формат описания метода обычной научной статьи. Многие специалисты годами оттачивают технику эксперимента, которая особенно важна для работы с хрупкими и капризными биологическими объектами. Нет ничего невозможного в том, чтобы подробно описать все действия экспериментатора, но, во-первых, это не будет соответствовать принятому формату описания методов в научных статьях, а во-вторых, на освоение некоторых методик, даже если они будут детально описаны, может потребоваться определенное время. Представители компаний Bayer и Amgen для воспроизведения результатов научных работ пользовались лишь той информацией, что вошла в статьи. Нет ничего удивительного, что многого им повторить не удалось.

Поэтому несколько лет назад биолог Элизабет Айорнс начала еще более амбициозный проект по проверке результатов научных работ в области онкологии — Reproducibility Initiative. Идея заключалась в том, чтобы воспроизвести результаты исследований не просто по методикам, описанным в научных статьях, а с учетом всей дополнительной информации, которую пожелают сообщить авторы работы. Для начала Элизабет Айорнс собрала базу из сотни лабораторий, работающих по контракту, которые были готовы воспроизвести результаты любых научных работ с достаточно подробно описанными методами. Затем она выбрала исследования, которые будут проверены в рамках проекта, и открыто объявила, какие именно работы вошли в список: 50 самых цитируемых статей в области биологии рака, опубликованных с 2010 по 2012 год. Проект получил финансирование от частного фонда Лауры и Джона Арнольд в размере 1,3 миллиона долларов — то есть по 26 тысяч долларов на статью. Этого не хватит на воспроизведение всех результатов выбранных работ, но вполне достаточно, чтобы повторить ключевые эксперименты.

Проект Reproducibility Initiative должен завершиться только к 2017 году, но результаты по воспроизведению первых экспериментов исследователи обещают опубликовать уже этой осенью. По словам Элизабет Айорнс, проект уже выявил ключевую проблему — даже при тесном сотрудничестве авторов исходной статьи и исследователей, пытающихся повторить эксперименты, требуется много усилий на то, чтобы собрать все необходимые данные. Ученым приходилось рыться в старых записях и отыскивать студентов и аспирантов, которые давно покинули лабораторию. По словам одного из участников проекта, в месяц ему приходилось отправлять по 20-30 электронных писем, а на поиск и восстановление некоторых данных ушло в сумме около десяти рабочих дней. Но, как считает Элизабет Айорнс, такие сложности — это не недостаток проекта Reproducibility Initiative, а его достоинство. Ведь и самим ученым, и всем, кто следит за развитием проекта, становится понятно, насколько сложно на самом деле воспроизвести результаты исследования. Это означает, что в системе обмена научными данными необходимо в корне что-то менять.

Участники Reproducibility Initiative полагают, что, собрав достаточно подробностей протоколов, можно воспроизвести любой эксперимент. Но даже сама эта идея у многих вызывает вопросы. Соавтор одной из работ, результаты которой сейчас воспроизводит Reproducibility Initiative, так и говорит: «Вы можете дать мне и Джулии Чайльд [известный повар] один и тот же рецепт, но не можете ожидать, что приготовленные блюда будут одинаково хороши». Элизабет Айорнс отвечает на это, что, если рецепт достаточно подробный, то два квалифицированных повара приготовят по нему одно и то же блюдо. Можно долго спорить о возможностях профессиональных поваров, но в соответствии с современными представлениями о качественной науке двое ученых определенно должны быть способны точно повторить результаты друг друга. Как им можно в этом помочь — вот что должно волновать научное сообщество.

**Рисунок 1. Могут ли разные повара приготовить блюда одинакового качества по одному и тому же рецепту?** Многое здесь зависит не только от мастерства повара, но и от степени проработанности деталей в рецепте. Примерно те же факторы влияют и на воспроизводимость результатов в научном мире. Потому первейшая задача современной науки — организация эффективного обмена экспериментальной информацией. Кризис воспроизводимости и засилье «мутных» результатов можно преодолеть только при условии прозрачности и открытости научных исследований.

рисунки из статьи [9] и с сайта creamelotier.ru

Reproducibility Initiative решила подать хороший пример ученым и публиковать в журнале с открытым доступом eLife подробные протоколы экспериментов еще до того, как они будут поставлены. Такая предварительная публикация планов ученых помогла бы выправить перекос в сторону положительных результатов, который заметен в современных научных журналах. Ведь информация об отрицательных результатах исследований очень важна и для тех, кто планирует будущие эксперименты, и для тех, кто работает над практическим применением полученных наукой данных. Например, если публикуются результаты единственной работы, подтверждающей влияние молекулы X на развитие рака, и складываются в стол двадцать работ, показавших, что связи нет, кто-то, возможно, зря потратит время на разработку лекарств, нацеленных на молекулу X.

Редактор Science Стюарт Бак призывает ученых делать свою работу прозрачной [4]. Если бы все научные данные в каждый момент времени были открытыми и доступными для проверки, осталось бы намного меньше возможностей для ошибок и подтасовок. В этом могут помочь такие платформы, как Open Science Framework и iPython, позволяющие хранить не только сами данные, но и всю историю их изменений, а также действия всех участников проекта. Кроме того, воспроизвести ход своих мыслей с помощью электронного журнала, обладающего функцией быстрого поиска, намного легче, чем с помощью горы бумажных тетрадок с потускневшими фотографиями и пометками, загадочными даже для самих авторов. Платформы Open Science Framework и iPython открытые и бесплатные, создавались они добровольцами, а сейчас их работу поддерживают частные благотворительные фонды.

Наконец, редактор Science Signalling Майкл Яффе прагматично пишет, что текущая ситуация с воспроизводимостью качественно не изменится, пока остается прежней схема финансирования науки [5]. Финансирование большинства исследований жестко ограничено, и ученые вынуждены вести работу только в тех направлениях, которые с наибольшей вероятностью принесут им заветные публикации и надежду получить средства на продолжение исследований. У большинства ученых просто нет ресурсов на то, чтобы отходить чуть в сторону от основного направления и изучать широкий спектр факторов, которые могли повлиять на их результаты. И как следствие, понять, почему именно их результаты потом не воспроизводятся, очень трудно. Тем не менее Майкл Яффе от имени редакции Science Signalling призывает ученых делать хотя бы то, что от них зависит: несмотря на все сложности, следить за качеством своих экспериментов и логикой интерпретации их результатов.

Ричард Хортон завершил свою заметку в The Lancet призывом брать пример с физиков [1]. Принятые у них критерии значимости результатов на порядок более строгие, чем у биологов: в физике элементарных частиц значение p (p-value) не должно быть больше 3×10⁻⁷, тогда как у биологов граничное значение достигает 0,05 . Естественно, что таким мягким статистическим критериям соответствует большее число ложноположительных результатов, которые потом не удается воспроизвести.

Самое главное, что дизайн эксперимента несложно «подогнать» под получение результатов с подобными значениями p, чем усиленно и занимаются многие коллективы (p-хакеры) — некоторые даже без злого умысла. Ведь достучаться до редакций многих рейтинговых журналов без магических p сложно. Однако невоспроизводимость этих значений активно обсуждается в научных изданиях, и очарованность медиков и психологов «золотым стандартом» статистической достоверности постепенно рассеивается. И ничего неожиданного тут нет, если познакомиться с историей вопроса — например, в кратком и забавном изложении проблемы на страницах Nature: Scientific method: statistical errors [6]. Чуть ли не с самого своего рождения этот показатель был превратно понят: введенный Фишером для неформальной прикидки, не случайны ли результаты эксперимента («достойны ли второго взгляда»), с легкой руки авторов мануалов по статистике для экспериментаторов он зажил своей жизнью — «укрепился» гибридизацией с системами Неймана и Пирсона и вдруг обрёл магический смысл на отметке 0,05.
И далее акцент во многих работах ставился на обнаружении эффекта (по величине p), но не на его реальном масштабе и значимости. Как в рекламе: при использовании нашего супершампуня выпадает достоверно меньше волос, чем при применении «обычного». Не важно, что это 1235 против 1257, месяц на месяц не приходится, 50 из 100 тестировавших супершампунь выбыли из эксперимента из-за устойчивого зуда, и стоить новинка будет в 5 раза дороже... Чуть менее утрированно вышло с реальной оценкой семейного счастья по критерию «онлайн- vs. оффлайн-знакомство будущих супругов», разобранной в статье [6]. Потому-то и пытаются сейчас найти альтернативы показателю p. Некоторые от него просто отказываются (как журнал Basic and Applied Social Psychology). А кое-кто предлагает авторам добровольную сертификацию статей в духе «не содержит ГМО»: «p-certified, not p-hacked», что предполагает декларацию: «Мы сообщаем о том, как определяли размер выборок, обо всех случаях исключения данных (если таковые были), обо всех манипуляциях и измерениях в исследовании». В общем, основная мысль критиков p-мании такова: цифры — начало, а не конец и цель разговора [6]. — Ред.

**Рисунок 2. Проблема воспроизводимости.**

иллюстрация Елены Беловой

Свой вклад в улучшение воспроизводимости научных результатов могут внести научные журналы. Nature, к примеру, разработал список из 18 пунктов, где перечислены детали исследования, которые должны описывать авторы статьи, чтобы их эксперименты можно было повторить хотя бы в теории [7]. Кроме этого, после резонансной истории с японскими учеными, опубликовавшими фальсифицированные данные, Nature ввел более жесткий контроль иллюстраций, прилагающихся к статьям (публикация японских биологов начала вызывать подозрения именно из-за несоответствия подписи одному из рисунков) [8]. А комитет за прозрачность и открытость научных исследований, состоящий из ученых, редакторов журналов и сотрудников фондов, спонсирующих науку, недавно разработал для научных журналов шкалу из восьми критериев открытости данных. В список вошли такие пункты, как открытость данных, открытость методов анализа и предварительная регистрация исследования. Для каждого пункта прописаны три уровня строгости: первый уровень открытости предполагает самые низкие требования, а третий — наиболее высокие. Журналам предложено определиться, насколько жестких критериев они придерживаются при отборе работ. Благодаря маркировке всех журналов по такой шкале ученым будет легче определить, насколько заслуживает доверия статья, опубликованная в том или ином издании [9].

Чтобы двигаться к такой важной и далекой цели, как качественная наука, всем причастным к исследованиям и публикации научных данных людям нужно будет объединить усилия и пойти на определенные жертвы. На приведение своих данных в такой порядок, чтобы в них мог разобраться любой человек, ученым придется тратить много времени. Журналам придется задействовать много ресурсов, чтобы соответствовать высоким стандартам качества. Но игра, несомненно, стоит свеч.

Литература

Richard Horton. (2015). Offline: What is medicine's 5 sigma?. The Lancet. 385, 1380;
Фармаколог, понявший нейроны: Генри Дейл;
Jocelyn Kaiser. (2015). The cancer test. Science. 348, 1411-1413;
S. Buck. (2015). Solving reproducibility. Science. 348, 1403-1403;
Michael B. Yaffe. (2015). Reproducibility in science. Sci. Signal.. 8;
Regina Nuzzo. (2014). Scientific method: Statistical errors. Nature. 506, 150-152;
Bruce Alberts, Ralph J. Cicerone, Stephen E. Fienberg, Alexander Kamb, Marcia McNutt, et. al.. (2015). Self-correction in science at work. Science. 348, 1420-1422;
Беляев И. (2015). Харуко Обоката не обжаловала заключение о фальсификации ею работ по созданию STAP-клеток. ТАСС;
B. A. Nosek, G. Alter, G. C. Banks, D. Borsboom, S. D. Bowman, et. al.. (2015). Promoting an open research culture. Science. 348, 1422-1425.

Поддержите нас в деле просвещения

Больше Биомолекула рассказывает о биологии и медицине — сейчас у нас на сайте несколько тысяч статей. Если вам нравится наш сайт и вы хотите, чтобы он дальше работал, поддержите нас, пожалуйста, посильной суммой — разово или ежемесячно. Ежемесячные платежи предпочтительнее 😀

Мечты о воспроизводимости

Мечты о воспроизводимости

Автор

Редакторы

Иллюстратор

Темы

Литература

Комментарии

Поддержите нас в деле просвещения

Мечты о воспроизводимости

Мечты о воспроизводимости

Автор

Редакторы

Иллюстратор

Темы

Литература

Комментарии

Поддержите нас в деле просвещения

Публикация отправлена в дорогую редакцию

Что-то пошло не так. Проверьте ваше интернет-соединение