Наука не сломана

Просто она гораздо сложнее, чем нам кажется

иллюстрация от SHOUT

Если вы следите за новостями, то в последнее время ваша уверенность в науке могла заметно пострадать. Рецензирование? Скорее саморецензирование. Проведенное в ноябре 2015 года расследование раскрыло аферу, в результате которой исследователи печатали свои собственные работы в обход официального механизма рецензирования в пяти известных научных издательствах. Научные журналы? Тот еще знак качества: например, недавно International Journal of Advanced Computer Technology одобрил публикацию статьи под заголовком «Уберите меня нахрен из вашего листа рассылки», текст которой состоит только из этих семи слов, повторяющихся снова и снова на протяжении 10 страниц. Еще два журнала опубликовали статью «Нечеткие гомогенные конфигурации» за авторством Мэгги Симпсон и Эдны Крабаппл. Революционные открытия? Возможно, сфабрикованы. В мае 2015 года два магистранта из Калифорнийского университета в Беркли обнаружили ошибки во влиятельной статье Майкла Лакура, говорящей о том, что личный разговор с геем может изменить отношение человека к однополым бракам. Вскоре после этого журнал Science отозвал упомянутую статью, потому что соавтор Лакура не смог найти исходные данные.

Вместе взятые, подобные заголовки наводят на мысль, что наука – это сомнительное предприятие, которое только и делает, что выплевывает заумную чепуху. Но я провел месяцы, изучая проблемы, терзающие науку, и пришел к выводу, что громким случаям нарушений и обмана уделяется несоразмерно много внимания. С наукой всё в порядке, но ее мучает всеобъемлющая проблема:

Наука трудна, просто чертовски трудна!

Если мы собираемся полагаться на науку как на средство получения истины – а это все еще лучший инструмент, который у нас есть – важно понимать, насколько трудно получить достоверный результат. Я мог бы долго разглагольствовать обо всех причинах, по которым наука – тяжкое занятие, но вместо этого просто дам вам почувствовать одну из таких трудностей на своей шкуре. Итак, добро пожаловать в дикий мир подгонки показателя p!

Если вы подгоняли данные до тех пор, пока не доказали, что демократы хорошо влияют на экономку, поздравляю! Идите голосовать за Хиллари Клинтон с чувством выполненного долга. Но не вздумайте хвастаться этим перед своими друзьями: то же самое можно было доказать и для республиканцев.

В нашем интерактивном примере данные можно сужать и расширять, подгоняя p, чтобы представить какую-нибудь гипотезу «верной». Сделать это несложно, потому что ответ даже на простой научный вопрос – какая партия коррелирует с экономическим успехом – требует принятия множества решений, каждое из которых может повлиять на результат. Это не означает, что наука недостоверна. Это означает, что наука – бо́льшее испытание, чем кажется на первый взгляд.

Вопрос о том, какая политическая партия лучше влияет на экономику, выглядит очень простым. Но, как видите, получить желаемый результат гораздо проще, чем достоверный. Переменные, которые вы используете для проверки гипотезы, образуют 1800 возможных комбинаций. И 1078 из них дают пригодное для публикации результатов значение p*, но это не означает, что они показывают, какая партия сильно влияет на экономику. Большинство из них говорят не об этом.

Значение p практически ничего не позволяет узнать о надежности доказательств, и, тем не менее, p = 0,05 стало пропуском во многие журналы. «Доминирующим методом [оценки доказательств] служит значение p», – говорит Майкл Эванс, статистик из Университета Торонто, «однако хорошо известно, что p работает не очень хорошо».

Чрезмерное увлечение научных работников показателем p привело к тому, что один журнал решил, что с него хватит. В феврале «Basic and Applied Social Psychology» заявил, что больше не будет публиковать значения p. «Мы полагаем, что преодолеть планку p < 0,05 слишком просто, и это иногда служит оправданием для низкокачественного исследования», – написали редакторы в своем сообщении. Вместо значений p журнал будет требовать «сильную описательную статистику, включая величину эффекта».

В конце концов, на самом деле ученые хотят знать, верна ли их гипотеза и насколько надежны выводы. «Значение p совершенно не подходит для ответа на эти вопросы», – говорит Регина Нуззо, статистик и журналист из Вашингтона, написавшая в прошлом году о проблеме p в Nature. Значение p лучше считать показателем неожиданности. Насколько неожиданны были бы эти результаты при допущении, что гипотеза неверна?

Когда вы манипулировали переменными в упражнении с подгонкой p и получали нужный результат, вы злоупотребляли тем, что психологи Ури Симонсон, Джозеф Симмонс и Лиф Нельсон называют «степенями свободы исследователя». Речь идет о решениях, которые ученые принимают в ходе проведения исследования. Например, они выбирают, какие наблюдения регистрировать, какие сравнивать, какие факторы нужно контролировать или, в вашем случае, что использовать для оценки состояния экономики – уровень занятости или инфляцию (или и то, и другое). Ученые нередко принимают подобные решения уже в процессе исследования; и при этом не существует очевидно правильного пути, которому нужно следовать, поэтому возникает искушение пробовать разные варианты до тех пор, пока не получится желаемый результат.

Исследователи, занимающиеся подобным – а делают это практически все, как сказал мне Симонсон – обычно не мошенничают, и даже не собираются. Они становятся жертвами природной склонности человека к предвзятости, которая побуждает их проводить исследование так, чтобы получить ложноположительный результат.

Так как публикация новых результатов сулит весьма ощутимые бонусы: постоянный контракт преподавателя или участие в интересных проектах, – есть сильный стимул подгонять p. И действительно, когда Симонсон проанализировал распределение значений p в опубликованных статьях по психологии, он выяснил, что эти значения подозрительно концентрируются вокруг 0,05. «Каждый подгонял значение p, хотя бы чуть-чуть», – сообщил мне Симонсон.

Но из этого вовсе не следует, что ученые представляют собой кучку жуликов вроде Лакура. Все они просто люди: подгонка p и аналогичные манипуляции часто совершаются из-за естественной человеческой предвзятости. «Вы можете делать это неосознанно – я делал это неосознанно», – утверждает Симонсон. «Вы на самом деле верите в свою гипотезу, получаете данные, и в том, как их анализировать, существует неопределенность». Если первый метод анализа не приносит желаемого результата, вы продолжаете перебирать методы до тех пор, пока не найдете такой, который это сделает (А если и это не сработает, то всегда можно вернуться к выдвижению гипотез и подогнать их под уже известный результат).

Подобные незаметные манипуляции (да и более заметные тоже) были обнаружены в стольких работах, что Джон Иоаннидис, профессор медицины и статистики Стэнфордского университета, в своей знаменитой статье 2005 г. заключил, что большинство результатов опубликованных исследований ложны. «Провести хорошее исследование по-настоящему трудно» – рассказал он мне, признавшись, что тоже публиковал некорректные данные. «Есть очень много потенциальных систематических ошибок, заблуждений и проблем, которые могут помешать получению надежного, заслуживающего доверия результата». Даже несмотря на это заключение, Иоаннидис не отрёкся от науки. Вместо этого он поклялся защищать ее.

иллюстрация от SHOUT

Подгонку значения p обычно рассматривают как мошенничество, но что, если вместо этого мы сделаем её обязательной? Если цель исследований заключается в расширении границ знания, то, возможно, игра с разными методами не должна считаться грязным обманом, а, наоборот, поощряться как способ изучения границ. Недавний проект, возглавляемый Брайан Носек, основателем некоммерческого Центра открытой науки, предложил хитрый способ сделать это.

Команда Носека приглашала исследователей принять участие в коллективном проекте по анализу данных. Идея была простой. Всем участникам давали один и тот же набор данных и вопрос: показывают ли футбольные судьи больше красных карточек темнокожим игрокам, чем светлокожим? Перед тем, как погрузиться в анализ, их просили показать свой аналитический подход другим группам для получения обратной связи.

Участие приняли 29 групп, включавших в общей сложности 61 аналитика. Исследователи использовали самые разнообразные методы, варьировавшиеся (для тех, кто интересуется методологической жестью) от простой линейной регрессии до сложных многоуровневых регрессий и байесовских подходов. Они также принимали абсолютно разные решения относительно того, какие из вторичных переменных включать в анализ.

Несмотря на то, что все анализировали одни и те же данные, исследователи получили целый спектр результатов. 20 групп заключили, что судьи предъявляют больше красных карточек темнокожим игрокам, а 9 не обнаружили значимой связи между цветом кожи и красными карточками.

Вариативность результатов объясняется вовсе не мошенничеством или неаккуратной работой.. «Это были высококвалифицированные аналитики, мотивированные на поиск истины», – сказал Эрик Луис Ульманн, психолог из Бизнес-школы Insead в Сингапуре и один из лидеров проекта. Даже наиболее опытные исследователи должны принимать субъективные решения, которые оказывают громадное воздействие на результат, который они обнаружат.

Однако эти в корне различающиеся результаты не означают, что исследования не могут хотя бы чуточку приблизить нас к истине. «С одной стороны, наше исследовании показало, что результаты сильно зависят от аналитических решений», – сказал мне Ульманн. «С другой стороны, оно наводит на мысль: в этом что-то есть. Глядя на представленные данные очень трудно утверждать, что у судей нет предубеждений по отношению к темнокожим игрокам». Схожим образом, какие бы данные вы ни выбрали для исследования политики и экономики, полученные эффекты будут крайне слабыми. Это наводит на мысль, что если и есть связь между количеством демократов или республиканцев в правительстве и состоянием экономики, то она не так уж сильна.

Важный урок здесь состоит в том, что единичного анализа недостаточно для того, чтобы найти окончательный ответ. Каждый результат – это лишь временная истина, которая еще подвергнется изменениям после того как кто-то другой снова преуспеет в построении, проверке и анализе этой же информации.

Науку делает такой сильной то, что она самостоятельно корректируется: разумеется, ложные результаты публикуются, но в конце концов новым исследованиям удается их опровергнуть, и нам открывается истина. По меньшей мере предполагается, что наука работает именно так. Но когда речь заходит о самокоррекции, то с ней в научных публикациях до недавних пор всё обстояло довольно плохо. В 2010 г. Иван Орански, врач и шеф-редактор портала MedPage Today, вместе с Адамом Маркусом, ответственным редактором Gastroenterology & Endoscopy News and Anesthesiology News, запустили блог под названием Retraction Watch. Эти двое познакомились благодаря своей работе и стали дружить, освещая дело против Скотта Ройбена – анестезиолога, который в 2009 г. был уличен в подделке данных как минимум в 21 исследовании.

Первый пост в Retraction Watch был озаглавлен «Зачем писать блог об опровержениях?». Пять лет спустя ответ кажется очевидным: потому что без согласованных усилий по привлечению внимания к проблеме никто не заметит, что что-то вообще было не так. «Я полагал, что мы будем делать по посту в месяц»,– сказал мне Маркус. «Не думаю, что кто-то из нас предполагал, что их будет два или три в день». Но после того, как вышло интервью на общественном радио, и другие СМИ обратили внимание на рассказ в блоге о Марке Хаузере, психологе из Гарварда, пойманном на подделке данных, подсказки посыпались, как из рога изобилия. «Стало ясно, что в научном сообществе есть очень много людей, разочарованных тем, как сейчас поступают с обнаруженными нарушениями, и они очень быстро нас нашли», – заметил Орански. Сейчас сайт имеет 125 000 уникальных просмотров каждый месяц.

Хотя этот ресурс по-прежнему фокусируется на опровержениях и исправлениях статей, он также освещает более широкий спектр нарушений и ошибок. Важнее всего то, что «это платформа, где люди могут обсуждать и раскрывать случаи подделки данных», – говорит Даниэл Фанелли, старший научный сотрудник Стэнфордского инновационного центра метаисследований. Благодаря наводкам читателей, на сайт хлынула волна контента, и на проект теперь работают несколько штатных сотрудников; благодаря гранту в 400 000 долларов от MacArthur Foundation строится всеобъемлющая база данных опровергнутых публикаций.

Маркус и Орански настаивают: опровержения не должны автоматически рассматриваться как пятно на репутации науки, – наоборот, они сигнализируют о том, что наука исправляет свои ошибки.

Удаление статей происходит по множеству причин, но самые частые из них, как сказал мне Маркус, – это плагиат и манипуляции с изображениями (например, редактирование изображений, полученных путём микроскопии или электофореза, чтобы показать желаемый результат). Несмотря на то, что явная подделка встречается относительно редко, большинство ошибок нельзя отнести к добросовестным заблуждениям. Проведя в 2012 г. в Вашингтонском университете исследование, микробиолог Феррик Фанг и его коллеги пришли к выводу, что две трети опровергнутых статей содержали умышленные нарушения.

С 2001 по 2009 гг. число отозванных публикаций и опровержений в научной литературе возросло десятикратно. До сих пор продолжаются споры о том, чем это объясняется: тем, что нарушений становится всё больше, или тем, что их становится проще обнаруживать и искоренять. Исходя из своего опыта редактором журнала, Фанг подозревает, что нарушений действительно стало больше. Но не все разделяют его уверенность. «Легко продемонстрировать – я это делал – что рост количества опровержений полностью объясняется всё большим количеством журналов, отзывающих статьи», – считает Фанелли. Однако даже несмотря на увеличение числа отозванных публикаций, в год отзывают менее 0,02% статей.

Предполагается, что рецензирование должно предохранять от низкопробной науки, но в ноябре Орански, Маркус и Кэт Фергюсон, являвшаяся на тот момент штатным корреспондентом Retraction Watch, раскрыли кружок нечестных рецензентов: состоящие в нем авторы эксплуатировали изъяны компьютерных систем издателей, что давало им возможность рецензировать свои собственные статьи и рукописи близких коллег.

Но даже честные эксперты-рецензенты пропускают множество ошибок. Эндрю Викерс, редактор-статистик в журнале European Urology и биостатистик в Мемориальном онкологическом центре Слоуна и Кеттеринга, несколько лет назад решил создать руководство для авторов, в котором будут описаны распространенные статистические ошибки и даны рекомендации о том, как их избегать. Готовясь составить спис Викерс и некоторые его коллеги обратились к рукописям, уже опубликованным в их журнале. «Нам пришлось просмотреть примерно 17 статей, прежде чем мы нашли одну без ошибок», – сказал он мне. Его журнал не единственный: подобные проблемы обнаружились, по словам Викерса, в журналах по анестезии, боли, детским болезням и множеству других тем.

Многие рецензенты просто не проверяют в рукописи разделы «Методы» и «Статистика». Артур Каплан, специалист по медицинской этике в Нью-Йоркском университете, поведал мне, что отчасти это происходит из-за отсутствия вознаграждения за отнимающее много времени рецензирование.

Некоторые исследования публикуются вообще без рецензирования:так называемые «хищные издатели» наводнили научную литературу журналами, которые фальшивы по своей сути и печатают любого, кто заплатил. Джеффри Беолл, библиотекарь Университета Колорадо в Денвере, составил список более 100 «хищных» издателей журналов. Их издания часто имеют солидно звучащее название, например «Международный журнал передовых химических исследований», и дают возможность разным психам придавать своим ненаучным взглядам вид серьёзных исследований («Уберите меня нахрен из вашего списка рассылки» и статья «Симпсонов» были опубликованы именно в таких журналах).

Хищные журналы процветают отчасти из-за той власти, которую обретает ссылка на публикацию, когда приходит пора искать работу и гранты, побуждая исследователей добавлять в свое резюме как можно больше ссылок на научные публикации.

Однако Интернет меняет способы распространения и обсуждения идей и данных, что может затруднить попытки выдать низкопробные рукописей за хорошую науку. Сегодня, когда публикуется новое исследование, рецензенты готовы обсуждать и критиковать его онлайн. Иногда комментарии сразу размещаются на собственном сайте журнала, а новые проекты, такие как PubMed Commons и PubPeer, имеют форумы для быстрого рецензирования после публикации. Дискуссии о новых публикациях обычно проходят в научных блогах и социальных сетях, что может помочь в распространении сведений о спорных или исправленных результатах.

«В числе прочего мы агитировали ученых, журналы и университеты прекратить делать вид, словно обман – это то, что никогда не происходит», – сказал мне Орански. В науке, также как в бизнесе и политике, есть плохие игроки. «Разница состоит в том, что у науки действительно есть механизм самокоррекции. Но только он не всегда работает». Роль Retraction Watch в качестве сторожевого пса принудила учёных и издателей к большей ответственности. Издатель Journal of Biological Chemistry, так устал от критики Retraction Watch, что нанял менеджера по этике публикаций, чтобы усилить самокоррекцию. Retraction Watch вынес журналам предупреждение: если они попытаются изъять статьи по-тихому, без комментариев, это станет общеизвестным. Дискуссия о недостатках науки стала публичной.

После лавины аннулированных публикаций, историй о мошенниках, ложноположительных результатах и промахах, получивших широкую огласку, некоторые люди начали спрашивать, не сломалась ли наука. Я потратил много месяцев, задавая дюжинам ученых этот вопрос, но ответом было громогласное «нет». Наука не сломана и не потеряла своей благонадёжности. Она просто гораздо сложнее, чем большинство из нас может себе представить. Мы можем тщательно проверять дизайн исследований, требовать более точных статистических и аналитических методов, но это только частично решит проблему. Что сделать науку более надежной, мы должны скорректировать свои представления о ней.

Наука – это не волшебная палочка, которая превращает все, к чему прикасается, в истину. Вместо этого «наука действует как процедура снижения неопределенности», – говорит Носек из Центра открытой науки.

Цель состоит в том, чтобы становиться менее неправыми с течением времени.

Эта концепция фундаментальна: то, что мы знаем сейчас, – это всего лишь наилучшее приближение истины. Мы никогда не сможем утверждать, что знаем истинное положение вещей.

«По умолчанию мы хотим получать яркие результаты» – говорит Иоаннидис, исследователь в области метанауки из Стэнфорда. Люди стремятся что-то доказать, поэтому отрицательный результат не воспринимается, как достижение. Основополагающее исследование Иоаннидиса – одно из многих – обнаружило методологические изъяны, из-за которых учёные сознательно или бессознательно склоняют чашу весов в сторону желаемого результата, однако они объясняют только то, как учёные приходят к ошибочных выводам.. Чтобы добраться до сути проблемы, нужно понять, почему мы так склонны держаться за ложные идеи, а для этого следует рассмотреть кое-что более фундаментальное: кривые дорожки, по которым плутает человеческий ум, формируя убеждения.

Некоторые из этих заблуждений полезны, по меньшей мере в некоторой степени. Возьмем, к примеру, наивный реализм: идею о том, что вы придерживаетесь всех своих убеждений, потому что они истинны. Такой образ мышления практически необходим для занятий наукой – так считает исследователь в области квантовой механики Сет Ллойд из Массачусетского технологического института: «Надо верить, что над чем бы вы ни работали прямо сейчас – это и есть решение; это дает вам энергию и страсть, которые нужны для работы». Однако гипотезы обычно неправильны, и когда результат опровергает любимую идею, исследователь должен сделать выводы из опыта и придерживаться, как Ллойд описал, «оптимистического убеждения : ОК, может быть, эта идея не была правильной, но следующая – будет».

Наука – это замечательно, но она приносит мало плодов. Большинство экспериментов проваливается. Это не значит, что они не стоят затраченных усилий, но и не нужно ждать, что каждый вложенный доллар принесет положительный результат. Большинство идей, которые ты пробуешь, не удаются – такова суть процесса.

Так сказал мне Фэнг. Вместо того, чтобы просто избегать неудач, мы должны добиваться истины.

Все равно, даже перед лицом непреодолимых доказательств, трудно отказаться от дорогой сердцу идеи, особенно от той, на которой ученый построил свою карьеру. И как знает любой, кто пытался бороться с чепухой в Интернете, истина побеждает далеко не сразу, если вообще побеждает, поскольку мы пропускаем новые данные через призму того, что уже знаем. Предвзятость подтверждения может заставить нас не замечать факты; быстро определившись с точкой зрения по какому-либо вопросу, мы неохотно меняем ее перед лицом новых доказательств.

Несколько лет назад Иоаннидис и его коллеги искали в научной литературе ссылки на два хорошо известных эпидемиологических исследования, согласно которым витамин Е может защитить от сердечно-сосудистых заболеваний. За этими двумя испытаниями последовало несколько крупных рандомизированных клинических исследований, не продемонстрировавших никакой пользы от витамина Е и один метаанализ, показавший, что в больших дозах витамин Е, напротив, способен повысить риск смерти.

Несмотря на то, что результаты более тщательно проведённых исследований противоречат исходным выводам, в литературе продолжают цитировать и защищать две первоначальные работы. Ненадежные заявления о способности бета-каротина снижать риск рака и роли эстрогенов в предотвращении деменции также продолжают существовать, несмотря на то, что были опровергнуты более точными исследованиями. Даже когда идея опровергнута, она может ещё долго оставаться частью общепринятого мнения.

Иногда научные идеи продолжают жить вопреки доказательствам, потому что они подсознательно кажутся нам правдивыми и подтверждают то, во что мы уже верим.

Размышлять о возможных объяснениях научных результатов естественно – таким образом мы можем рассмотреть их в контексте наших представлений о мире и оценить, насколько они правдоподобны. Проблема возникает, когда мы настолько влюбляемся в объяснения, что отвергаем аргументы, доказывающие их несостоятельность.

СМИ часто обвиняют в раздувании шумихи вокруг исследований, однако в этом можно уличить и учёных. Возьмем, например, исследование завтраков, опубликованное в 2013 г. Оно проверяло, будут ли те, кто завтракает, весить меньше, чем те, кто пропускает утренний прием пищи, и может ли завтрак служить профилактикой ожирения. Эндрю Браун, исследующий ожирение, и его коллеги обнаружили, что несмотря на то, что СМИ и научные журналы упомянули эту гипотезу более чем 90 раз, доказательства влияния завтрака на массу тела остаются скудными и зависящими от обстоятельств. Тем не менее, исследователи были слепы к этим изъянам, переоценивали качество доказательств и описывали связь между завтраком и ожирением как причинно-следственную. Человеческий мозг готов находить причинность даже там, где ее нет, и учёные не защищены от этого эффекта.

Как и общество, наши рассказы о том, как работает наука, тоже подвержены ошибкам. Обычно мы думаем, что научный метод работает примерно так: задай вопрос, проведи исследование, получи ответ. Однако это крайне упрощенное представление. Гораздо чаще путь к истине выглядит следующим образом: задай вопрос, проведи исследование, получи частичный или неоднозначный ответ, затем проведи еще одно исследование, а затем еще, продолжая проверять потенциальные гипотезы, постепенно приближаясь ко всё более полному ответу. Склонность людей к заблуждениям превращает научный процесс в хаотичные блуждания в странных направлениях, вместо прямой линии от вопроса к истине.

Отзывы о науке в СМИ имеют тенденцию опускать подробности и нюансы, и легко понять почему. Прежде всего, репортеры и редакторы, пишущие о науке, не всегда имеют соответствующую подготовку, чтобы верно интерпретировать исследования. А заголовки, которые гласят «слабое невоспроизведенное исследование обнаружило незначительную связь между определенными овощами и раком» не разлетаются из газетных киосков и не собирают клики так быстро, как заголовки, которые кричат о «продуктах, которые сражаются с раком!».
Люди часто шутят о непредсказуемости заголовков о науке и здоровье в СМИ: сегодня кофе полезен, а завтра его уже называют страшным ядом, – но эти метания отражают саму сущность научного процесса. Влияние питания на здоровье измерить трудно, сказал мне Носек. «Эта вариативность [результатов] возникает потому, что наука трудна». Понимание того, как кофе влияет на здоровье, требует множества исследований и множества доказательств: только с течением времени и в ходе огромного количества научных работ доказательства начнут складываться в хорошо обоснованный вывод. «Варьирование результатов не следует рассматривать как угрозу», – говорит Носек. «Это лишь означает, что ученые работают над трудной проблемой».

Научный метод – не только самый точный, но также самый запутанный и суровый путь к знанию. Наука заслуживает уважения именно потому, что она трудна, а не потому, что делает все правильно с первой попытки.

Неопределенность – неотъемлемая часть науки, но это не означает, что мы не можем использовать науку для выбора стратегии поведения или принятия решений. Это лишь значит, что мы должны действовать осторожно и быть готовыми к смене курса при появлении новых данных. Мы должны принимать наилучшие решения с учетом всей имеющейся информации и стараться не забывать о том, насколько надёжны факты, на которые мы опираемся. Неслучайно каждая хорошая статья содержит фразу «требуется больше исследований», потому что всегда есть что-то, что еще предстоит изучить.

Примечание

*Значение p, меньшее или равное 0,05, считается статистически значимым, по меньшей мере в психологии и биологических науках. В физике и некоторых других областях применяются более строгие пороговые значения.