Снимка: iStock
Точно от тази отправна точка започва разсъждението върху новите резултати на Center for Open Science — мащабен проект, който се опитва да оцени доколко надеждни са изследванията в социалните науки. В една от основните части на инициативата са направени опити да бъдат повторени резултатите от 164 произволно подбрани научни статии чрез използване на нови масиви от данни. Изводът е едновременно трезв и неудобен: 49,3% от повторенията са дали статистически значими резултати в същата посока като първоначалните изследвания; 9,7% са показали противоположна тенденция; а 40,4% не са открили статистически значим ефект.
Тези числа бързо могат да бъдат подредени в драматичен сюжет. Почти половината издържат. Останалите - не. Оттук до заглавия от типа „Половината от социалната наука не може да бъде възпроизведена“ има само една редакторска крачка. Подобни реакции вече се появяват, и то напълно предвидимо. Когато обществото вижда думата „наука“, то очаква сигурност, почти инженерна стабилност, почти лабораторна повторяемост. Но това очакване рядко отчита естеството на самия обект на изследване.
Социалните науки не се занимават с мостове, двигатели или орбитални траектории. Те се опитват да разберат човешко поведение - променливо, контекстуално, често неуловимо, податливо на културна среда, институционални обстоятелства и исторически момент. При такива явления абсолютната повторяемост не просто е трудна; в много случаи тя би била подозрителна. Обществата се променят, хората реагират различно, средата влияе, а измерването само по себе си невинаги е прецизно. Затова и въпросът какъв процент на успешно възпроизвеждане би бил „достатъчно добър“ няма лесен, универсален отговор.
Тъкмо това прави прибързаните присъди толкова проблематични. Има сфери, в които успеваемост под 50% би била катастрофа - например при управлението на въздушното движение, строителството на мостове или подбора на ядливи гъби. Но има и други области, в които далеч по-нисък процент на попадения е не просто приемлив, а дори печеливш. Парадоксът е, че стойността на едно число зависи изцяло от контекста, в който е поставено. Ако изследваш сложни човешки реакции, при които сигналът често е слаб, шумът - висок, а условията - нестабилни, тогава близо 50% може да означава не срив, а трудна, несъвършена, но реална способност за улавяне на закономерности.
Разбира се, това не означава, че проблем няма. Напротив. Подобен резултат е силен сигнал, че никой не трябва да надценява единично изследване само защото е публикувано в реномирано списание. Той подсказва, че потребителите на научна информация - журналисти, политици, мениджъри, консултанти, инвеститори и всички останали - трябва да бъдат по-предпазливи, когато превръщат един отделен резултат в окончателна истина. Но едно е да приемеш, че в системата има прекомерна увереност; друго е да обявиш цялото начинание за съмнително.
Съоснователят и изпълнителен директор на Center for Open Science Брайън Носек поставя именно този нюанс в центъра на разговора. Според него няма една-единствена „оптимална“ стойност на възпроизводимостта. Много зависи от това колко важно е очакването да бъде правилно. Ако става дума за образователна интервенция, която ще се приложи в училища, тогава е нужна висока степен на увереност, че резултатът е възпроизводим. Ако обаче едно изследване само подсказва интересна възможност, която заслужава допълнително проучване, тогава ниската увереност не е непременно проблем на този етап. С други думи, науката не винаги произвежда готови решения; често тя само маркира посоки, които по-късно трябва да бъдат потвърдени, доразвити или отхвърлени.
Това разграничение е от решаващо значение, защото публичният дебат често смесва различни роли на научното знание. Част от изследванията имат експлораторен характер - те търсят възможни зависимости. Други са предназначени да послужат като основа за конкретни политики, терапии или управленски решения. Когато и двата типа се четат с еднакви очаквания за сигурност, разочарованието става неизбежно. Не всяка статия трябва да бъде приемана като окончателен съд. Проблемът започва, когато академичната публикация започне да се продава публично именно по този начин.
И тук идва по-широката културна критика. Първите десетилетия на XXI век бяха златна ера на журналистиката от типа „изследвания показват“. Научни статии се превръщаха в заглавия, TED лекции, бестселъри и корпоративни рецепти. Един експеримент можеше да породи цяла вълна от популярни обяснения за успеха, мотивацията, лидерството, щастието или потребителското поведение. Част от тези идеи с времето остаряха зле. Някои се оказаха преувеличени, други - методологично слаби, трети — невъзпроизводими. Но вината не е само в учените. Огромна роля изигра и гладът на медиите, бизнеса и публиката за прости, продаваеми, категорични послания.
В този смисъл най-големият проблем може би не е самата несигурност на изследванията, а надценяването на тяхната сигурност. Носек формулира това с една дума: свръхувереност. Склонни сме да се държим така, сякаш публикуваният резултат вече е надеждно потвърден, без действително да сме оценили колко устойчив е той. Оттук идва и същинският урок от проекта: не че социалната наука е безполезна, а че към нея трябва да се подхожда с дисциплинирана скромност.
Самият проект SCORE не се изчерпва само с повторенията. Той включва и оценки на възпроизводимост в по-тесен смисъл - тоест дали анализът дава същите резултати върху същите данни - както и на устойчивост, при която се проверява какво става, ако върху едни и същи данни се приложат различни аналитични подходи. Данните от различните дисциплини не показват драматично различна картина. Психологията, която често е била поставяна на подсъдимата скамейка през последните години, не изглежда съществено по-зле от икономиката или политологията. Това само по себе си е важна корекция на популярния разказ, според който именно тя е „провалената“ област.
Иронията е, че именно кризите в психологията помагат за раждането на по-сериозно движение за научна прозрачност. Скандалите около фалшиви или съмнителни резултати, както и влиянието на текстове като „False-Positive Psychology“, насочват вниманието към опасностите от неразкрита гъвкавост в събирането и анализа на данни. Тази среда създава и институционален натиск за по-добри практики - предварителна регистрация на хипотези, по-отворени данни, по-строги методологични стандарти и по-голяма готовност за проверка. С други думи, кризата не само разобличава слабостите, но и принуждава системата да се самокоригира.
Интересен е и друг резултат от проекта: когато хора в организирани формати оценяват кои изследвания вероятно ще се възпроизведат, те се справят по-добре от използваните машинни методи. Пазар за прогнози успява да предвиди правилно около три четвърти от повторенията, а структурираната групова дискусия — около две трети. Това подсказва, че човешката преценка, когато е дисциплинирана и колективно подредена, все още има предимство пред автоматичните системи. В бъдеще изкуственият интелект вероятно ще напредне в тази посока, особено с новите данни и инструменти, но засега машините не изглеждат като магическото решение на проблема с научната надеждност.
В крайна сметка този дебат не трябва да води нито до цинично отхвърляне на социалните науки, нито до наивна защита на статуквото. По-полезният извод е по-труден, защото изисква интелектуална дисциплина: научното знание, особено когато се занимава с хора, често е вероятностно, а не окончателно. Това не го прави безполезно. Прави го по-взискателно за употреба.
Да бъдеш прав по-малко от половината време може да изглежда недостатъчно, ако очакваш света да бъде прост. Но когато предметът на изследване е човешкото поведение, а самата реалност непрекъснато се измества, подобен резултат може да означава не провал, а честно измерване на границите на знанието. И именно тази честност може да се окаже по-ценна от всяка фалшива сигурност.
*Материалът е с аналитичен характер и не е съвет за покупка или продажба на финансовите пазари.
| Валута | Цена | Δ% |
|---|---|---|
| EURUSD | 1.17 | ▲0.10% |
| USDJPY | 159.73 | ▲0.03% |
| GBPUSD | 1.34 | ▲0.25% |
| USDCHF | 0.79 | ▼0.29% |
| USDCAD | 1.38 | ▼0.21% |
| Референтен индекс | Цена | Δ% |
|---|---|---|
| Dow 30 | 47 879.50 | ▲0.54% |
| S&P 500 | 6 814.25 | ▲0.47% |
| Nasdaq 100 | 25 108.40 | ▲0.52% |
| DAX 30 | 23 761.90 | ▼0.87% |
| Криптовалута | Цена | Δ% |
|---|---|---|
| Bitcoin | 70 722.20 | ▼0.05% |
| Ethereum | 2 188.64 | ▼0.16% |
| Ripple | 1.33 | ▲0.31% |
| Фючърс | Цена | Δ% |
|---|---|---|
| Петрол - лек суров | 96.00 | ▼8.38% |
| Петрол - брент | 102.90 | ▲9.12% |
| Злато | 4 716.18 | ▲1.02% |
| Сребро | 25.68 | ▲1.17% |
| Пшеница | 580.88 | ▲1.78% |
| Срочност | Цена | Δ% |
|---|---|---|
| US 10 Year | 110.92 | ▲0.16% |
| Germany Bund 10 Year | 124.94 | ▼0.14% |
| UK Long Gilt Future | 88.09 | ▼0.42% |