Racjonalista - Profesor Stapel na dopingu. O upiększaniu psychologii społecznej

Profesor Stapel na dopingu. O upiększaniu psychologii społecznej

Diederik Alexander Stapel uważany był za wzorcowy przykład dobrego naukowca i nauczyciela akademickiego: pracowity, twórczy, aktywny, przychylny wobec studentów i współpracowników, dużo publikujący — budził podziw i uznanie. Od 2010 roku sprawował urząd dziekana Wydziału Nauk Społecznych i Behawioralnych, a rok wcześniej otrzymał od Towarzystwa Eksperymentalnej Psychologii Społecznej (Society of Experimental Social Psychology) prestiżową nagrodę Career Trajectory Award, która przyznawana jest dorocznie tylko jednemu naukowcowi; wcześniej otrzymał ją między innymi Neil Macrae, a później — John Jost. Osoby interesujące się uprawianą przez nich dyscypliną wiedzą, jakiej rangi to są nazwiska. Diederik Stapel był więc uznawany za członka ścisłej elity najwybitniejszych psychologów społecznych.

Pod koniec sierpnia 2011 roku trzej młodzi badacze zgłosili szefowi instytutu psychologii pewnej holenderskiej wyższej uczelni, że podejrzewają pana dziekana o fałszowanie danych. O sprawie błyskawicznie został poinformowany rektor i podjęto adekwatne do wagi sprawy działania. 31 października w sieci ukazał się wstępny raport ^{[ 1 ]} ze śledztwa trzech komitetów, z których jeden został we wrześniu 2011 roku powołany przez rektora Uniwersytetu w Tilburgu, gdzie profesor Stapel pracował w latach 2007-2011, a dwa pozostałe — na Uniwersytetach: w Groningen (2000-2006) i w Amsterdamie (1994-1999). Wynika z niego, że ponad wszelką wątpliwość „pan Stapel" dopuszczał się na przestrzeni wielu lat fałszowania danych, a na podstawie tych nieprawdziwych wyników ukazało się co najmniej trzydzieści recenzowanych publikacji.

Metody jakimi posługiwał się oszust były na tyle skuteczne, że przez długi okres czasu udawało mu się działać bez przeszkód. Postępował na trzy sposoby: albo kompletnie zmyślał dane, albo fabrykował takie powiększenie ich bazy, żeby uzyskać potwierdzenie hipotezy, albo też modyfikował dane — kompletne lub niepełne. Jego działania zazwyczaj rozpoczynały się od bardzo starannego i konsultowanego ze współpracownikami przygotowania badań. Dyskutowano więc nad pomysłem, hipotezami, sposobami operacjonalizacji zmiennych i rodzajem manipulacji eksperymentalnej. Przygotowywano wszelkie materiały, w tym kwestionariusze, słodycze dla uczestników i tym podobne namacalne przejawy prowadzenia badań. Wiele z nich było możliwych do sfinansowania dzięki grantom, które „wybitny" naukowiec bez trudu otrzymywał. Materiały zazwyczaj znajdowały się w bagażniku samochodu Stapla i tam były widziane po raz ostatni. To co następowało później nie miało już nic wspólnego z naukową uczciwością.

Eksperymenty inkryminowany naukowiec przeprowadzał zawsze sam lub z pomocą nieokreślonych asystentów, podobnie sam wprowadzał dane i analizował je. Na pytania, w której szkole zrobił badanie, odpowiadał ogólnikowo i wykrętnie. Danymi w postaci surowej dzielił się niechętnie, sam przeprowadzając obliczenia. Jedynym wyjątkiem były te sytuacje, gdzie wręczał komuś nie przeanalizowane jeszcze — rzekomo z braku czasu — dane z badań przeprowadzonych przed laty, proponując wspólne napisanie artykułu. Niekiedy nawet pozorował realizowanie pomysłów badawczych innych naukowców, zresztą ze znakomitym skutkiem. Staplowi zawsze wychodziły badania — tak to przynajmniej wyglądało na zewnątrz.

Gdyby nie determinacja trzech młodych demaskatorów, to proceder trwałby nadal. Wcześniej trzech innych badaczy próbowało zwrócić uwagę przełożonych, lecz bezskutecznie. Także spostrzeżenia, że „dane są zbyt dobre, aby były prawdziwe" nagłośniane przez profesorów, były uprzednio lekceważone. Czyżby jedynie zbieg okoliczności sprawił, że odważna postawa badaczy, którzy ryzykowali swoją rozpoczynającą się dopiero karierę naukową, doprowadziła do ujawnienia oszustwa? Czy psychologia naukowa - przynajmniej ta holenderska, choć nic nie wskazuje na to, aby w innych krajach sytuacja znacząco się różniła — nie posługuje się mechanizmami, które pozwalałyby wcześnie wykrywać, a najlepiej zapobiegać podobnym niemoralnym zachowaniom? Wreszcie — jakie są przyczyny, dla których ktoś może uznać zmyślanie i deformowanie danych za dopuszczalny, a nawet wartościowy instrument pracy naukowej?

Częściowe odpowiedzi na powyższe pytania znajdujemy w „Raporcie Dotyczącym Złamania Uczciwości Naukowej Popełnionego przez prof. D.A. Stapla". Mowa w nim o „porażce racjonalnego, systematycznego, rzeczowego, metodologicznego i publicznego krytycyzmu, który stanowi kamień węgielny nauki" (s. 11). Nastąpiła ona w wyniku wyłącznie bilateralnych relacji między Profesorem a doktorantami, braku pracy zespołowej i drugiego superwizora (nie jest to także w Polsce uznaną praktyką z uwagi na duże obciążenie dydaktyczne kadry). Doktoranci nie prowadzili samodzielnie eksperymentów, korzystając z „uprzejmości" promotora, dostarczającego im gotowe dane. Pytania o szczegóły proceduralne pojawiały się zbyt rzadko, a to dlatego, że były zbywane i spotykały się z niechętną reakcją. Prawdopodobnie jednak największą porażką była ta, którą ponieśli recenzenci i redaktorzy, nie drążąc danych, choć te ewidentnie były „zbyt dobre, aby były prawdziwe". Nie dość, że prawie zawsze potwierdzały hipotezy, to siła efektów była nieprawdopodobnie duża, zaś dane brakujące, nietypowe i poza zakresem (tzw. outliery) prawie nie występowały. Przypisywano to niespotykanie wysokim kwalifikacjom badawczym Stapla. Nie wychwycono nawet dziwnych, nieprawdopodobnych zależności, niemożliwych (na przykład powtarzania się identycznych, co wynikało z mechanicznego przeklejania) wzorów danych, dziwnych korelacji, takich samych średnich i odchyleń standardowych, niemożliwych rozkładów zmiennych. Demaskatorzy ostatecznie dostrzegli te nieprawidłowości, lecz praktyka nieujawniania danych sprawiała, że trudno było o nieodparte dowody. Nic dziwnego, że wśród ogólnych rekomendacji raportu znalazły się ta, aby zawsze podawać szczegółowe informacje o sposobie i miejscu zebrania danych, zaś bazę je zawierającą, a także kwestionariusze i inne materiały użyte w badaniach przechowywać przez minimum pięć lat i udostępniać na żądanie.

Analizując informacje przestawione w raporcie trzech komisji, powziąłem przypuszczenie, że w wykryciu oszustwa we własnym środowisku paradoksalnie przeszkadzać mogłaby uczciwość naukowców. Ktoś, komu do głowy by nie przyszło, że można po prostu sfałszować dane, zapewne będzie miał kłopoty ze spontanicznym wyobrażeniem sobie, iż ktoś inny się tego dopuszcza. (Inna sprawa, że ta uczciwość, jak się przekonamy, też bywa ograniczona). Dopiero bliskie kontakty zawodowe, nietypowość pewnych sposobów postępowania i rezultatów badań mogły wzbudzić podejrzenia. Zapewne też budziły znacznie wcześniej, skoro niektóre nawet zostały wypowiedziane lecz zlekceważone. Jednak niełatwo jest podjąć na zdecydowane działania przeciw komuś, kto posiada autorytet wynikający nie tylko z relacji „nauczyciel — student" czy „promotor — doktorant", lecz z międzynarodowego uznania i liczby publikacji w prestiżowych czasopismach. Moim zdaniem nie bez znaczenia było również miejsce Stapla w strukturze uniwersyteckiej — samodzielne stanowisko i funkcja dziekana to wehikuły sprawowania władzy, także w nieformalny sposób. Wprawdzie na mniejszą skalę niż w polityce czy biznesie, także w środowisku uczelnianym władza może korumpować. Notabene sam bohater skandalu publikował artykuły dotyczące władzy jako przyczyny hipokryzji ^{[ 2 ]}.

Konsekwencje zbrodni Stapla przeciwko prawdzie są niezmierzone, lecz nawet najprostszy sposób ich ilościowego ogarnięcia budzi zgrozę. Na platformie EBSCO, mieszczącej między innymi publikacje i abstrakty psychologiczne z baz PsychArticles, PsychInfo i PsychBooks wpisanie frazy „Diederik Stapel" 12 listopada 2011 dało 152 rezultaty, a ograniczenie wyszukiwania do pełnych tekstów recenzowanych naukowo wciąż pozostawiło 70 pozycji, w większości w prestiżowych czasopismach. To imponujący, niemal niespotykany w psychologii dorobek. W większości z nich Stapel jest współautorem. Teksty te, a w każdym razie większość z nich, raczej nie zostaną usunięte z bazy, choć Kim I. Mills — rzeczniczka Amerykańskiego Towarzystwa Psychologicznego (The American Psychological Associacion), największego wydawcy naukowych tekstów psychologicznych, zapowiedziała: „Posuniemy się do usunięcia nieważnych badań, gdy takie artykuły zostaną w jasny sposób wykryte" ^{[ 3 ]}.

Najprawdopodobniej nie wszystkie artykuły zostały napisane w oparciu o sfałszowane dane, a skala deformacji też nie zawsze była taka sama. Jednak zaufanie do wartości naukowej tych tekstów na zawsze zostało podważone. Ofiarą oszustwa podli więc nie tylko współpracownicy i doktoranci (obrona dysertacji doktorantki M.H.C. Meijers planowana na 7 października została przełożona; konieczne będzie uzupełnienie pracy w tej części, w której oparta była o zafałszowane przez Stapla dane). My, psychologowie społeczni, za każdym razem, gdy cytować będziemy artykuł z renomowanego czasopisma, będziemy mogli doznać skojarzenia z tą niesławną sprawą i zadać sobie pytanie: czy to aby prawda? I nie będzie to niestety pytanie całkowicie paranoiczne.

Jak donosi Benedict Carey w internetowym wydaniu „The New York Times'a" ^{[ 4 ]}, Leslie John z Harward Business School wraz z dwoma współpracownikami przeprowadziła wśród ponad dwóch tysięcy amerykańskich psychologów anonimowy sondaż (ma zostać opublikowany jeszcze w tym roku), w którym 70 procent respondentów przyznało się do wygładzania wyników, około jednej trzeciej — do publikowania nieoczekiwanych rezultatów jako zgodnych z hipotezami (poprzez modyfikację hipotez po przeprowadzeniu badań), a 1 procent — do fałszowania danych. Są to alarmujące dane, a jeśli dodamy do tego wyniki analiz Jelte Wichertsa i Marjana Bakkera z Uniwersytetu w Amsterdamie, to skaza na obrazie najbardziej zaawansowanego metodologicznie działu psychologii wydaje się jeszcze większa. Otóż znaleźli oni w około połowie z losowo wybranych z prestiżowych czasopism 281 artykułów jakiś błąd statystyczny, zaś 15 procent zawierało tak poważne uchybienie, że wnioski powinny być inne, zazwyczaj w kierunku odwrotnym do hipotez.

Ponadto dwaj wspomniani autorzy wraz z Dylanem Molenaarem zwrócili się do autorów 141 artykułów opublikowanych w drugiej połowie 2004 roku w czterech wysoko punktowanych naukowych czasopismach psychologicznych z prośbą o przesłanie danych surowych, które były podstawą analiz. Ponieważ większość autorów nie odpowiedziała na tę prośbę, dalsze badanie oparli na 1148 statystycznie istotnych wynikach w 49 tekstach z dwóch czasopism: Journal of Personality and Social Psychology i Journal of Experimental Psychology: Learning, Memory, and Cognition. Podstawowy wniosek brzmiał następująco: niechęć do dzielenia się wynikami wiąże się ze słabością dowodów i częstszym występowaniem błędów w analizie statystycznej. Brak skłonności do poddawania danych ponownej analizie przez autorów artykułu był szczególnie nasilony, gdy groziło to zakwestionowaniem statystycznej istotności wyników ^{[ 5 ]}. Intersubiektywna komunikowalność i intersubiektywna sprawdzalność rezultatu badawczego, a więc to, co nazywane jest „słabą zasadą racjonalności", w praktyce napotykają więc na opór części psychologów społecznych. Także to, co Kazimierz Ajdukiewicz nazwał mocną zasadą racjonalności ^{[ 6 ]} — racjonalne uznawanie przekonań, nie wyciąganie wniosków wykraczających poza niezawodność samego sposobu wnioskowania, warto by przypominać autorom artykułów, w których siły efektu są marginalne, ich istotność zależy od wybranego testu statystycznego, a wielkość wyjaśnianej wariancji nie przekracza paru procent.

Profesor Jonathan Schooler z Uniwersytetu Kalifornijskiego w Santa Barbara tak skomentował rewelacje dotyczące Stapla: „Duży problem stanowi kultura, w której naukowcy podkręcają swoją pracę w taki sposób, że opowiada historię ładniejszą, niż to, co rzeczywiście odkryli. To prawie tak, jakby wszyscy byli na steroidach, a żeby rywalizować trzeba również brać steroidy". Nic dziwnego, że słusznie postuluje w związku z tym: „Mamy technologię [niezbędną do tego], by dzielić się danymi i publikować nasze pierwotne hipotezy i teraz jest na to czas. To oczyściłoby postępowanie w dyscyplinie w zdecydowany sposób" ^{[ 7 ]}.

Pozostaje rzecz najważniejsza — motywy postępowania Diederika Stapla. On sam nie stawił się wprawdzie przed żadną komisją, zasłaniając się swoją złą kondycją, wcześniej zaś, poproszony o listę publikacji rozdziałów w książkach i materiałów pokonferencyjnych, stwierdził, że „fizycznie i emocjonalnie nie jest w stanie odpowiedzieć". (Ten zaledwie przecież 45-latek mógł się zresztą autentycznie rozchorować, gdy cały jego misternie budowany świat sukcesu i chwały legł w gruzach praktycznie z dnia na dzień.) W oświadczeniu napisał: „Nie potrafiłem się oprzeć presji ciągłego publikowania i osiągania coraz lepszych wyników. Chciałem zbyt dużo i zbyt szybko. Poszedłem złą drogą w systemie, w którym jest mało kontroli, a wielu badaczy pracuje indywidualnie" ^{[ 8 ]} Wcześniej, ustosunkowując się do raportu, napisał: „Przeczytałem raport z poczuciem konsternacji i wstydu (...) Muszę podkreślić, że błędy, które popełniłem nie były motywowane własnym interesem. Nie utożsamiam się z zarysowanym obrazem człowieka, który próbował wykorzystać młodych badaczy dla własnej korzyści. Popełniłem błędy, ale byłem i pozostaję szczerze oddany dziedzinie psychologii społecznej, młodym badaczom i innym kolegom. Z tego powodu żałuję cierpienia, którego przysporzyłem innym" ^{[ 9 ]}. Słowa te, jeśli są szczere, a pewności co do tego nie mamy, wskazują, że holenderski psycholog nie czuje się aż tak bardzo winny, skoro uważa się za oddanego dyscyplinie, którą tak opacznie uprawiał. Sądzi być może, nie do końca zresztą bezpodstawnie, że robił dla niej to, czego od niego oczekiwała.

Sprawa Stapla pokazuje, że praktyka uprawiania psychologii społecznej przez sporą część naukowców wymaga zmian. Większa przejrzystość prowadzonych badań, czyli bezwarunkowe udostępnianie danych surowych, a także informacji o szczegółach proceduralnych (te o miejscu prowadzonych badań, o grupie osób badanych, muszą być znane co najmniej współpracownikom i recenzentom, bo z uwagi na rodzaj upublicznianych informacji, nie zawsze mogą być powszechnie ogłaszane), powinny być standardem. Jednak wskazane byłoby także łaskawsze traktowanie przez redakcje czasopism naukowych i przez recenzentów tych wyników badań, które zupełnie nie potwierdziły hipotez, czy nawet tych, w których manipulacja eksperymentalna nie w pełni zadziałała. Tymczasem od naukowców wymaga się publikacji w czasopismach, i to najlepiej prestiżowych, o wysokich indeksach cytowań. Obowiązuje zasada "publish or perisch" („publikuj albo znikaj"). W nauce mają zatem szansę utrzymać się (słusznie!) ci, którzy badają bardzo dużo i część (najlepiej lwia) z tych badań im wychodzi, lecz także Ci, którzy po prostu dostarczają publikowalne w czasopismach rezultaty, jak to przez wiele lat robił okryty niesławą główny bohater tego tekstu. Wyścig szczurów w psychologii społecznej wywołuje pokusy, aby — niczym niedozwolonego dopingu — zażywać sfabrykowanej prawdy. Łatwiej jest przecież samodzielnie „wydrukować" jeden wynik zgodny z hipotezami (pan Stapel był w tym mistrzem), niż uczciwie przeprowadzić liczne badania, z których jakieś od czasu do czasu spełnią oczekiwania bardzo wymagających redaktorów i recenzentów. Wygrywa skuteczniejszy szczur, niekoniecznie uczciwszy.

Jako czynny psycholog społeczny jestem przekonany, że co roku tysiące tak zwanych nieudanych badań lądują w szufladach bez żadnej szansy na publikację (sam oczywiście mam takie we własnym biurku — mnóstwo pracy, żadnych wymiernych efektów). To nie tylko zafałszowuje obraz nauki — eksponowane są głównie czyste, eleganckie wyniki, wskazujące na klarowne zależności, lecz także motywuje różnych Diederików do pomagania wynikom w taki sposób, aby nadawały się do publikacji. W psychologii można dzięki temu uogólniać wyniki, a nawet układać je w jakieś prawa, bo publikowane są głównie te potwierdzające lub częściowo potwierdzające hipotezy. Pozostałe badania są uznawane za „nieudane". W pewnym sensie nauka zamienia się w ten sposób w grę pozorów. Szuflady pełne nieopublikowanych badań milczą. Zależności („efekty") z wysoko punktowanych żurnali stanowią makijaż upiększający twarz naukowej prawdy. A może to już nie makijaż, tylko maska?

Inną sprawą domagającą się zmian są replikacje opublikowanych badań. Nie są one cenione przez redakcje czasopism, a jednym z kryteriów kwalifikacji do druku jest to, na ile prezentowane wyniki są nowe, oryginalne i przyczyniają się do rozwoju dyscypliny. Siłą rzeczy replikacje wobec tak postawionych kryteriów są mniej wartościowe, niż badania realizowane po raz pierwszy. Utrudnia to weryfikowanie wcześniejszych (m.in. Stapelowskich) rezultatów, choć jest to przecież jeden z podstawowych postulatów metody naukowej. Nie widzę prostego rozwiązania tego problemu, jednak postęp rozumiany jako weryfikacja nowych hipotez, nie może być jedynym celem nauki. Także dotychczasowe ustalenia, zwłaszcza gdy, co jest raczej normą niż wyjątkiem, mają słaby — w sensie siły związku lub proporcji wariancji wyjaśnionej — charakter, wymagają dalszego drążenia. Droga do ustaleń w psychologii nie jest prosta i choć trudno się z nadmiernie zagmatwanym, niezbyt wyraźnym ich obrazem przebić, to może warto czasem poprzestać na małym. Diederik Stapel „odkrywał" zależności klarowne i liczne. Teraz wiele z nich trzeba będzie poddać w wątpliwość lub wręcz odwołać. Może warto dać szansę mniej udanym badaniom. Prawda w psychologii społecznej nie musi być piękna.

Przypisy:

[ 1 ] "Interim report regarding the breach of scientific integrity committed by prof. D. A. Stapel", 12 listopada 2011.

[ 2 ] Na przykład: Lammers Joris, Stapel Diderick A., Galinsky, Adam D. (2010). Power increases hypocrisy: Moralizing in reasoning, immorality in behavior. Psychological Science, 21(5), 737-744.

[ 3 ] Za: Benedict Carey: "Fraud Case Seen as a Red Flag for Psychology Research", 12 listopada 2011.

[ 4 ] Benedict Carey: "Fraud Case Seen as a Red Flag ...

[ 5 ] Jelte M. Wicherts, Marjan Bakker, Dylan Molenaar (2009). Willingness to Share Research Data Is Related to the Strength of the Evidence and the Quality of Reporting of Statistical Results. PLoS ONE Journal 12 listopada 2011.

[ 6 ] Por. Brzeziński J. (2000). Poznanie naukowe - poznanie psychologiczne. W: J. Strelau (red.), Psychologia. Podręcznik akademicki, t. 1, s. 336.

[ 7 ] Za: Benedict Carey: "Fraud Case Seen as a Red Flag...".

[ 8 ] Serwis "Nauka w Polsce": "Skandal w psychologii: znany holenderski uczony fałszował badania", 12 listopada 2011.

[ 9 ] "Interim report regarding the breach...", s. 21.

Doktor psychologii; adiunkt w Instytucie Psychologii Uniwersytetu Wrocławskiego; autor ponad pięćdziesięciu artykułów naukowych z zakresu psychologii społecznej; redaktor pięciu książek, w tym „Fenomen nierówności społecznych” i „Oblicza nierówności społecznych”; w latach 2007 – 2010 członek Komitetu Psychologii PAN; pisuje także prozę; publikował m. in. w „Akcencie”, „Bez Dogmatu”, „Kresach” i „Lampie”.

Liczba tekstów na portalu: 14 Pokaż inne teksty autora

Oryginał.. (http://www.racjonalista.pl/kk.php/s,7532)
(Ostatnia zmiana: 14-11-2011)