smar wg wojciszke zajecia 25 03 mgr Krys Jakub

Do pracy zbiorowej pod redakcją Jerzego Brzezińskiego (2002)

W druku

Systematycznie Modyfikowane Autoreplikacje:

logika programu badań empirycznych w psychologii

Bogdan Wojciszke

Szkoła Wyższa Psychologii Społecznej

Warszawa

Dedykuję ten tekst moim doktorantom,

a także doktorantom moich koleżanek i kolegów.

Bogdan Wojciszke
Warsaw School of Social Psychology

Systematically Modified Self-Replications:

A strategy for programmatic research in psychology

A strategy of Systematicaly Modified Self-Replications (SMSR) is identified as a basic
way of planning and performing programmatic empirical research in contemporary
psychology. The SMSR strategy consists of replication studies on the same effect
performed by the same team of researchers, with a systematic modification and
diversification of the studied samples, variables and methods of their measurements.
The SMSR strategy is based on the recognition of an inescapable unreliability of a
single empirical study and a probabilistic nature of relationships among psychological
variables. The strategy enables researchers to achieve at least the following goals:
(1) showing reliability of a basic relationship of interest, (2) checking efficiency of
manipulations and construct validity of measures employed, (3) increasing internal
validity, (4) increasing external validity, (5) elimination of alternative explanations, (6)
identification of moderators of the basic relationship, and (7) identification of
mediators of the basic relationship. The chapter describes how the SMSR strategy
helps to achieve these goals both in general terms and in terms of examples drawn
from two research programs. It is concluded that SMSR is necessary to obtain
reliable and valid data (and to get published the data in a leading journal).

Psychologia jest – jak wiadomo – nauką empiryczną, a podstawowy rodzaj publikacji w tego rodzaju
nauce to doniesienie z własnych oryginalnych badań autora. Naukowcy z prawdziwego zdarzenia
śledzą te publikacje na bieżąco (ci ze zdarzenia mniej prawdziwego poprzestają na ich omówieniu z
drugiej ręki w monografiach, lub, co gorsza, podręcznikach), rzadko jednak zdarza się by zajrzeli do
roczników publikowanych wcześniej niż w ciągu ostatnich 10-20 lat. Uprawianie nauki empirycznej,
niczym życie motyla, rozgrywa się w czasie teraźniejszym i – jak się wyraził Robert Sternberg –
Nobody cites dead psychologists. Jednak zajrzenie do starszych roczników takich czołowych
czasopism psychologicznych, jak Journal of Personality and Social Psychology (JPSP) może być
całkiem pouczające, choćby przez porównanie ich zawartości z tym, co publikowane jest
współcześnie. Jedną z uderzających zmian widocznych w ostatnich kilku dekadach jest wzrost liczby
oddzielnych badań składających się na pojedyncze doniesienie empiryczne (obok wzrostu liczby
badanych osób i użytych metod pomiarowych). Np. w roku 1965 tylko 10% doniesień opublikowanych
w JPSP zawierało więcej niż jedno badanie, w roku 1975 było to 20%, zaś w roku 1995 – już 48%.
Tak więc o ile w latach sześćdziesiątych znaczna większość prac empirycznych z zakresu psychologii
społecznej i osobowości poprzestawała na doniesieniu z jednego tylko badania, w latach
dziewięćdziesiątych już niemalże połowa artykułów zawierała doniesienia z dwóch lub więcej badań
(dotyczy to w szczególności psychologii społecznej).

Przed kilkudziesięciu laty jedno badanie wystarczało do przekonania społeczności naukowej o

istnieniu jakiejś prawidłowości, współcześnie potrzeba do tego dwukrotnie więcej badań, a więc całego
programu badawczego. Jednokrotne uzyskanie jakiegoś wyniku nie wystarcza już do uznania go za
wiarygodny, co jest konsekwencją rozprzestrzenienia się wśród badaczy wiedzy o ułomności
pojedynczego badania empirycznego, a także wiedzy o charakterze prawidłowości rządzących ludzką
psychiką. Wiarygodny jest wynik powtórzony kilkakrotnie, w ramach programu badawczego
skonstruowanego na zasadzie systematycznie modyfikowanych autoreplikacji, która to zasada coraz
wyraźniej staje się regułą obowiązującą współczesnego psychologa-empiryka.

Systematycznie Modyfikowane Auto-Replikacje (SMAR) to strategia polegająca na

wielokrotnym powtarzaniu przez ten sam zespół autorów badania wykazującego jakąś prawidłowość
przy celowym wprowadzaniu modyfikacji próby, metod pomiaru i zmiennych stanowiących przedmiot
badania. SMAR służy co najmniej siedmiu celom: (1) wykazaniu rzetelności (powtarzalności)
podstawowego efektu, (2) sprawdzeniu skuteczności manipulacji i teoretycznej trafności
zastosowanych miar, (3) maksymalizacji trafności wewnętrznej, (4) maksymalizacji trafności
zewnętrznej i teoretycznej, (5) eliminacji alternatywnych wyjaśnień, (6) poszukiwaniu moderatorów
efektu oraz (7) poszukiwaniu mediatorów efektu. Osiągnięcie wartościowych poznawczo wyników
empirycznych jest niemożliwe bez realizacji większości tych celów, zaś w tym rozdziale pragnę
przekonać czytelnika do tezy, iż realizacja większości owych celów jest niemożliwa bez powtarzania
własnych badań. Omówię strategię SMAR zarówno w kategoriach ogólnych, jak i odwołując się do
przykładów zaczerpniętych z dwóch dość różnych programów badawczych, z których jeden dotyczy
huśtawki emocjonalnej jako techniki wpływu społecznego (a zrealizowany został przez Dariusza
Dolińskiego i współpracowników), drugi zaś dotyczy dominacji kategorii moralnych w formułowaniu
ocen innego człowieka (zrealizowany przeze mnie wraz ze współpracownikami).

1. Rzetelność podstawowego efektu

Znakomity fizyk francuski Rene Blondlot (1849-1930) ogłosił odkrycie promieni N
wkrótce po tym, jak Roentgen odkrył promieniowanie X. Promienie N miały być
emitowane przez niemalże wszystkie substancje, choć zaobserwować je można było
tylko w bardzo szczególnych warunkach (w ciemnościach i po refrakcji przez pryzmat
aluminiowy). W wielu innych laboratoriach francuskich potwierdzono występowanie
promieniowania N. Jednakże promieniowanie to miały cechować pewne niezwykłe
własności fizyczne, a w dodatku nie udało się go zaobserwować w żadnym z
laboratoriów angielskich i niemieckich. Skłoniło to pismo Nature do wysłania
amerykańskiego fizyka Roberta W. Wooda do laboratorium Blondlota w Nancy (na
cześć którego to miasta promienie otrzymały swoją nazwę). Wood podejrzewał, że
całe promieniowanie N jest po prostu złudzeniem jego odkrywców. Aby to sprawdzić,
wziął udział w demonstracji promieniowania wykonanej przez jednego z asystentów
Blondlota i podczas jej trwania (w ciemnościach) niepostrzeżenie usunął aluminiowy
pryzmat załamujący promieniowanie i czyniący je widzialnym. Nie przeszkodziło to

Blondlotowi i współpracownikiem nadal dostrzegać “ledwo widzialnego”
promieniowania. Dopiero po zapaleniu światła prawda wyszła na jaw (podobno
zresztą prawda ta przyprawiła Blondlota o chorobę umysłową, jak twierdzi Gardner,
1957).

Zapominana i przypominana na nowo historia niefortunnych promieni N

ilustruje, jak

ważną rolę odgrywają replikacje wyników badań, szczególne replikacje “nieskorelowane” –
wykonywane przez niezwiązanych ze sobą badaczy. Dotyczy to nawet tak twardej nauki, jak fizyka – a
cóż dopiero powiedzieć o tak miękkiej nauce, jaką jest psychologia. Przesadą byłoby twierdzić, że ta
ostatnia roi się od niezreplikowanych efektów, jednak można je napotkać bez trudu. Np. i w myśleniu
potocznym, i w wielu podręcznikach psychologii utrzymuje się przekonanie, że dzieci o różnej
kolejności urodzenia systematycznie różnią się osobowością (np. starsze są bardziej konformistyczne,
zależne i konserwatywne, zaś młodsze – bardziej niezależne, buntownicze, oryginalne i liberalne w
poglądach). Tego rodzaju wyniki badań okazały się jednak niereplikowalne (Ernst i Angst, 1983;
Harris, 2000; Schooler, 1972), a w dużym stopniu dotyczy to także większości oddziaływań
wychowawczych podejmowanych przez rodziców (Harris, 1995, 2000). Nie udało się też zreplikować
wpływu powiększonych źrenic na wzrost atrakcyjności fizycznej (Hensley, 1991), skuteczności
podświadomych (podprogowych) oddziaływań propagandowych i marketingowych na zachowanie
(Pratkanis, Eskenazi i Greenwald, 1994), czy sporej liczby bardziej szczegółowych prawidłowości
psychologicznych - np. postulowanego przez Aronsona wzrostu atrakcyjności osoby doskonałej pod
prawie każdym względem wskutek umiarkowanie negatywnej informacji na jej temat (co miałoby z tej
osoby czynić “fajnego chłopa, takiego jak ja” – por. Fishbein i Ajzen, 1975).

Nie ulega wątpliwości, że sceptycyzm w stosunku do jednorazowo uzyskanych zależności

empirycznych jest więcej niż uzasadniony. Nawet gdy nie mamy do czynienia z mistyfikacją czy
samookłamywaniem, nierzadko okazuje się, że jednorazowe zależności po prostu nie istnieją.
Prawidłowości psychologiczne mają charakter jedynie probabilistyczny - nie ma pewności ich
pojawienia się, lecz jedynie jakaś na to szansa. Np. choć to prawda, że im bardziej ktoś jest do nas
podobny, tym bardziej go lubimy, równie prawdziwy jest fakt, że nie w przypadku każdej znanej nam
osoby tak się dzieje. Po pierwsze dlatego, że każda prawidłowość obowiązuje jedynie w pewnych
granicach - np. związek lubienia z podobieństwem załamuje się przy bardzo dużym natężeniu
podobieństwa (pewna Zosia ma poglądy tak bardzo podobne do naszych, że po prostu nas nudzi) i
nie dotyczy partnerów należących do jakiejś nieporównywalnej kategorii (np. pacjentów
psychiatrycznych). Po drugie dlatego, że ludzkie funkcjonowanie jest podporządkowane wielu
prawidłowościom równocześnie i zwykle trudno orzec z góry, która z nich okaże się ważniejsza – np.
lubienie zależy od podobieństwa partnera, ale jeszcze silniej zależy od tego, jak partner nas traktuje
(Zosia wielokrotnie próbowała nam zaszkodzić i źle o nas się wyrażała, wobec czego jej nie lubimy
pomimo podobieństwa).

Empirycznemu badaniu poddajemy zawsze jakieś konkretne osoby, w konkretnych

warunkach, a specyfika tych osób i warunków może zamącić obraz ogólnych prawidłowości. Nawet
oczywista zależność między podobieństwem a lubieniem może zupełnie zaniknąć, jeżeli w badanej
przez nas próbie znajdzie się wiele skłóconych osób, np. dlatego że pochodzą z klasy szkolnej, w
której pojawiło się kilka skonfliktowanych grup. Pojedyncze badanie jest więc zawodną podstawą
wnioskowania o prawidłowościach ogólnych także z powodu błędu próby. Wyniki mierzone w każdej
próbie różnią się od wyników prawdziwych i nie ma nic dziwnego w zdarzeniu polegającym na
równoczesnym odbieganiu wyników jednej próby in minus, a drugiej – in plus od wyniku prawdziwego,
co doskonale wystarcza do uzyskania jednorazowego świadectwa rzekomej różnicy między tymi
dwoma próbami (której to różnicy nie udaje się wykazać w innych badaniach).

Każde badanie jest też obciążone jakimiś błędami wynikającymi z zastosowanych metod czy

doboru jego uczestników. Ponieważ różne badania są obciążone różnymi błędami, dopiero
wielokrotne powtórzenie studiów nad tą samą prawidłowością przy użyciu różnych metod pozwala
prawidłowości “przedrzeć się” przez zakłócenia, jakimi obarczone są poszczególne badania
(eliminacja błędu losowego). Szczególnie cenne są przy tym replikacje dokonane przez badaczy
innych niż autor pierwszego badania ujawniającego jakąś prawidłowość, co dobrze ilustruje historia z
promieniami N. Ci pierwsi są bowiem mniej przywiązani do (nie swojej) hipotezy i nie powtarzają w
mniej lub bardziej nieświadomy sposób błędów metody, które bywają odpowiedzialne za
“wykazywanie” nieistniejących prawidłowości. Tym bardziej dotkliwa jest dla psychologii niechęć do
wykonywania badań replikacyjnych (choć trudno obiektywnie oszacować natężenie tej niechęci), a w
każdym razie brak publikacji tego rodzaju badań w czołowych pismach psychologicznych. To ostatnie
można już ocenić łatwo – nie sposób w czołowym piśmie znaleźć replikację, zaś ankieta

przeprowadzona wśród redaktorów czasopism psychologicznych wykazała, że w znacznej większości
replikacji ani nie cenią, ani nie zamierzają drukować (Neuliep i Crandall, 1991). Redaktorzy nie różnią
się od innych badaczy, spośród których oczywiście się rekrutują (John Garcia, odkrywca roli
odgrywanej w procesach warunkowania przez biologiczne przygotowanie organizmu, wyraził to
słowami: Editors are just like other people, only more so). Badacze po prostu nie wysyłają doniesień o
replikacji do cenionych periodyków w przekonaniu, że i tak nie zostałyby opublikowane.

Dodatkowy problem to kwestia, jaki wynik replikacji czyni ją udaną. Psychologowie nagminnie

przyjmują za kryterium udanej replikacji istotność statystyczną związku - udane replikacje to takie,
które przynoszą zależności istotne statystycznie (podobnie jak badanie oryginalne), zaś replikacje
nieudane, to takie, w których dany związek nie okazuje się istotny. Jest to zapewne jeszcze jeden
przejaw znanego skądinąd, bałwochwalczego stosunku psychologów do istotności statystycznej –
mniej lub bardziej uświadamianego przekonania, że jeżeli coś jest istotne statystycznie, to tym samym
staje się istotne merytorycznie. W rzeczywistości kryterium to jest całkowicie błędne, co można
zilustrować hipotetycznym przykładem dwóch badaczy pracujących nad tą samą zależnością
(przykład przytaczam po spolszczeniu za Rosenthalem, 1991a). Jak widać w tabeli 1, Kowalski
uzyskał istotną różnicą między grupą eksperymentalną i kontrolną, Nowak zaś – różnicę nieistotną
statystycznie. Zwykle jest to podstawą do twierdzenia, że Nowakowi nie udało się zreplikować
wyników Kowalskiego. Dobrze jednak wiadomo, że poziom statystycznej istotności różnicy zależy nie
tylko od jej wielkości, ale i od liczebności próby (oraz wielkości wariancji wyników), zaś nasz
przykładowy Nowak posługiwał się czterokrotnie mniejszą próbą niż Kowalski. Stąd też miernikiem
podobieństwa wyników badań Kowalskiego i Nowaka powinien być nie poziom istotności, ale raczej
jakiś wskaźnik siły efektu, taki jak statystyka d Cohena (różnica między średnimi podzielona przez
wspólne odchylenie standardowe obu grup) albo współczynnik korelacji r Pearsona. Z tego punktu
widzenia wyniki uzyskane przez Nowaka i Kowalskiego są identyczne – w jednym i drugim przypadku
d wyniosło 0,50, co oznacza zależność umiarkowaną. Co więcej, ostatnia kolumna tabeli 1 pokazuje,
że oba badania potraktowane łącznie, równie silnie przemawiają za istnieniem zależności, jak samo
pierwsze badanie Kowalskiego. Nawet różnica poziomów istotności między nimi okazuje się
nieistotna:

różnicy

= (z

Kowalski

– z

Nowak

)/√2 = (2,17 – 1,03)/√2 = 0,81; p = 0,42.

----- tutaj tabela 1 ----

Tak więc przy decyzji, czy replikacja jest udana czy też nie, należy stosować kryteria

ilościowe, a najlepiej uwzględniające wskaźniki siły efektu, nie zaś “na oko” i błędnie stosowane
wskaźniki istotności statystycznej. Nawet przyjęcie adekwatnych kryteriów udanej replikacji, nie
rozwiązuje jednak problemu jej wartości poznawczej. A problem jest dosyć oczywisty – jeżeli
replikacja się powiedzie, badanie nie wnosi nic oryginalnego do istniejącej już wiedzy. Jeżeli zaś
replikacja się nie uda, nie wiadomo, co to znaczy – czy jest to świadectwem braku umiejętności
drugiego autora, skutkiem modyfikacji metody (ta przecież siłą rzeczy musi się mniej lub bardziej
różnić od oryginału), wyrazem zmian historycznych (co może dotyczyć wielu zagadnień psychologii
wychowawczej, rozwojowej i społecznej), czy też wreszcie wyrazem nieistnienia oryginalnej
zależności.

Publikowanie replikacji zarówno udanych, jak i nieudanych zdaje się więc mieć niewiele

sensu. Jednakże brak publikacji tego rodzaju jest jeszcze mniej sensowny, ponieważ prowadzi do
zniekształconego obrazu świata, szczególnie w połączeniu z inną dobrze znaną tendencyjnością
psychologii polegającą na niechęci do publikowania badań, których wyniki okazały się nieistotne w
sensie statystycznym (por. Brzeziński, 1996). Statystyczna istotność (na poziomie p<0,05) jest jednym
z najsilniejszych predyktorów kwalifikowania artykułu do druku przez recenzentów i redaktorów. W
konsekwencji, psychologia jako dziedzina wiedzy staje się podatna na błąd I rodzaju – większa jest
szansa, że ujrzą światło dzienne dane przemawiające za jakąś nieistniejącą prawidłowością, niż dane
sugerujące pominięcie prawidłowości faktycznie istniejących. Jest to o tyle paradoksalne, iż
obowiązujące we współczesnej psychologii reguły wnioskowania statystycznego jednoznacznie każą
unikać właśnie tego błędu na poziomie pojedynczego badania. Niebezpieczeństwo jest tym większe,
że w psychologii następuje dosyć szybki wzrost przynajmniej niektórych standardów
metodologicznych, co sprawia, że wiele wcześniejszych w czasie badań oryginalnych jest
nieporównanie gorszych od późniejszych badań replikacyjnych, choć te ostatnie mają znacznie
mniejszą szansę publikacji. Dobrą ilustracją są tu dzieje badań nad wpływem rozszerzenia źrenic na
wzrost atrakcyjności fizycznej. Eckhard Hess (1975), odkrywca tego zjawiska, z reguły posługiwał się
próbami liczącymi sobie od kilku do trzydziestu kilku osób badanych. Kiedy Hensley (1991) powtórzył
badania Hessa na 501 osobach, wszelkie różnice w spostrzeganiu osób z poszerzonymi i normalnymi
źrenicami zanikły. Sam wzrost liczebności próby (i liczby metod pomiaru zmiennej zależnej – w tym

przypadku pozytywności sądów o osobie spostrzeganej) wystarczył więc do zaniknięcia
podstawowego efektu.

Publikowanie replikacji rodzi więc dylemat “rzetelność czy oryginalność.” Rzetelność każe

replikacje publikować jako świadectwo powtarzalności (lub jej braku), oryginalność każe replikacje
odkładać do szuflady, jako nie wnoszące nic nowego do dziedziny, niezależnie od wyniku.
Współczesna psychologia wybiera w tym dylemacie bez wątpienia oryginalność, z jednym wszakże
poważnym ukłonem w stronę rzetelności – nakłada bowiem na autorów obowiązek autoreplikacji (a
także dopuszcza pojęciowo zmodyfikowane replikacje badań cudzych, ale ten wątek zmuszony tu
jestem pominąć). Autoreplikacja, czyli powtarzanie własnego wyniku w kolejnych badaniach, nie jest w
stanie całkowicie zastąpić pożytków replikacji zewnętrznej i niezależnej od badania oryginalnego.
Jednak eliminuje przynajmniej błąd próby i spełnia szereg innych pożytecznych zadań, czego
ilustracją może być fascynujący ciąg badań Dariusza Dolińskiego i Ryszarda Nawrata (1994, 1998)
nad wykrytą przez nich techniką wpływu społecznego, którą nazwali “huśtawką emocjonalną.”

Analizując wspomnienia osób przesłuchiwanych w więzieniach nazistowskich

czy stalinowskich autorzy ci zauważyli, że dosyć często pojawiają się w nich
opowieści o pewnym szczególnym rodzaju przesłuchań. Zwykle przesłuchujący
oprawca próbuje zmusić więźnia do zeznań za pomocą krzyków, gróźb czy tortur.
Chwilami jednak łagodnieje i zaczyna traktować więźnia niczym starego przyjaciela.
Załamanie przesłuchiwanego i złożenie obciążających zeznań często następuje w
tym właśnie momencie ulgi, a nie największego natężenia strachu. Nawiązując do
pewnych ogólniejszych prawidłowości funkcjonowania emocji, Doliński i Nawrat
założyli, że choć strach wpływa na człowieka mobilizująco, następstwem nagłego
zaniknięcia źródła strachu jest demobilizacja. W stanie takiej ulgi po uprzednim
strachu (huśtawki emocjonalnej) człowiek powinien stawać się bardziej podatny na
wpływy wywierane przez innych.

Uzbrojeni w tę hipotezę badacze wyruszyli na ulice Opola, gdzie część

przechodniów przekraczających ruchliwą ulicę w nieoznakowanym miejscu stawiali w
sytuacji huśtawki emocjonalnej. Gdy już taka osoba zbliżała się do chodnika, słyszała
gwizdek policyjny (w rzeczywistości gwizdali Doliński z Nawratem), co zwykle
powodowało nerwowe rozglądanie się za policjantem, który zaraz miałby wlepić
mandat. Jednak zamiast policjanta pojawiała się – co za ulga – młoda dziewczyna,
przedstawiając się jako studentka i prosząc w wypełnienie pewnego kwestionariusza.
Choć było zimno i wietrzno, a wypełnianie kwestionariusza na ulicy było niewygodne,
aż 59% przechodniów w stanie ulgi godziło się wyrządzić studentce tę przysługę. Jak
wskazują dane z tabeli 2, był to większy odsetek niż w innej grupie przechodniów,
którzy nie przeżywali akurat ulgi (także przeszli ulicę w nieoznakowanym miejscu, ale
nie potraktowano ich gwizdkiem, bądź też w ogóle nie przechodzili ulicy).

Wynik eksperymentu potwierdził więc hipotezę huśtawki emocjonalnej. Jednak

autorzy postanowili dokonać autoreplikacji tego efektu w kilku innych badaniach,
które również ilustruje tabela 2.

---tutaj tabela 2---

2. Maksymalizacja trafności wewnętrznej

Celem powtarzania własnych badań jest z reguły nie tylko wykazanie rzetelności
(powtarzalności) podstawowego efektu, ale i realizacja szeregu innych zamierzeń.

Pierwszym takim zamierzeniem Dolińskiego i Nawrata była maksymalizacja

trafności wewnętrznej ich badania, tzn. doprowadzenie do powiększenia siły efektu,
co zwykle uzyskuje się albo zwiększając natężenie manipulacji eksperymentalnej (tak
aby wzrosła różnica między grupą eksperymentalną i kontrolną), albo oczyszczając
ją z jakichś niepożądanych elementów (które mogą hamować jej skuteczność). W
pierwszym badaniu różnice w uległości osób w stanie ulgi i w stanie neutralnym były
niewielkie (13% lub 18% w zależności od porównywanych grup), co autorzy

przypisali brakowi jasnego sygnału przeminięcia zagrożenia. Niektórzy badani mogli
dojść do wniosku o nieobecności policjanta dopiero w trakcie rozmowy ze studentką,
inni – zanim jeszcze do nich podeszła, itd. Stąd też następne badanie zaaranżowali
w taki sposób, by sygnał ustąpienia zagrożenia był jednoznaczny i pojawiał się dla
wszystkich w tym samym momencie. Tym razem badani byli kierowcy parkujący w
niewłaściwym miejscu samochód – dochodząc do swego pojazdu już z daleka
widzieli za wycieraczką kartkę o rozmiarach mandatu. Kiedy jednak odwracali kartkę
okazywało się, że to nie mandat – co za ulga! – lecz reklama Vitapanu, (nie
istniejącego) środka na porost włosów. I tutaj pojawiała się studentka z prośbą o
wypełnienie kwestionariusza potrzebnego jej do pracy magisterskiej. Tym razem
zgodziło się aż 62% nagabniętych, znacznie więcej niż w grupie, gdzie kartka była
przyklejona na bocznej szybie (a więc już z daleka wyglądała na reklamę, a nie
mandat), bądź wcale nie było kartki, jak przekonują dane z tabeli 2. Ulepszenie
metody manipulowania stanem ulgi doprowadziło więc do wzrostu trafności
wewnętrznej badania.

Maksymalizacja trafności wewnętrznej polegająca na różnych zabiegach

mających na celu doprowadzenie do tego by badanie “wyszło” (by wystąpiła istotna
różnica między grupami, bądź istotna korelacja między zmiennymi) jest zapewne
powszechnym elementem procesu badawczego w psychologii. Jednak informacja o
tych zabiegach rzadko pojawia się w publikacjach, w tych bowiem preferowany jest
opis zabiegów udanych, nie zaś nieudanych. Nietrudno to zrozumieć – publikacje
naukowe nie są biograficznym zapisem zmagań autorów ze swą hipotezą, opisem
dziejów ich kolejnych klęsk i zwycięstw, lecz jedynie informacją o sposobie
przeprowadzenia badania, sporządzoną w taki sposób, by każdy inny badacz mógł je
powtórzyć. Problem jednak w tym, iż pominięcie klęsk na drodze do sukcesu (a klęsk
jest z reguły więcej niż zwycięstw) czyni tę informację niepełną, szczególnie gdy nie
wiemy, co tak naprawdę zadecydowało o sukcesie badania, to zaś zdarza się wcale
często. Każdy inny badacz pragnący zreplikować dane badanie bywa więc
niepotrzebnie narażony na pułapki, w które wpadł już uprzednio autor oryginalnego
badania. Np. w psychologii społecznej tajemnicą poliszynela jest, iż niektóre badania
“wychodzą” tylko pod warunkiem, że przeprowadzane są indywidualnie, inne – tylko
pod warunkiem, że prowadzone są w grupach; niektóre “wychodzą” tylko na
komputerze, ale nie przy metodzie “papier-ołówek”, inne zaś na odwrót (Stapel,
2000). Jednak dopóki badacz nie wie (nie potrafi wyjaśnić) dlaczego konieczne są
takie, a nie inne warunki, po prostu pomija taką kwestię milczeniem i pułapka dla
następnego badacza gotowa.

3. Eliminacja alternatywnych wyjaśnień

Innym celem powtarzania własnych badań jest eliminacja alternatywnych

wyjaśnień zasadniczego efektu. W dotychczas opisanych dwóch badaniach nad
huśtawką emocjonalną ich uczestnicy z warunków eksperymentalnych nie tylko byli
w stanie ulgi, ale także przeżywali strach, natomiast osoby z warunków kontrolnych
nie przeżywały ani ulgi, ani strachu. Nie wiadomo więc, czy różnice między tymi
osobami wynikały z samej ulgi, czy też ze strachu – całkiem rozsądne jest przecież
przypuszczenie, że osoby zastraszone łatwiej ulegają presji społecznej niż
niezastraszone. Aby to rozstrzygnąć, Doliński i Nawrat przeprowadzili kolejne
badanie z kierowcami niewłaściwie parkującymi swoje samochody i stworzyli tym
razem jeszcze jeden rodzaj warunków, w których kierowcy owi znajdowali za
wycieraczką wezwanie na policję, celem wyjaśnienia niewłaściwego parkowania.
Bezpośrednio po przeczytaniu kartki podchodziła do nich studentka z prośbą o

wypełnienie ankiety. Jak przekonują wyniki zamieszczone w tabeli 2 (Eksperyment
3), kierowcy z tej grupy – zapewne nadal jeszcze przeżywający strach – zgadzali się
spełnić prośbę nieporównanie rzadziej niż kierowcy przeżywający ulgę (z grupy
“reklama za wycieraczką”), a także kierowcy w stanie neutralnym (z grup “reklama na
drzwiach” i “brak kartki”). W ten sposób autorzy udowodnili, że za wzrost podatności
na wpływ społeczny odpowiedzialne jest nagłe wycofanie źródła strachu, a nie sam
strach.

W tym samym badaniu podjęto także próbę eliminacji innych alternatywnych

wyjaśnień – wypełniana przez kierowców ankieta zawierała m. in. pomiar aktualnie
przeżywanego poczucia winy i wstydu. Okazało się, że natężenie tych dwóch emocji
nie różniło się u badanych z warunków ulgi i badanych z warunków neutralnych, choć
emocje te były istotnie nasilone w grupie “wezwanej na policję.” Eliminuje to
wyjaśnienie zwiększonej uległości na nacisk społeczny w kategoriach
domniemanego wzrostu poczucia winy i wstydu.

Eliminacja alternatywnych wyjaśnień jest niezbędnym elementem większości

programów badawczych, ponieważ bardzo wiele zjawisk stanowiących przedmiot
zainteresowania psychologii, to zjawiska uwarunkowane wieloczynnikowo. Jeżeli zaś
zjawisko ma wiele przyczyn, które mogą działać równocześnie, to eliminacja
alternatywnych wyjaśnień jest niezbędna do ustalenia, która z możliwych przyczyn
faktycznie wywołuje dane zjawisko. Dość często zdarza się przy tym, że różne
czynniki są postulowane przez różne teorie psychologiczne, w związku z czym
rozstrzyganie między alternatywnymi wyjaśnieniami staje się fascynującym
rozstrzyganiem o prawdziwości rywalizujących teorii (experimentum crucis). Zadanie
to ma w istocie niemalże nieskończenie wiele odmian, a jedną z najtrwalszych w
psychologii i innych naukach społecznych jest problem “kultura czy natura,” a więc
pytanie o względną rolę czynników dziedzicznych i środowiskowych w wyznaczaniu
ludzkich cech (jak inteligencja) i zachowań (jak agresja). Np. z licznych badań dobrze
wiadomo, że mężczyźni i kobiety mocno się różnią preferencjami co do własności
partnera heteroseksualnego (Buss, 1996). Mężczyźni poszukują partnerek młodych i
urodziwych, choć dla kobiet zalety te są mało ważne u partnerów. Kobiety poszukują
partnerów ambitnych, majętnych i zajmujących wysoką pozycję społeczną, choć
odniesione do kobiet, zalety te mało znaczą w oczach mężczyzn. Buss i inni
psychologowie nawiązujący do teorii ewolucji skłonni są te różnice preferencji
heteroseksualnych wyjaśniać jako rezultat przystosowania się kobiet i mężczyzn do
nieco odmiennych nacisków selekcyjnych oddziaływujących na każdą z płci w
kontekście wyborów heteroseksualnych (ponieważ kobiety dokonują większych
nakładów rodzicielskich, bardziej są zainteresowane męskimi zasobami, które
zrekompensowałyby te nakłady; zaś mężczyźni podążają za urodą, gdyż jest ona
wskaźnikiem wartości reprodukcyjnej kobiety i gwarantuje wyższą szansę sukcesu
reprodukcyjnego w zamian za zasoby oferowane partnerce). Jednakże inni badacze
wskazują, iż te różnice płci mogą być rezultatem czynników nie biologicznych, lecz
kulturowych, takich jak utożsamianie się zarówno mężczyzn jak i kobiet z
obowiązującym w ich kulturze stereotypem płci. Skłoniło to Bussa i in. (1990) do
przeprowadzenia na szeroką skalę zakrojonych badań, w których porównywano
preferencje ponad 10 tys. młodych kobiet i mężczyzn z 37 różnych krajów. Choć
badani pochodzili z kultur tak zróżnicowanych, jak Ameryka, Chiny, Polska i Zambia,
wymienione różnice między płciami okazały się rzetelne i występowały niemalże w
każdej z badanych kultur – co silnie przemawia za pozakulturowym wyjaśnieniem
tych różnic.

Eliminacja alternatywnych wyjaśnień jest również konieczna do wywikłania się

z błędu qui pro quo, jaki nierzadko nęka psychologię i inne nauki empiryczne.
Badacze ulegają złudzeniu, że zastosowana przez nich manipulacja wywołuje efekty
jedynie zamierzone i mierzone w badaniu, ale już nie żadne inne. W przypadku
badań korelacyjnych jest to bliźniacze złudzenie, że zastosowana metoda (np.
kwestionariusz) mierzy jedynie tę zmienną, do mierzenia której badacz ją
przeznaczył.

W istocie przekonania te są właśnie złudzeniami, bowiem większość

kwestionariuszy mierzy więcej niż jedną zmienną. Każdy kwestionariusz mierzy nie
tylko cechę, do mierzenia której jest przeznaczony, ale także i wiele pokrewnych
zmiennych, a prawie wszystkie mierzą w jakimś stopniu skłonność do ukazywania się
w dobrym świetle. Podobnie wiele manipulacji eksperymentalnych wywołuje oprócz
efektów zamierzonych przez badacza, także i efekty niezamierzone, często w postaci
różnych przekonań osoby badanej. Klasycznym i dobrze znanym przykładem jest
wpływ alkoholu na agresję – zarówno obserwacja potoczna, statystyki policyjne, jak i
badania laboratoryjne wskazują, że spożycie alkoholu nasila agresję (Ito, Miller i
Pollock, 1996). Jednakże osoby trzeźwe i nietrzeźwe różnią się zwykle nie tylko
zawartością alkoholu we krwi, ale także przekonaniem, że są trzeźwe lub nie, zaś
przekonanie o własnej nietrzeźwości może znosić zwykle działające zahamowania
reakcji agresywnych. Jeśli eksperymentalnie rozdzielić takie przekonanie od
faktycznej intoksykacji (np. podając badanym tonic z alkoholem lub bez niego oraz
informując, że napój zawiera alkohol lub go nie zawiera), to nierzadko okazuje się,
że agresję nasila samo przekonanie o nietrzeźwości, a faktycznie wypijany alkohol
jest bez znaczenia (Lang i in., 1975).

Jednorazowe badanie, w szczególności nad nowym problemem naukowym,

bardzo rzadko, jeżeli w ogóle kiedykolwiek, jest w stanie rozstrzygnąć pomiędzy
różnymi wyjaśnieniami tego samego zjawiska. Także dlatego, że badacz często nie
zdaje sobie w pełni sprawy z tego, co w swoim badaniu faktycznie zrobił, dopóki tego
nie zrobił, tj. nie przeprowadził badania. Jeżeli zaś po badaniu jest w 100% pewien,
że zrobił w nim tylko to, co zrobić zamierzał, to skłonny jestem podejrzewać, że po
prostu brak takiemu badaczowi samokrytycyzmu. Przejawem braku krytycyzmu jest
także niechęć do uwzględniania, a nawet samodzielnego wymyślania alternatywnych
wyjaśnień własnych wyników (a następnie ich eliminacji na drodze empirycznej).
Jeżeli badacz nie widzi żadnych wyjaśnień alternatywnych w stosunku do
ulubionego, oznacza to albo niedojrzałość problemu, albo samego badacza.

4. Maksymalizacja trafności zewnętrznej i teoretycznej

Wróćmy jednak do programu Dolińskiego i Nawrata, którzy kolejne badanie
przeprowadzili w laboratorium, a nie na ulicy. Nie dlatego, że opolscy kierowcy w
końcu zaprzestali procederu niewłaściwego parkowania swoich samochodów, ale
dlatego, że autorzy chcieli w ten sposób powiększyć trafność zewnętrzną swoich
badań. Badanie jest trafne zewnętrznie wówczas, gdy jego wyniki można uogólniać
na inne osoby i sytuacje niż faktycznie zbadane. Wzrost trafności zewnętrznej osiąga
się poprzez powtarzanie badań na odmiennych rodzajach osób badanych i z
użyciem odmiennych manipulacji zmiennymi niezależnymi i różnorodnych
operacjonalizacji zmiennych zależnych. Dzięki takiemu poszerzaniu zróżnicowania
manipulacji i/lub pomiarów w oczywisty sposób rośnie możliwość uogólniania
uzyskanej zależności na inne, niebadane sytuacje. Mała trafność zewnętrzna jest
częstym problemem badań laboratoryjnych z uwagi na to, że warunki laboratoryjne
dość mocno odbiegają od tego, co dzieje się w przebiegu naturalnych interakcji
społecznych.

Dotychczas przedstawione badania nad huśtawką emocjonalną nie stwarzają

takich kłopotów, ponieważ rozgrywały się dosłownie na ulicy. Jednak samo w sobie
nie zapewnia to jeszcze zadowalającej trafności zewnętrznej badań. Na przykład
dlatego, że we wszystkich trzech identycznie wyglądał pomiar zmiennej zależnej –
zawsze było to spełnianie prośby o wypełnienie studentce kwestionariusza. Stąd też
w Eksperymencie 4 zastosowano zupełnie inną operacjonalizację zmiennej zależnej
– osoby badane (którymi byli dla odmiany licealiści) proszono o udział w zbieraniu
pieniędzy na ulicach Opola na rzecz dzieci z sierocińca. Uczestnikom zapowiedziano
udział w “badaniach nad różnymi umiejętnościami i zdolnościami” i podzielono
losowo na trzy grupy. Jednej zapowiedziano udział w badaniu nad uczeniem się,
gdzie za każdy błąd mieli otrzymać bolesne “kopnięcie” prądem elektrycznym.
Drugiej zapowiedziano to samo, ale po pewnym czasie odwołano groźbę informując,
że prowadzący badania profesor zmienił zdanie i że wezmą udział w innym badaniu
nad koordynacją wzrokowo-ruchową, gdzie z pewnością nie czekają ich żadne szoki
elektryczne. Osoby z tej grupy zostały więc wprowadzane w stan ulgi. Wreszcie
trzeciej grupie od początku zapowiadano badania nad koordynacją wzrokowo-
ruchową. Jak przekonują dane z tabeli 2, eksperyment 4, badani w stanie ulgi
znacznie częściej ulegali prośbie, niż badani w stanie strachu (oczekujący na
wstrząsy elektryczne), lub w stanie neutralnym (oczekujący na badanie koordynacji).
Huśtawka emocjonalna okazała się raz jeszcze skuteczna – pomimo zmiany rodzaju
osób badanych, zmiany manipulacji eksperymentalnej i zmiany rodzaju
operacjonalizacji zmiennej zależnej.

Różnicowanie operacjonalizacji tej samej zmiennej zależnej lub niezależnej

jest ważnym elementem strategii SMAR. Podobnym i jeszcze ważniejszym
elementem tej strategii jest różnicowanie (dywergencja) zmiennych poddanych
badaniu. Weryfikacja hipotez formułowanych na dużym poziomie ogólności wymaga
zwykle zbadania nie jednej, lecz wielu różnych zmiennych zależnych, których często
nie można zmierzyć w tym samym badaniu, ponieważ pomiar jednej obniżyłby
wiarygodność pomiaru innych (interferencja pomiarów), albo dlatego, że pomiar
każdej z nich wymaga odmiennego scenariusza badawczego. Do weryfikacji takich
hipotez konieczna jest więc seria badań, z których każde poświęcone jest pomiarowi
innych zmiennych w nadziei na uzyskanie zbieżnych wyników pomimo rozbieżnych
pomiarów. Jest to więc dążenie do konwergencji wyniku przy dywergencji zmiennych
i metod ich pomiaru.

Przykładem takiej dywergencji zmiennych są badania nad ogólną hipotezą o dominacji

kategorii moralnych w formułowaniu ocen interpersonalnych – oceniając innego człowieka bardziej
kierujemy się informacjami na temat jego moralności-niemoralności, niż innymi informacjami o
podobnej wartościowości (Wojciszke, 1994, Wojciszke, Bazińska i Jaworski, 1998). Założenie to
opiera się na przesłance, że podstawową funkcją spostrzegania społecznego, a przynajmniej ocen
interpersonalnych, jest “lokowanie” innych osób na wymiarze dążenie-unikanie, a więc decydowanie o
tym, czy inna osoba jest dobroczynna dla spostrzegającego podmiotu (i warto dążyć do kontaktów z
nią), czy też jest szkodliwa (i warto jej unikać). Z tego punktu widzenia moralność-niemoralność
innego człowieka silniej powinna wpływać na oceny niż np. jego sprawność-niesprawność, choć wiele
cech moralnych ma wartościowość zbliżoną do cech sprawnościowych. Np. inteligencja i uczciwość są
jako cechy “same w sobie” mniej więcej jednakowo cenione - dlatego w całym tym programie
cechy/informacje dotyczące sprawności traktowano jako porównawcze w stosunku do cech/informacji
dotyczących moralności. Moralność-niemoralność innego człowieka bezpośrednio bowiem przekłada
się na zyski i straty spostrzegającej osoby (ze strony uczciwego człowieka nic mi nie grozi, złodziej
może okraść i mnie), podczas gdy sprawność tego pierwszego ma znaczenie jedynie wtórne i zależy
od tego, czy jest użyta do realizacji moralnych czy też niemoralnych celów (bystrość przyjaciela jest
zwykle dobroczynna, w przeciwieństwie do bystrości złodzieja).

Bezpośrednią konsekwencją założenia o dominacji kategorii moralnych jest

przewidywanie, że nasze oceny innych ludzi bardziej zależą od tego, co wiemy o ich

moralności niż o innych cechach o podobnej wartościowości. Aby sprawdzić to
rozumowanie poprosiliśmy naszych badanych o oszacowanie 10 moralnych i 10
sprawnościowych cech (o wyrównanej wartościowości) kilkunastu osób ze swego
otoczenia, a następnie o ogólną ocenę tych osób. Zgodnie z przewidywaniami
(sprawdzanymi metodą regresji wielokrotnej) okazało się, że sądy o cechach
związanych z moralnością pozwalają znacznie lepiej przewidywać oceny globalne,
niż sądy o cechach sprawnościowych. Pierwsze wyjaśniały średnio 53% wariancji
ocen, drugie – tylko 29% wariancji. Jednakże badanie to ma charakter korelacyjny, a
więc nie rozstrzyga, czy to sądy o moralności i sprawności z niejednakową siłą
wpływają na oceny globalne, czy też na odwrót – ogólny stosunek do człowieka
silniej wpływa na ocenę jego moralności niż sprawności. Stąd też hipotezę o
silniejszym uzależnieniu ocen od moralności niż sprawności sprawdzaliśmy także w
eksperymencie, w którym badani najpierw otrzymywali opisy zachowań nieznanych
sobie osób, a następnie dokonywali ich ocen. Treść zachowań zmieniała się według
schematu 2 (moralnie pozytywne lub negatywne) x 2 (sprawnościowo pozytywne lub
negatywne). Jak ilustruje rysunek 1, decydująca dla ocen okazała się informacja o
moralności. Gdy była ona dodatnia, ogólna ocena była zawsze pozytywna, nawet
przy ujemnej informacji o sprawności; gdy była ona ujemna, ocena była zawsze
negatywna, nawet przy dodatniej informacji o sprawności. Najbardziej pozytywne
oceny zyskiwały sobie osoby zarówno moralne, jak i sprawne. Najbardziej
negatywnie były natomiast oceniane osoby sprawne w czynieniu zła, a więc przy
informacji negatywnej moralnie, ale pozytywnej sprawnościowo.

Zaletą tego eksperymentu jest możliwość rozstrzygnięcia, że to informacje o

moralności-sprawności są przyczyną takich, a nie innych ocen, nie zaś odwrotnie.
Jego wadą jest natomiast badanie osób (spostrzeganych) fikcyjnych, jedynie
wyobrażanych sobie przez badanych na podstawie naszych słownych opisów ich
zachowań. Jednakże podobny wynik przyniosło poprzednio opisane badanie
korelacyjne, gdzie badani szacowali cechy rzeczywistych osób ze swego otoczenia i
oceniali je, choć nie wiadomo, co tam było przyczyną, a co skutkiem. Wady i zalety
obu tych badań są więc komplementarne, a wynik pozostaje wyraźnie podobny, co
rzecz jasna podnosi zaufanie do jego wiarygodności. Wady i zalety badań
korelacyjnych i eksperymentalnych zwykle przedstawiają się w taki właśnie
komplementarny sposób, stąd też równoczesne ich stosowanie w obrębie tego
samego programu badawczego jest ważnym elementem strategii SMAR.

--- tu Rysunek 1 ---

Założenie o dominacji kategorii moralnych pozwala sformułować kilka

dodatkowych hipotez szczegółowych (obok hipotezy głównej, że moralność bardziej
wpływa na oceny niż porównywalna pod względem pozytywności-negatywności
informacja o sprawności). Na przykład, skoro kategorie moralne są częściej używane
niż sprawnościowe, powinny się one cechować chroniczną dostępnością
pamięciową. Hipotezę tę sprawdzaliśmy w prostym badaniu, którego uczestników
poprosiliśmy, aby wymienili wszystkie te cechy, które chcieliby poznać u nieznanej
osoby, aby zorientować się, jaka ona jest (Wojciszke, Bazińska i Jaworski, 1998,
Badanie 1). Pierwsza dziesiątka najczęściej wskazywanych cech to: szczerość,
uczciwość, bycie wesołym, tolerancja, lojalność, inteligencja, prawdomówność, brak
egoizmu, odpowiedzialność i bycie miłym. Znaczna większość tych cech wyraźnie
dotyczy moralności, co wskazuje na podwyższoną, chroniczną dostępność tych
kategorii spostrzegania innego człowieka.
Początkową operacją procesu spostrzegania jest często poszukiwanie danych
o spostrzeganym człowieku, które staną się podstawą do wydania sądu na jego

temat. W jednym z eksperymentów prosiliśmy badanych o wskazanie na
dostarczonej im liście tych cech innego człowieka, które chcieliby sprawdzić (czy
tamten je ma czy nie), aby zorientować się na jaką ogólna ocenę on zasługuje, albo
czy warto go wybrać na skarbnika, albo czy warto go wybrać na negocjatora w
trudnym konflikcie. zasługuje on na ogólnie pozytywną, czy też negatywną ocenę.
Przy celu związanym z moralnością (skarbnik) badani rzecz jasna poszukiwali
najczęściej informacji o cechach moralnych; przy celu związanym ze sprawnością
(negocjator) najczęściej poszukiwali informacji o cechach sprawnościowych. Co
najważniejsze, także przy celu “ogólna ocena” badani dwukrotnie częściej
poszukiwali informacji na temat moralności niż sprawności spostrzeganej osoby,
choć cechy dotyczące obu tych dziedzin były wyrównane pod względem stopnia
wysycenia ich oceną (Wojciszke, Bazińska, Jaworski, 1998, Badanie 2). Informacja o
moralności jest więc bardziej potrzebna do wydania ogólnej oceny innego człowieka,
niż informacja o jego sprawności.
Kolejną operacją procesu spostrzegania osób jest interpretacja danych o
zachowaniu spostrzeganej osoby. Operację tę badaliśmy w eksperymencie, w którym
ludzie interpretowali zachowania bohaterów ośmiu historyjek interpretowalnych przez
pryzmat zarówno moralności, jak i sprawności (np. Zosia próbuje obronić Marysię
przed niesłusznymi zarzutami, ale robi to tak nieudolnie, że jeszcze bardziej ją
pogrąża– przykład zachowania świadczącego o moralności i o braku sprawności).
Badani proszeni byli o ocenę bohatera historyjki oraz o uzasadnienie oceny, które
było potem szacowane przez sędziów kompetentnych z uwagi na to, jak dalece
odwoływało się ono do względów moralnych lub sprawnościowych (Wojciszke, 1994,
Badanie 2). Połowa badanych interpretowała je z punktu widzenia aktora, czyli
samego działającego bohatera (mieli odtworzyć jego myśli i sposób rozumienia
sytuacji), połowa zaś - z punktu widzenia obserwatora danego zdarzenia (mieli
odtworzyć myśli osób, którym bohater wyrządzał dobro lub zło). Kategorie moralne
okazały się znacznie silniej niż sprawnościowe używane przez badanych
interpretujących cudze zachowania, a więc występujących z pozycji obserwatora
(odwrotnie było w przypadku pozycji aktora). Przy tym sposób interpretacji
zachowania był silnie powiązany z ocenami (badani podkreślający moralność Zosi z
przykładu w nawiasie oceniali ją pozytywnie, badani podkreślający jej nieudolność
oceniali ją negatywnie).

Interpretacja danych o zachowaniu osoby spostrzeganej była także

przedmiotem eksperymentu Bazińskiej i Wojciszke (1996), choć przy użyciu zupełnie
innej metodologii. Badanym osobom eksponowano na ekranie komputera słowne
opisy zachowań interpretowalnych w kategoriach zarówno moralnych, jak i
sprawnościowych - np. Aby zyskać poparcie, podlizywał się swojemu nowemu
szefowi, jednak z powodu kompletnego braku wyczucia tylko zraził go do siebie,
które to zachowanie świadczy zarówno o nieszczerości (cecha moralna), jak i o
niezręczności (cecha sprawnościowa). Kiedy badany zasygnalizował, że przeczytał i
zrozumiał opis zachowania, na ekranie pojawiało się pytanie o to, czy zachowanie to
świadczy o stosownej cesze moralnej (fałszywy?), bądź sprawnościowej
(niezręczny?). Pomiary czasów reakcji wykazały, że badani odpowiadali istotnie
szybciej na pytania o cechy moralne niż sprawnościowe, co wskazuje, że moralny
aspekt zachowań innego człowieka bardziej się obserwatorowi narzuca niż aspekt
sprawnościowy.
Przykłady te ilustrują najważniejszą zasadę strategii SMAR: kolejne replikacje
własnego wyniku polegają nie tylko na systematycznych modyfikacjach metody
pomiaru (czy manipulacji) tej samej zmiennej, ale także na systematycznej

dywersyfikacji zmiennych poddawanych badaniu. Skoro hipoteza dotyczy procesu
(np. spostrzegania i oceniania ludzi), to poszczególne badania składające się na cały
program powinny dotyczyć poszczególnych etapów tego procesu (np. kolejnych
operacji składających się na spostrzeganie – poszukiwania danych, ich interpretacji i
integracji w ocenę globalną). Ogólniej rzecz biorąc, jest to oczywiście przykład
generalnej reguły metodologicznej nakazującej weryfikowanie hipotezy teoretycznej
poprzez sprawdzanie możliwe dużej liczby, możliwie różnorodnych konsekwencji
empirycznych tej hipotezy. Strategia ta oznacza sprawdzanie nie pojedynczej
hipotezy, lecz całej teorii, w którą hipoteza owa jest uwikłana i z której wynika.
Nietrudno zauważyć, że autoreplikacje są niezbędnym elementem takiej strategii.

5. Sprawdzanie skuteczności manipulacji

Wróćmy raz jeszcze do programu badań nad huśtawką emocjonalną i

czwartego badania, które miało charakter laboratoryjny. Jednym z celów tego
eksperymentu było sprawdzenie skuteczności zastosowanej manipulacji, które
zwykle polega na zbadaniu, czy wywołuje ona zamierzony przez badacza stan lub
proces psychiczny. Kluczowym elementem huśtawki jest lęk. Jeżeli zastosowane
manipulacje wywoływały zamierzone przez autorów stany, to osoby oczekujące na
wstrząsy elektryczne powinny być najbardziej zalęknione, osoby oczekujące na
pomiar koordynacji powinny być najmniej zalęknione, zaś pomiędzy tymi krańcami
winny się znajdować osoby, u których oczekiwanie zmieniło się z jednego na drugie
(warunki ulgi). Oczekujący na badanie licealiści wypełniali kwestionariusz mierzący
natężenie aktualnie przeżywanego lęku. Wskaźniki lęku w trzech porównywanych
grupach okazały się dokładnie zgodne z przewidywaniami.

Sprawdzanie skuteczności manipulacji jest ważnym elementem strategii

SMAR, bowiem pozwala uniknąć błędu qui pro quo oraz dostarcza dowodów
trafności proponowanego przez badacza wyjaśnienia efektu. Pomiar zasadniczych
efektów manipulacji (tj. głównej zależności interesującej badacza) i pomiar
skuteczności manipulacji zwykle nie są możliwe w tym samym badaniu, ponieważ
pomiar skuteczności może zaburzać pomiar właściwego efektu i odwrotnie. Jeżeli
badamy wpływ poczucia winy na pomaganie, to możemy badanych wprowadzić w
poczucie winy (subtelnie nakłaniając by wzięli do ręki przedmiot, który
nieoczekiwanie “psuje się”) oraz zbadać czy tacy badani są bardziej skłonni pomagać
innemu człowiekowi (np. pozbierać rzeczy, które “przypadkiem” wysypują się z siatki
przechodzącej obok nieznajomej). Jednak nie możemy w tym samym eksperymencie
zmierzyć poczucia winy przeżywanego przez jego uczestników. Gdybyśmy zmierzyli
poczucie winy tuż po manipulacji, a jeszcze przed okazją do udzielenia pomocy,
zaburzylibyśmy trafność pomiaru podstawowej zmiennej zależnej, czyli pomagania –
np. dlatego, że badani zorientowaliby się, iż badanie dotyczy wpływu poczucia winy
na pomaganie, albo poczucie winy zmalałoby wskutek zawierzenia winy innemu
człowiekowi (w końcu na tym polega część katartycznego efektu spowiedzi).
Gdybyśmy zmierzyli poczucie winy na sam koniec, już po ewentualnym udzieleniu
pomocy, pomiar byłby nietrafny, gdyż poczucie winy mogło zmaleć u osób
pomagających (a wzrosnąć u niepomagających). W takiej sytuacji jedynym wyjściem
jest losowy podział badanych na dwie grupy, gdzie w jednej przedmiotem pomiaru
jest zasadnicza zmienna zależna (pomaganie nieznajomym), w drugiej zaś mierzona
jest skuteczność manipulacji (natężenie przeżywanego poczucia winy). Jest to
oczywiście odmiana auto-replikacji badania.

Zaburzający wpływ pomiaru zasadniczej zmiennej zależnej na pomiar

skuteczności manipulacji i odwrotnie jest szczególnym przypadkiem ogólniejszej

zasady intereferencji pomiarów: im więcej zmiennych (zależnych i/lub
pośredniczących) mierzymy w tym samym badaniu, tym mniejsza jest wiarygodność
każdego kolejnego pomiaru ponieważ rośnie błąd, jakim pomiar ten jest obciążony
wskutek dokonywania na tej samej osobie badanej pomiarów poprzednich. W
szczególności bezwartościowy bywa “retrospektywny” pomiar skuteczności
manipulacji dokonany już po pomiarze zmiennej zależnej. Badacz twierdzący, iż za
pomocą takich pomiarów wykazał skuteczność swojej manipulacji – a więc, że
manipulacja wpłynęła w zamierzony przezeń sposób na procesy psychiczne
badanego – często przypomina barona Műnnhausena opowiadającego, jak to
ciągnąc siebie samego za włosy wyciągnął siebie i konia z bagna. Wykazanie, iż
manipulacja wywołuje określone zmiany stanów lub procesów psychicznych oraz, że
wywołuje one określone następstwa tych zmian (np. w zachowaniu) wymaga z reguły
odrębnych badań, a więc systematycznie modyfikowanych autoreplikacji.

6. Poszukiwanie moderatorów zależności

Innym jeszcze celem laboratoryjnego eksperymentu Dolińskiego i Nawrata

było poszukiwanie moderatorów zależności między huśtawką emocjonalną, a
wzrostem podatności na wpływy społeczne. Moderator jakiejś zależności to czynnik,
który decyduje o jej występowaniu lub nie (czy też mniej kategorycznie – czynnik
decydujący o sile podstawowej zależności). Całkiem rozsądne jest np.
przypuszczenie, że moderatorem wpływu ulgi na uleganie wpływom społecznym w
pierwszych trzech eksperymentach było poczucie winy. Wszyscy uczestnicy
“ulicznych” badań Dolińskiego i Nawrata dopuścili się jakiegoś wykroczenia (w
niewłaściwym miejscu przechodzili przez ulicę lub parkowali samochód) i możliwe, że
właśnie dlatego przeżywana przez nich ulga nasilała podatność na cudze prośby,
bowiem poczucie winy nasila skłonność do pomagania innym. Stąd też autorzy do
swojego laboratorium zaprosili licealistów, którzy niczego nie przeskrobali,
przynajmniej tuż przed usłyszeniem skierowanej do nich prośby. Gdyby poczucie
winy odgrywało rolę moderatora interesującej tu nas zależności, huśtawka
emocjonalna powinna zaniknąć w tym badaniu. W rzeczywistości działała nadal, co
wskazuje na to, że poczucie winy nie jest warunkiem występowania tego zjawiska.

Poszukiwanie moderatorów jest ważnym elementem programów badawczych i

strategii SMAR ponieważ oznacza poszukiwanie granic, w jakich prawidłowości
psychologiczne obowiązują, a poznanie tych granic jest równie ważne jak poznanie
samych prawidłowości, cóż bowiem za pożytek z wiedzy, o której nie wiadomo kiedy
obowiązuje. Jest to wyrazem jednej z głównych różnic między wiedzą potoczną a
naukową – podczas ta pierwsza dość beztrosko formułuje prawidłowości ogólne, co
do których zakłada implicite, że obowiązują zawsze i wszędzie, wiedza naukowa
świadoma jest własnych ograniczeń – w tym faktu, iż każda prawidłowość,
przynajmniej w naukach społecznych, obowiązuje tylko w pewnych warunkach, choć
ich granice bywają czasami dość szeroko zarysowane.

Przykładem szeroko, choć nie zawsze obowiązującej prawidłowości jest

omawiana poprzednio dominacja kategorii moralnych nad sprawnościowymi w
spostrzeganiu osób, wykazana w około 10 badaniach (por. Wojciszke, 1999). Jednak
co najmniej dwa badania wykazały, że wzorzec owej dominacji ulega dokładnemu
odwróceniu, gdy człowiek interpretuje i ocenia swoje własne zachowania (Wojciszke,
1994). Między innymi wspominane już badanie, którego uczestnicy proszeni byli o
ocenę bohatera historyjki oraz o uzasadnienie oceny, które było potem szacowane
przez sędziów kompetentnych z uwagi na to, jak dalece odwoływało się ono do
względów moralnych lub sprawnościowych. Połowa badanych interpretowała je z

punktu widzenia aktora, czyli samego działającego bohatera (mieli odtworzyć jego
myśli i sposób rozumienia sytuacji), połowa zaś - z punktu widzenia obserwatora
danego zdarzenia (mieli odtworzyć myśli osób, którym bohater wyrządzał dobro lub
zło). Jak ilustruje rysunek 2 (strona prawa) kategorie moralne okazały się co prawda
znacznie silniej niż sprawnościowe używane przez badanych interpretujących cudze
zachowania (powtórzenie efektu dominacji kategorii moralnych w spostrzeganiu
innych), jednak w przypadku interpretowania zachowań własnych pojawiła się
tendencja dokładnie odwrotna, co ilustruje lewa strona rysunku 2.

--- tutaj rysunek 2 ---

Oczekiwanie dominacji kategorii sprawnościowych w spostrzeganiu siebie

wynika zresztą z tej samej logiki, która każe oczekiwać dominacji kategorii moralnych
w spostrzeganiu innych. Tak jak cudza moralność w większym stopniu wpływa na
nasze zyski-straty niż cudza sprawność, tak monitorowanie naszej własnej
sprawności w większym stopniu wpływa na nasze zyski-straty niż monitorowanie
własnej moralności (przynajmniej na krótką metę). Perspektywa aktor-obserwator
(czy interpretujemy zachowania własne czy też cudze) jest zatem bardzo silnym
moderatorem dominacji kategorii moralnych w spostrzeganiu – jak ilustruje rysunek
2, mamy tu do czynienia ze skrzyżowaną interakcją: w przypadku perspektywy
obserwatora (spostrzeganie cudzych zachowań) kategorie moralne dominują nad
sprawnościowymi, zaś w przypadku perspektywy aktora (spostrzeganie własnych
zachowań) kategorie sprawnościowe dominują nad moralnymi.

6. Poszukiwanie mediatorów zależności

Kolejny i w pewnym sensie najważniejszy etap programu badań empirycznych i
strategii SMAR to poszukiwanie mediatorów badanej zależności. Mediator to tyle, co
proces lub stan pośredniczący między zmienną niezależną (przyczyną), a zmienną
zależną (skutkiem). Znaleźć mediator zależności to tyle, co odpowiedzieć na pytanie
dlaczego ona występuje, podczas gdy znaleźć moderator to tyle, co odpowiedzieć na
pytanie kiedy (w jakich warunkach) ona występuje. Znalezienie mediatora jakiejś
zależności jest więc równoznaczne z empirycznym dowodem na wyjaśnienie tej
zależności. A ponieważ wyjaśnianie jest najważniejszą funkcją teorii, poszukiwanie
mediatorów można uważać za najważniejszy element programu badawczego.

Dlaczego nagłe wycofanie zagrożenia wywołuje wzrost podatności na wpływ

społeczny? Zważmy, że cztery dotąd omówione eksperymenty nie pozwalają udzielić
odpowiedzi na to pytanie, choć pozwalają wykluczyć niektóre możliwości. Nawiązując
do wcześniejszych prac Ellen Langer, Doliński i Nawrat postawili hipotezę, że
powodem takiego działania ulgi jest swoista bezmyślność, w jaką człowiek popada w
tym stanie. Po nagłym ustąpieniu zagrożenia człowiek tak jest jeszcze pochłonięty
myśleniem o przeszłości (ale mi się ugięły kolana) i o tym co mogłoby się stać (a co
by było, gdyby mnie jednak złapali), że brak mu umysłowych (“uwagowych”) zasobów
operacyjnych, by w przemyślany sposób przetwarzać aktualnie dochodzące doń
informacje. W konsekwencji, przetwarzanie informacji staje się bezrefleksyjne i
człowiek automatycznie ulega pojawiającym się prośbom, czy naciskom ze strony
innych.

Aby sprawdzić to rozumowanie, autorzy zaaranżowali jeszcze jeden

eksperyment, podczas którego elegancko ubrana dwójka studentów zbierała
pieniądze w kweście ulicznej na rzecz dzieci upośledzonych. Studenci podchodzili do
co dziesiątego samotnego przechodnia i potrząsając puszką i mówili “Przepraszam
Pana. Zbieramy pieniądze. Czy mógłby nam Pan dać trochę pieniędzy” były to
warunki “tylko prośba.” W warunkach uzasadnienia rzeczywistego kwestujący

dodawali “Jesteśmy z organizacji Studenci dla dzieci upośledzonych. Czy mógłby
Pan włączyć się do naszej akcji, bo chcemy zebrać tak dużo pieniędzy jak to
możliwe, aby pokryć koszt wakacyjnego obozu dla kilkorga dzieci upośledzonych
umysłowo.” Wreszcie w warunkach uzasadnienia pozornego, czyli wypowiedzi o
gramatycznej strukturze uzasadnienia, lecz nie przedstawiającej żadnych
argumentów, kwestujący mówili “Czy mógłby nam pan dać trochę pieniędzy
ponieważ chcemy zebrać tak dużo pieniędzy, jak to tylko możliwe?” Autorzy
zakładali, że w normalnych warunkach ludzie będą dostrzegać pozorność
uzasadnienia i dawać pieniądze równie rzadko, jak w warunkach braku
uzasadnienia. Natomiast w warunkach “bezmyślności” wywołanej ulgą (ponownie
policyjny gwizdek w odniesieniu do osób nieprawidłowo przechodzących ulicę) nie
będą w stanie precyzyjnie przetworzyć tej informacji i zareagują na uzasadnienie
pozorne w taki sam sposób jak na rzeczywiste. Wyniki przedstawione w tabeli 2
(Eksperyment 5) dokładnie potwierdziły te przewidywania, sugerując, że powodem
wzrostu podatności na wpływy społeczne w sytuacji ulgi jest swoista “bezmyślność,”
czyli brak operacyjnych zasobów umysłów, które są niezbędne do skutecznej obrony
przed naciskiem innych.
Rozróżnienie moderatorów i mediatorów w przyjętej tu postaci zaproponowali
Baron i Kenny (1986), którzy podają także dość szczegółowe wskazówki o metodach
rozstrzygania, czy jakaś zmienna jest, czy też nie jest moderatorem, bądź
mediatorem danej zależności. Schematyczne porównanie moderatora i mediatora
przedstawia rysunek 3.

-- tutaj rysunek 3 ---

Moderator to zmienna, której wartość decyduje o kierunku i/lub sile

zasadniczej zależności. Zasadniczą zależność obrazuje na rysunku strzałka A –
istotność związku zasadniczych zmiennych 1 i 2 jest świadectwem istnienia
podstawowej zależności. Świadectwem, że jakaś trzecia zmienna stanowi moderator
tej zależności jest natomiast istotność strzałki C; nie ma przy tym znaczenia, czy
zależność obrazowana strzałką B jest istotna, czy nie.

W klasycznych kategoriach analizy wariancji dowodem na to, że zmienna 3

ma status moderatora związku zmiennych 1 i 2 jest istotna interakcja zmiennych 1 i 3
w wyznaczaniu natężenia 2 (ta ostatnia ma więc status zmiennej zależnej, podczas
gdy 1 i 3 są w schemacie eksperymentu zmiennymi niezależnymi). Na przykład
wiadomo, że sygnały cierpienia ofiary (zmienna 1) hamują agresję (zmienna 2), co
jednak silnie zależy od płci agresora (zmienna 3): sygnały cierpienia ofiary
skuteczniej hamują agresję u kobiet niż u mężczyzn. Płeć jest więc moderatorem
związku sygnałów cierpienia ofiary z agresją.

W kategoriach badań korelacyjnych, 1 i 2 są zmiennymi skorelowanymi,

natomiast 3 jest zmienną, której kontrola za pomocą korelacji częściowej zmienia
natężenie i/lub kierunek podstawowej korelacji (pierwszego rzędu) między 1 i 2.
Jednym z tradycyjnych problemów psychologii społecznej jest związek między
postawą (zmienna 1) a zachowaniem (zmienna 2). Średnio rzecz biorąc związek ten
wynosi r = 0,39 (Eckes i Six, 1992; Kraus, 1995), jednak dobrze wiadomo, że jego
wielkość zależy od licznych zmiennych trzecich, takich jak ważność i aktywizacja
postawy (postawy ważne i zaktywizowane wywierają istotnie silniejszy wpływ na
zachowanie od nieważnych i nie aktywizowanych), cechy osobowości posiadacza
postawy (osoby o pryncypialnej koncepcji siebie przejawiają silniejszy związek
postaw z zachowaniem niż osoby o koncepcji pragmatycznej), czy cechy sytuacji
(jeżeli w danej sytuacji obowiązują jakieś silne normy postępowania, związek
postawy z zachowaniem spada). Wymienione zmienne trzecie są więc moderatorami

związku postawa-zachowanie. Przykłady te ilustrują, iż moderatorami bywają
zmienne o bardzo różnorodnym charakterze – mogą to być równie dobrze zmienne
osobowościowe, czy osobnicze, jak i zmienne sytuacyjne.

Mediatorami są natomiast z reguły stany lub procesy psychiczne

pośredniczące między jakąś zmienną niezależną a jakąś zmienną zależną. Sposób
ich identyfikacji przedstawia prawa strona rysunku 3. Zmienna 3 ma status mediatora
jeżeli spełnione są dwa warunki. Po pierwsze, w analizie wstępnej istotne okazują się
wszystkie związki obrazowane strzałkami D, E i F, co oznacza, że zmienna 1 wpływa
na zmienną 2 zarówno bezpośrednio (strzałka E), jak i za pośrednictwem zmiennej 3
(strzałki E i F: zmienna 1 wpływa na 3, zaś zmienna 3 wpływa na 2). Po drugie,
związek E, zmiennej 1 z 2 zanika (lub przynajmniej istotnie słabnie), jeżeli uwzględnić
w analizie (kontrolować statystycznie) dwa pozostałe związki D i F.

W przypadku badań korelacyjnych stosowną metodą analizy są tu równania

liniowo-strukturalne. Np. Sędek (1995) wykazał w serii eleganckich badań, że
przeżywanie lęku na lekcjach (zmienna 1) hamuje postępy szkolne uczniów z danego
przedmiotu (zmienna 2). Jednakże związek lęku z niskimi ocenami całkowicie zanikał
po uwzględnieniu stanu bezradności intelektualnej (zmienna 3), czyli nękającego go
niezrozumienia tego, co dzieje się na lekcji, pomimo podejmowanych w przeszłości
prób by to zrozumieć. Sugeruje to, że lęk w klasie szkolnej jest o tyle szkodliwy dla
wyników nauczania, o ile wywołuje bezradność intelektualną, natomiast rzeczywistym
wrogiem ucznia jest bezradność – bowiem pogarsza ona wyniki szkolne nawet po
eliminacji wpływu lęku. Przy tym inne analizy tego autora pokazały, że mediatorem
wpływu bezradności na wyniki nauczania nie jest np. inteligencja ucznia, bowiem
nawet po statystycznej eliminacji oddziaływań inteligencji ujemny związek
bezradności z wynikami nauczania pozostawał istotny.

W przypadku badań eksperymentalnych wielu badaczy traktuje jako test

mediacji dwukrotną analizę wariancji – raz przeprowadzoną na zmiennej zależnej
(zmiennej 2), drugi raz na domniemanym mediatorze (zmiennej 3). Jeżeli średnie
zmiennej 2 i 3 układają się podobnie (jako funkcja zmiennej 1), wnioskuje się, że
zmienna 3 stanowi pośrednik oddziaływania zmiennej 1 na 2. W rzeczywistości taka
droga wnioskowania o statusie mediatora jest jednak bardzo zawodna (Fiske, Kenny
i Taylor, 1982), m. in. dlatego, że sam fakt iż zmienne 2 i 3 w podobny sposób zależą
od zmiennej 1, wcale jeszcze nie świadczy o ich związku przyczynowo-skutkowym,
czyli o tym, że zmiany w zakresie 2 zależą od zmian w zakresie 3 (np. korelacja
zmiennych 2 i 3 może być pozorna i zależeć od jakiejś nieznanej badaczowi
zmiennej 4). Baron i Kenny (1986) przekonują, że bardziej adekwatnym sposobem
testowania mediacji jest dokonanie trzech analiz regresji szacujących kolejno:
- wpływ zmiennej niezależnej (1) na pośredniczącą (3),
- wpływ zmiennej niezależnej (1) na zmienną zależną (2),
- wpływ zmiennej niezależnej (1) i pośredniczącej (3) na zmienną zależną (2).
O tym, że zmienna (3) ma status mediatora można wnioskować, gdy obie pierwsze
analizy ujawnią istotne współczynniki regresji, a analiza trzecia ujawni istotny
współczynnik regresji 3-2. Równocześnie w analizie trzeciej współczynnik regresji 1-2
powinien spaść do zera lub przynajmniej istotnie zmaleć w porównaniu z
analogicznym współczynnikiem uzyskanym w analizie drugiej.

Moderatory i mediatory są zwykle identyfikowane przez psychologów dla

różnych powodów i w różnych warunkach. Typowa sytuacja, w której psychologowie
poszukują moderatorów, to występowanie zależności słabej i/lub mało rzetelnej, która
czasami występuje, a czasami zanika, jak np. wpływ postaw na zachowanie.
Identyfikacja moderatorów ma więc duże znaczenie praktyczne, pozwala bowiem

określić warunki, w których jakaś zależność występuje i odróżnić je od warunków, w
których zależność zanika, nawet jeżeli nie rozumiemy dlaczego tak się dzieje.
Typowa sytuacja, w której psychologowie poszukują mediatorów to natomiast
występowanie zależności silnej, na tyle silnej, że można założyć jej istnienie z dużą
dozą pewności i poświęcić się dociekaniom dlaczego (na mocy jakich psychicznych
procesów pośredniczących) ona występuje. Poszukiwanie mediatorów jest więc
istotnym elementem budowania teorii psychologicznej.

Znajomość mediatorów prawie zawsze umożliwia precyzyjne wskazanie

przynajmniej niektórych moderatorów; natomiast znajomość moderatorów
niekoniecznie oznacza wiedzę o mediatorach - możemy nie rozumieć dlaczego np.
płeć jest moderatorem jakiejś zależności, choć wiemy, w jaki sposób ją zmienia.
Jednak identyfikacja moderatora zależności jest zwykle przynajmniej pierwszym
krokiem w kierunku zrozumienia, dlaczego zależność ta istnieje. Np. dobrze wiadomo
z licznych badań, iż kobiety intensywniej przeżywają swoje emocje niż mężczyźni (a
więc płeć jest moderatorem intensywności uczuć w reakcji na emotogenne bodźce).
Michele Grossman i Wendy Wood (1993) wykazały, że ta różnica płci rośnie wraz ze
wzrostem stopnia, w jakim porównywane kobiety i mężczyźni wierzą w istnienie
ogólnych różnic między kobietami (uczuciowymi i impulsywnymi) a mężczyznami
(opanowanymi i racjonalnymi). Kiedy jednak badanych poinstruowano, że właściwa
reakcja na pokazywane im fotografie pewnych scenek polega na odczuwaniu silnych
emocji, albo słabych emocji, różnice między płciami zanikały – zarówno gdy
emocjonalność reakcji mierzono za pomocą samoopisów, jak i wskaźników
fizjologicznych (m.in. EMG). Różnice owe pozostawały widoczne w tej grupie
mężczyzn i kobiet, w której nie wpływano w żaden sposób na normatywne
przekonania co do emocjonalnego reagowania na pokazywane im bodźce. W ten
sposób autorki wykazały, iż mediatorem (pośrednikiem) związku między
emotogennymi bodźcami, a intensywnością reakcji emocjonalnych są normatywne
przekonania dotyczące tego, jaki stopień emocjonalności reakcji jest w danej sytuacji
właściwy. Płeć jest moderatorem tego związku dlatego, iż elementem stereotypu płci
(z którym ludzie się identyfikują) są normatywne przekonania dotyczące siły
reagowania na bodźce emotogenne.

7. Metaanaliza: ilościowa integracja wyników różnych badań

Czy

huśtawka emocjonalna jest skuteczną techniką manipulacji społecznej?

Odpowiadając na to pytanie jesteśmy w dosyć komfortowej sytuacji, ponieważ
wszystkie (i jak dotąd nieliczne) znane badania na ten temat mają tę samą wymowę
– wszystkie wskazują na skuteczność huśtawki. Jest to jednak sytuacja raczej
wyjątkowa, bowiem w przypadku większości problemów psychologicznych (jak
skuteczność psychoterapii, wpływ postaw na zachowanie, różnice między kobietami i
mężczyznami pod względem zdolności werbalnych, matematycznych czy agresji)
istnieją liczne badania o nierzadko sprzecznych wynikach. W takiej sytuacji
konieczna jest jakaś integracja istniejących wyników badań, której dokonywać można
na dwa sposoby – za pomocą jakościowej narracji i ilościowej metaanalizy.

Jakościowa narracja to tworzenie wewnętrznie spójnej interpretacji, czyli

“opowieści” o wynikach dotyczących danej zależności – czy zależność istnieje, jak
jest jej zwykła siła, jakie są wyjątki od reguły, kiedy zdaje się ona pojawiać, a kiedy
zanikać i dlaczego. Ten tradycyjny sposób podsumowywania wyników różnych
badań ma jednak zasadniczą wadę – ponieważ dochodzenie do konkluzji nie jest w
nim podporządkowane jasnym i sformalizowanym regułom, treść wyciąganych
konkluzji silnie zależy od poglądów osoby, która je formułuje. Oczywiście, konkluzje

okazują się zwykle zgodne z poglądami autora. Jeżeli więc jakiś zbiór wyników jest
niejednorodny (co w psychologii, jak i w nauce w ogóle, stanowi raczej regułę niż
wyjątek), podsumowujący go autorzy o różnych poglądach mogą dojść do zgoła
odmiennych wniosków w oparciu o te same dane. Tego mankamentu nie ma
metaanaliza – ilościowa metoda integrowania w całość wyników różnych badań nad
tym samym problemem. Metaanaliza opiera się na prostej logice, którą można opisać
w czterech krokach.

Krok pierwszy to odnalezienie wszystkich badań na dany temat. W przypadku

huśtawki emocjonalnej zadanie jest proste, ponieważ wykonano na ten temat
niewiele i stosunkowo niedawnych badań. Oprócz pięciu opisanych eksperymentów,
opublikowano jeszcze jedno tylko badanie opisywane przez Dolińskiego (1997).
Jednakże nad skutecznością psychoterapii, czy różnicami płciowymi pod względem
agresji wykonano dosłownie setki badań i ich odnalezienie jest niełatwą sztuką (dużą
pomocą są tu komputerowe bazy danych – w szczególności prowadzony przez
American Psychological Association baza PsychLit zawierająca streszczenia
niemalże wszystkich artykułów, jakie ukazały się w różnych językach od roku 1887
do chwili obecnej).

Krok drugi to selekcja badań do metaanalizy – odrzucenie tych, które

zawierają niepełne dane lub z jakichś względów są niewiarygodne – np. w przypadku
skuteczności psychoterapii odrzucimy badania bez grupy kontrolnej nie poddanej
psychoterapii. Ustalenie kryteriów wiarygodności wyniku powinno oczywiście
poprzedzać faktyczną metaanalizę, tak aby jej wyniki nie mogły wpływać na treść
kryteriów.

Krok trzeci to ustalenie jakiegoś miernika siły rozważanego efektu –

jednakowego dla wszystkich badań. W przypadku huśtawki emocjonalnej może to
być różnica odsetka osób ulegających wpływowi społecznemu w warunkach huśtawki
i neutralnych. Różnica ta jest równoważna współczynnikowi korelacji, o czym się
zaraz przekonamy. Często używanym wskaźnikiem siły efektu jest statystyka d
Cohena (1988), czyli standaryzowana różnica między średnimi porównywanych grup
(np. różnica między średnią emocjonalnością mężczyzn i kobiet wyrażona w
jednostkach odchylenia standardowego łącznego rozkładu emocjonalności obu tych
grup). Statystyka d i współczynnik korelacji r Pearsona są zresztą wzajemnie
przekładalne – istnieją reguły przeliczania jednaj na drugą (Cohen, 1988; Rosenthal,
1991b).

Wreszcie krok czwarty to ustalenie, jaka jest wartość średnia owego

wskaźnika siły efektu w jakiejś grupie badań, zwykle we wszystkich dostępnych
badaniach na dany temat spełniających jakieś minimalne wymogi metodologiczne.
Towarzyszy temu z reguły oszacowanie przedziału ufności dla tej średniej oraz test
homogeniczności efektu, a więc sprawdzenie, czy w danej grupie badań wskaźnik
siły efektu jest jednorodny, czy też nie. Tego rodzaju testy zwykle wskazują na
niejednorodność, a więc że rozsiew wskaźnika siły efektu jest większy niż wynikałoby
to z samego przypadku, co pozwala stawiać i sprawdzać hipotezy co do
domniemanych przyczyn tego zróżnicowania.

Średni współczynnik korelacji huśtawka-uleganie w sześciu opublikowanych

badaniach na ten temat wyniósł 0,28. Co to znaczy? Jak ilustruje tabela 3, bez
huśtawki różnym prośbom ulegało, średnio rzecz biorąc, 33% nagabywanych, zaś w
warunkach huśtawki było to już 61%. Różnica między tymi warunkami to właśnie 28,
czyli współczynnik korelacji pomnożony przez 100 (Rosenthal i Rubin, 1982).

--- tutaj Tabela 3 ---

Czy wzrost odsetka osób ulegających wpływowi społecznemu o 28% to dużo

czy mało? Odpowiedź w oczywisty sposób zależy od kontekstu – przed wszystkim od
treści wpływu społecznego. Wzrost o 28% osób ulegających prośbie o złożenie
niewielkiego datku pieniężnego, można uważać za mały lub umiarkowany. Gdyby
jednak prośba dotyczyła darowania miliona dolarów albo życia, to wzrost jej
skuteczności o 28% należałoby uznać za sprawę pierwszorzędnej wagi. To czy jakaś
zależność jest silna czy słaba, zależy więc nie tylko od wielkości współczynnika
korelacji, ale i od tego, czego on dotyczy. Chyba najlepszym tu przykładem jest
przytaczane przez Rosenthala (1991b) badanie nad skutkami zażywania aspiryny
prowadzone na próbie ponad 22 tysięcy lekarzy. Losowo wybrana połowa z nich
zażywała co 2 dzień tabletkę aspiryny, druga połowa zażywała placebo. Po pewnym
czasie eksperyment ten przerwano z powodów etycznych, bowiem okazało się iż
aspiryna hamuje zapadalność na zawał serca. Korelacja między zażywaniem
aspiryny a zapadaniem na zawał wynosiła przy tym 0,04 (!), była więc tak mała, że w
standardowym badaniu psychologicznym nie zostałaby w ogóle odnotowana. A
jednak ta korelacja przekładała się na pewną liczbę ludzkich istnień i to wystarczyło
autorom badania do przerwania eksperymentu, by poinformować wszystkich jego
uczestników o pożytkach aspiryny.

Konkluzje

Repetitio est mater studiorum (powtarzanie jest matką wiedzy) powiada znana

maksyma nawiązująca do losu średniowiecznych żaków, którzy siedząc na
drewnianych ławach uczyli się łaciny chóralnie powtarzając za magistrem zdania w
tym języku. Powtarzanie jest także matką wiedzy psychologicznej, tyle, że nie jest to
powtarzanie mechaniczne, ale konstruowanie ciągu badań, w których pewne
elementy dokładnie się powtarzają, inne zaś są celowo zmieniane, według strategii
SMAR – Systematycznie Modyfikowanych Auto-Replikacji. Jak starałem się pokazać,
SMAR służy co najmniej siedmiu następującym celom: (1) replikacji podstawowego
efektu, (2) sprawdzaniu skuteczności manipulacji, (3) polepszaniu trafności
wewnętrznej, (4) polepszaniu trafności zewnętrznej, (5) eliminacji alternatywnych
wyjaśnień, (6) poszukiwaniu moderatorów efektu oraz (7) poszukiwanie mediatorów
efektu. Współczesna psychologia akceptuje jako rzeczywiste tylko prawidłowości
wielokrotnie uzyskiwane w programach badań, w których zrealizowano przynajmniej
większość wymienionych celów.

Choć wielu badaczom powtarzanie wyników własnych badań wydaje się

przedsięwzięciem nudnym i niepotrzebnym, zgromadzone tu argumenty przekonują,
mam nadzieję do tezy, że w istocie bez powtarzania właściwie nie sposób udowodnić
czegokolwiek w psychologii rozumianej jako nauka empiryczna. Nie sposób
dowiedzieć się, jaka jest badana rzeczywistość, a dokładniej – czy rzeczywistość
przedstawia się tak, jak to zakłada nasza teoria.

Kto SMARuje ten jedzie – bez elementów tej strategii nie sposób uzyskać

sensownych, wiarygodnych i poddających się jednoznacznej interpretacji danych
empirycznych. Dodajmy, że bez tej strategii nie sposób także opublikować wyników
badań w dobrym czasopiśmie, cieszącym się międzynarodowym uznaniem i
czytanym w świecie, a więc przez liczniejszą grupę osób niż nasi znajomi, którym i
tak o swoich badaniach już opowiedzieliśmy. Oczywiście, SMARowanie, jak (prawie)
wszystko, należy stosować z umiarem – nie sposób czekać z publikacją wyniku na
całkowite spełnienie wszystkich siedmiu omówionych tu celów programu
badawczego. Nie sposób jednak oczekiwać od krytycznych czytelników, aby
uwierzyli w jednorazowo uzyskany efekt, którego nawet nam samym nie udało się
powtórzyć.

BIBLIOGRAFIA

Baron, R. M., Kenny, D. A (1986). The moderator-mediator variable distinction in

social psychological research: Conceptual, strategic, and statistical
considerations. Journal of Personality and Social Psychology, 51, 1173-1182.

Bazińska, R., Wojciszke, B. (1996). Drawing inferences on moral and competence-

related traits. Polish Psychological Bulletin, 27, 293-299.

Brzeziński, J. (1996). Metodologia badań psychologicznych. Warszawa:

Wydawnictwo Naukowe PWN.

Buss, D. M. (1996). Ewolucja pożądania. Strategie doboru seksualnego ludzi.

Gdańsk: Gdańskie Wydawnictwo Psychologiczne.

Buss, D. M. i in. (1990). International preferences in selecting mates: A study of 37

cultures. Journal of Cross-Cultural Psychology, 21, 5-47.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Wyd. 2.

Hillsdale, NJ: Erlbaum.

Doliński, D. (1997). O niektórych konsekwencjach nagłego wycofania źródeł emocji.

Przegląd Psychologiczny, 40, 9-20.

Doliński, D., Nawrat, R. (1994). Huśtawka emocji jako nowa technika manipulacji

społecznej. Przegląd Psychologiczny, 37, 7-20.

Doliński, D., Nawrat, R. (1998). “Fear-then-relief” procedure for producing

compliance: Beware when the danger is over. Journal of Experimental Social
Psychology, 34, 27-50.

Eckes, T., Six, B. (1992). Fakten und Fiktionen in der Einstellungs-Verhalktens-

Forschung: Eine Meta-Analyse. Zeitschrift fűr Sozialpsychologie, 253-271.

Ernst, C., Angst, J. (1983). Birth order: Its influence on personality. Berlin:Springer-

Verlag.

Fishbein, M., Ajzen, I. (1975). Belief, attitude, intention and behavior. An introduction

to theory and research. Reading: Addison-Wesley.

Fiske, S. T., Kenny, D. A, Taylor, S. E. (1982). Structural models for the mediatopn of

salience effects on attribution. Journal of Experimental Social Psychology, 18,
105-127.

Gardner, M. (1957). Fads and fallacies in the name of science. New York: Dover

Publications, Inc.

Grossman, M., Wood, W. (1993). Sex differences in intensity of emotional

experience: A social role interpretation. Journal of Personality and Social
Psychology, 65, 1010-1022.

Harris, J. R. (2000). Geny czy wychowanie? Co wyrośnie z naszych dzieci i

dlaczego. Warszawa: Jacek Santorski & Co.

Hensley, W. E. (1991). Pupillary dilation revisited: The constriction of a nonverbal

cue. W: J. W. Neuliep (red.) Replication research in behavioral sciences (s.
97-104). Newbury Park, C. A.: Sage Publications.

Hess, E. H. (1975). The tell-tale eye. New York: Van Nostrand Reinhold.
Ito, T. A., Miller, N. Pollock, V. E. (1996). Alcohol and aggression: A meta-analysis on

the moderating effects of inhibitory cues, triggering events, and self-focused
attention. Psychological Bulletin, 120, 60-82.

Kraus, S. J. (1995). Attitudes and the prediction of behavior: A meta-analysis of the

empirical literature. Personality and Social Psychology Bulletin, 21, 58-75.

Lang, A. R., Goeckner, D. J., Adesso, V. J., Marlatt, G. A. (1975). Effects of alcohol

on aggression in male social drinkers. Journal of Abnormal Psychology, 84,
508-518.

Neuliep, J. W., Crandall, R. (1991). Editorial bias against replication research. W: J.

W. Neuliep (red.) Replication research in behavioral sciences (s. 85-90).
Newbury Park, C. A.: Sage Publications.

Pratkanis, A. R., Eskenazi, J., Greenwald, A. G. (1994). What you expect is what you

believe (but not necessarily what you get): A test of the effectiveness of
subliminal self-help audiotapes. Basic and Applied Social Psychology, 15,
251-276.

Rosenthal, R. (1991a). Replication in behavioral research. W: J. W. Neuliep (red.)

Replication research in behavioral sciences (s. 1-30). Newbury Park, C. A.:
Sage Publications.

Rosenthal, R. (1991b). Meta-analytic procedures for social research. Wyd. 2,

zmienione. Newbury Park, CA: Sage

Rosenthal, R., Rubin, D. B. (1982). A simple, general purpose display of magnitude

of experimental effect. Journal of Educational Psyhcology, 74, 166-169.

Schooler, C. (1972). Birth order effects: Not here, not now. Psychological Bulletin, 78,

161-175.

Sędek, G. (1995). Bezradność intelektualna w szkole. Warszawa: Wydawnictwo

Instytutu Psychologii PAN.

Stapel, D. A. (2000). Moving from fads and fashions to integration: Illustrations from

knowledge accessibility research. European Bulletin of Social Psychology, 12,
4-27.

Wojciszke, B. (1994). Multiple meanings of behavior: Construing actions in terms of

competence or morality. Journal of Personality and Social Psychology, 67,
222-232.

Wojciszke, B. (1999). Grzech czy porażka? Moralne i sprawnościowe kategorie w

potocznym rozumieniu świata społecznego. W: B. Wojciszke i M. Jarymowicz
(red.) Psychologia rozumienia zjawisk społecznych (ss. 34-51). Warszawa:
PWN.

Wojciszke, B., Bazińska, R., Jaworski, M. (1998). On the dominance of moral

categories in impression formation. Personality and Social Psychology
Bulletin, 12, 1245-1257.

Tabela 1. Przykład replikacji udanej według kryterium siły efektu, a nieudanej według kryterium

istotności statystycznej (za Rosenthalem, 1991a, s. 15).

Badacz

_________________________

Kowalski

Nowak

łącznie

Średnia

grupy

eksperymentalnej 0,38

0,36

0,376

Średnia

grupy

kontrolnej 0,26

0,24

0,256

Wielkość różnicy 0,12

0,12

0,120

Test

2,21

1,06

2,45

Liczba

stopni

swobody

(df)

Dwustronne

0,03

0,30

0,02

Wskaźnik siły

efektu

0,50

Wskaźnik siły

efektu

0,24

Statystyka

2,17

1,03

2,40

Tabela 2. Odsetki osób ulegających próbom wpływu w różnych warunkach poszczególnych

eksperymentów składających się na program badań nad “huśtawką emocjonalną” (zacienione –

warunki ulgi)

-----------------------------------------------------------------------------------------------------------------

Eksperyment 1 (zgoda na wypełnienie kwestionariusza)

Przechodzący ulicę – gwizdek

Przechodzący ulicę – bez gwizdka

Idący wzdłuż

chodnika

Eksperyment 2 (zgoda na wypełnienie kwestionariusza)

Kartka za wycieraczką

Kartka

drzwiach

Brak kartki

Eksperyment 3 (zgoda na wypełnienie kwestionariusza)

Reklama za wycieraczką

Wezwanie na policję za wycieraczką

Reklama

drzwiach

Brak kartki

Eksperyment 4 (zgoda na udział w kweście)

Oczekiwanie na wstrząsy elektryczne

Oczekiwanie na wstrząsy, potem wycofanie

Oczekiwanie na badanie koordynacji

Eksperyment 5 (złożenie datku pieniężnego)

Przechodzący ulicę – gwizdek
Tylko

prośba

Prośba z uzasadnieniem pozornym

Prośba z uzasadnieniem rzeczywistym 72
Przechodzący ulicę – bez gwizdka
Tylko

prośba

Prośba z uzasadnieniem pozornym

Prośba z uzasadnieniem rzeczywistym 58
-----------------------------------------------------------------------------------------------------------------
(Źródło: Doliński i Nawrat, 1994)

Tabela 3. Średni odsetek osób ulegających prośbie w warunkach huśtawki
emocjonalnej i braku huśtawki – wyniki metaanalizy.

Brak

huśtawki

huśtawka

emocjonaln

Ulegli 33

Nie ulegli

Razem 100 100

Uwaga: Metaanalizie poddano wyniki 5 eksperymentów Dolińskiego i Nawrata (1998)
i 1 eksperymentu A. Borkowskiej cytowanego przez Dolińskiego (1997).

Rysunek 1. Dominacja kategorii moralnych w spostrzeganiu - ocena osoby
przejawiającej zachowania moralne lub niemoralne, a przy tym sprawne bądź
niesprawne (Wojciszke, Bazińska i Jaworski, 1998).

-2,11

1,19

-2,77

3,5

-4

-3

-2

-1

niemoralne

moralne

Moralność zachowań

cena gl

obal

niesprawne
sprawne

Rysunek 2. Dominacja kategorii moralnych nad sprawnościowymi w interpretacji
zachowań cudzych (perspektywa obserwatora) i sprawnościowych nad moralnymi
(perspektywa aktora) (Wojciszke, 1994).

4,2

2,62

2,73

4,46

aktor

obserwator

perspektywa

nat

ęż

inte

rpre

sprawność
moralność

MODERATOR

MEDIATOR

Zmienna

Interakcja

1 x 3

Rysunek 3. Schematyczne ilustracje pojęcia moderatora i mediatora według Barona i
Kenny’ego (1986).

Wyszukiwarka

Podobne podstrony:
MATEMATYKA FINANSOWA ĆWICZENIA 3 (25 03 2012)
25.03.2010, prawo administracyjne wykłady
Metale ciezkie w cemencie i paliwach wtornych seminarium 25 03 2010
25.03.2012 Techniczne bezpieczeństwo pracy
4) 25 03 2012
25 03 2013
Literaturoznawstwo (25 03 2013)
zajęcia 25.11.2009, agroturystyka - notatki
Buee lab 25 03 2013 Impedancja petli zwarcia
Zajęcia 5 (30 03 2012) Niccolo Machiavelli
Bezpieczeństwo imprez masowych 25.03.2012, Sudia - Bezpieczeństwo Wewnętrzne, Semestr IV, Bezpieczeń
PRAWO FINANSOWE 25.03.2012, II rok, Wykłady, Prawo finansowe
MPLP 338.;339 13.03.;25.03.2012
BDiA Projektowanie Semestr 6 Zajecia nr 03 Rysunki przekrojow normalnych z konstrukcja nawierzch
Zajęcia z adresowania 4 03 2013
Techniki wytwarzania 25.03.2013r, UTP, II semestr, Techniki Wytwarzania
Kultura, UCZELNIA - ZARZĄDZANIE, Postepowania nabywców - wykłady, wykład 25.03
KONSPEKT LEKCJI WYCHOWANIA FIZYCZNEGO 25.03, Scenariusze i konspekty

więcej podobnych podstron