background image

Do pracy zbiorowej pod redakcją Jerzego Brzezińskiego (2002) 

W druku 

 
 
 
 

Systematycznie Modyfikowane Autoreplikacje: 

logika programu badań empirycznych w psychologii 

 
 
 
 

Bogdan Wojciszke 

Szkoła Wyższa Psychologii Społecznej 

Warszawa 

 
 
 
 
 
 
 
 
 
 
 

Dedykuję ten tekst moim doktorantom,  

a także doktorantom moich koleżanek i kolegów. 

 
 
 
 
 
 
 
 

background image

 

2

Bogdan Wojciszke 
Warsaw School of Social Psychology 
 
 
 

Systematically Modified Self-Replications:  

A strategy for programmatic research in psychology 

 
 
A strategy of Systematicaly Modified Self-Replications (SMSR) is identified as a basic 
way of planning and performing programmatic empirical research in contemporary 
psychology. The SMSR strategy consists of replication studies on the same effect 
performed by the same team of researchers, with a systematic modification and 
diversification of the studied samples, variables and methods of their measurements. 
The SMSR strategy is based on the recognition of an inescapable unreliability of a 
single empirical study and a probabilistic nature of relationships among psychological 
variables. The strategy enables researchers to achieve at least the following goals: 
(1) showing reliability of a basic relationship of interest, (2) checking efficiency of 
manipulations and construct validity of measures employed, (3) increasing internal 
validity, (4) increasing external validity, (5) elimination of alternative explanations, (6) 
identification of moderators of the basic relationship, and (7) identification of 
mediators of the basic relationship. The chapter describes how the SMSR strategy 
helps to achieve these goals both in general terms and in terms of examples drawn 
from two research programs. It is concluded that SMSR is necessary to obtain 
reliable and valid data (and to get published the data in a leading journal). 

background image

 

3

 

Psychologia jest – jak wiadomo – nauką empiryczną, a podstawowy rodzaj publikacji w tego rodzaju 
nauce to doniesienie z własnych oryginalnych badań autora. Naukowcy z prawdziwego zdarzenia 
śledzą te publikacje na bieżąco (ci ze zdarzenia mniej prawdziwego poprzestają na ich omówieniu z 
drugiej ręki w monografiach, lub, co gorsza, podręcznikach), rzadko jednak zdarza się by zajrzeli do 
roczników publikowanych wcześniej niż w ciągu ostatnich 10-20 lat. Uprawianie nauki empirycznej, 
niczym życie motyla, rozgrywa się w czasie teraźniejszym i – jak się wyraził Robert Sternberg – 
Nobody cites dead psychologists. Jednak zajrzenie do starszych roczników takich czołowych 
czasopism psychologicznych, jak Journal of Personality and Social Psychology (JPSP) może być 
całkiem pouczające, choćby przez porównanie ich zawartości z tym, co publikowane jest 
współcześnie. Jedną z uderzających zmian widocznych w ostatnich kilku dekadach jest wzrost liczby 
oddzielnych badań składających się na pojedyncze doniesienie empiryczne (obok wzrostu liczby 
badanych osób i użytych metod pomiarowych). Np. w roku 1965 tylko 10% doniesień opublikowanych 
w JPSP zawierało więcej niż jedno badanie, w roku 1975 było to 20%, zaś w roku 1995 – już 48%. 
Tak więc o ile w latach sześćdziesiątych znaczna większość prac empirycznych z zakresu psychologii 
społecznej i osobowości poprzestawała na doniesieniu z jednego tylko badania, w latach 
dziewięćdziesiątych już niemalże połowa artykułów zawierała doniesienia z dwóch lub więcej badań 
(dotyczy to w szczególności psychologii społecznej). 

Przed kilkudziesięciu laty jedno badanie wystarczało do przekonania społeczności naukowej o 

istnieniu jakiejś prawidłowości, współcześnie potrzeba do tego dwukrotnie więcej badań, a więc całego 
programu badawczego. Jednokrotne uzyskanie jakiegoś wyniku nie wystarcza już do uznania go za 
wiarygodny, co jest konsekwencją rozprzestrzenienia się wśród badaczy wiedzy o ułomności 
pojedynczego badania empirycznego, a także wiedzy o charakterze prawidłowości rządzących ludzką 
psychiką. Wiarygodny jest wynik powtórzony kilkakrotnie, w ramach programu badawczego 
skonstruowanego na zasadzie systematycznie modyfikowanych autoreplikacji, która to zasada coraz 
wyraźniej staje się regułą obowiązującą współczesnego psychologa-empiryka.  

Systematycznie Modyfikowane Auto-Replikacje (SMAR) to strategia polegająca na 

wielokrotnym powtarzaniu przez ten sam zespół autorów badania wykazującego jakąś prawidłowość 
przy celowym wprowadzaniu modyfikacji próby, metod pomiaru i zmiennych stanowiących przedmiot 
badania. SMAR służy co najmniej siedmiu celom: (1) wykazaniu rzetelności (powtarzalności) 
podstawowego efektu, (2) sprawdzeniu skuteczności manipulacji i teoretycznej trafności 
zastosowanych miar, (3) maksymalizacji trafności wewnętrznej, (4) maksymalizacji trafności 
zewnętrznej i teoretycznej, (5) eliminacji alternatywnych wyjaśnień, (6) poszukiwaniu moderatorów 
efektu oraz (7) poszukiwaniu mediatorów efektu. Osiągnięcie wartościowych poznawczo wyników 
empirycznych jest niemożliwe bez realizacji większości tych celów, zaś w tym rozdziale pragnę 
przekonać czytelnika do tezy, iż realizacja większości owych celów jest niemożliwa bez powtarzania 
własnych badań. Omówię strategię SMAR zarówno w kategoriach ogólnych, jak i odwołując się do 
przykładów zaczerpniętych z dwóch dość różnych programów badawczych, z których jeden dotyczy 
huśtawki emocjonalnej jako techniki wpływu społecznego (a zrealizowany został przez Dariusza 
Dolińskiego i współpracowników), drugi zaś dotyczy dominacji kategorii moralnych w formułowaniu 
ocen innego człowieka (zrealizowany przeze mnie wraz ze współpracownikami). 

 

1. Rzetelność podstawowego efektu 

Znakomity fizyk francuski Rene Blondlot (1849-1930) ogłosił odkrycie promieni N 
wkrótce po tym, jak Roentgen odkrył promieniowanie X. Promienie N miały być 
emitowane przez niemalże wszystkie substancje, choć zaobserwować je można było 
tylko w bardzo szczególnych warunkach (w ciemnościach i po refrakcji przez pryzmat 
aluminiowy). W wielu innych laboratoriach francuskich potwierdzono występowanie 
promieniowania N. Jednakże promieniowanie to miały cechować pewne niezwykłe 
własności fizyczne, a w dodatku nie udało się go zaobserwować w żadnym z 
laboratoriów angielskich i niemieckich. Skłoniło to pismo Nature do wysłania 
amerykańskiego fizyka Roberta W. Wooda do laboratorium Blondlota w Nancy (na 
cześć którego to miasta promienie otrzymały swoją nazwę). Wood podejrzewał, że 
całe promieniowanie N jest po prostu złudzeniem jego odkrywców. Aby to sprawdzić, 
wziął udział w demonstracji promieniowania wykonanej przez jednego z asystentów 
Blondlota i podczas jej trwania (w ciemnościach) niepostrzeżenie usunął aluminiowy 
pryzmat załamujący promieniowanie i czyniący je widzialnym. Nie przeszkodziło to 

background image

 

4

Blondlotowi i współpracownikiem nadal dostrzegać “ledwo widzialnego” 
promieniowania. Dopiero po zapaleniu światła prawda wyszła na jaw (podobno 
zresztą prawda ta przyprawiła Blondlota o chorobę umysłową, jak twierdzi Gardner, 
1957). 
 

Zapominana i przypominana na nowo historia niefortunnych promieni N 

ilustruje, jak 

ważną rolę odgrywają replikacje wyników badań, szczególne  replikacje “nieskorelowane” – 
wykonywane przez niezwiązanych ze sobą badaczy. Dotyczy to nawet tak twardej nauki, jak fizyka – a 
cóż dopiero powiedzieć o tak miękkiej nauce, jaką jest psychologia. Przesadą byłoby twierdzić, że ta 
ostatnia roi się od niezreplikowanych efektów, jednak można je napotkać bez trudu. Np. i w myśleniu 
potocznym, i w wielu podręcznikach psychologii utrzymuje się przekonanie, że dzieci o różnej 
kolejności urodzenia systematycznie różnią się osobowością (np. starsze są bardziej konformistyczne, 
zależne i konserwatywne, zaś młodsze – bardziej niezależne, buntownicze, oryginalne i liberalne w 
poglądach). Tego rodzaju wyniki badań okazały się jednak niereplikowalne (Ernst i Angst, 1983; 
Harris, 2000; Schooler, 1972), a w dużym stopniu dotyczy to także większości oddziaływań 
wychowawczych podejmowanych przez rodziców (Harris, 1995, 2000). Nie udało się też zreplikować 
wpływu powiększonych źrenic na wzrost atrakcyjności fizycznej (Hensley, 1991), skuteczności 
podświadomych (podprogowych) oddziaływań propagandowych i marketingowych na zachowanie 
(Pratkanis, Eskenazi i Greenwald, 1994), czy sporej liczby bardziej szczegółowych prawidłowości 
psychologicznych - np. postulowanego przez Aronsona wzrostu atrakcyjności osoby doskonałej pod 
prawie każdym względem wskutek umiarkowanie negatywnej informacji na jej temat (co miałoby z tej 
osoby  czynić “fajnego chłopa, takiego jak ja” – por. Fishbein i Ajzen, 1975). 

Nie ulega wątpliwości, że sceptycyzm w stosunku do jednorazowo uzyskanych zależności 

empirycznych jest więcej niż uzasadniony. Nawet gdy nie mamy do czynienia z mistyfikacją czy 
samookłamywaniem, nierzadko okazuje się, że jednorazowe zależności po prostu nie istnieją. 
Prawidłowości psychologiczne mają charakter jedynie probabilistyczny - nie ma pewności ich 
pojawienia się, lecz jedynie jakaś na to szansa. Np. choć to prawda, że im bardziej ktoś jest do nas 
podobny, tym bardziej go lubimy, równie prawdziwy jest fakt, że nie w przypadku każdej znanej nam 
osoby tak się dzieje. Po pierwsze dlatego, że każda prawidłowość obowiązuje jedynie w pewnych 
granicach - np. związek lubienia z podobieństwem załamuje się przy bardzo dużym natężeniu 
podobieństwa (pewna Zosia ma poglądy tak bardzo podobne do naszych, że po prostu nas nudzi) i 
nie dotyczy partnerów należących do jakiejś nieporównywalnej kategorii (np. pacjentów 
psychiatrycznych). Po drugie dlatego, że ludzkie funkcjonowanie jest podporządkowane wielu 
prawidłowościom równocześnie i zwykle trudno orzec z góry, która z nich okaże się ważniejsza – np. 
lubienie zależy od podobieństwa partnera, ale jeszcze silniej zależy od tego, jak partner nas traktuje 
(Zosia wielokrotnie próbowała nam zaszkodzić i źle o nas się wyrażała, wobec czego jej nie lubimy 
pomimo podobieństwa).  

Empirycznemu badaniu poddajemy zawsze jakieś konkretne osoby, w konkretnych 

warunkach, a specyfika tych osób i warunków może zamącić obraz ogólnych prawidłowości. Nawet 
oczywista zależność między podobieństwem a lubieniem może zupełnie zaniknąć, jeżeli w badanej 
przez nas próbie znajdzie się wiele skłóconych osób, np. dlatego że pochodzą z klasy szkolnej, w 
której pojawiło się kilka skonfliktowanych grup. Pojedyncze badanie jest więc zawodną podstawą 
wnioskowania o prawidłowościach ogólnych także z powodu błędu próby. Wyniki mierzone w każdej 
próbie różnią się od wyników prawdziwych i nie ma nic dziwnego w zdarzeniu polegającym na 
równoczesnym odbieganiu wyników jednej próby in minus, a drugiej – in plus od wyniku prawdziwego, 
co doskonale wystarcza do uzyskania jednorazowego świadectwa rzekomej różnicy między tymi 
dwoma próbami (której to różnicy nie udaje się wykazać w innych badaniach).  

Każde badanie jest też obciążone jakimiś błędami wynikającymi z zastosowanych metod czy 

doboru jego uczestników. Ponieważ różne badania są obciążone różnymi błędami, dopiero 
wielokrotne powtórzenie studiów nad tą samą prawidłowością przy użyciu różnych metod pozwala 
prawidłowości “przedrzeć się” przez zakłócenia, jakimi obarczone są poszczególne badania 
(eliminacja błędu losowego). Szczególnie cenne są przy tym replikacje dokonane przez badaczy 
innych niż autor pierwszego badania ujawniającego jakąś prawidłowość, co dobrze ilustruje historia z 
promieniami N. Ci pierwsi są bowiem mniej przywiązani do (nie swojej) hipotezy i nie powtarzają w 
mniej lub bardziej nieświadomy sposób błędów metody, które bywają odpowiedzialne za 
“wykazywanie” nieistniejących prawidłowości. Tym bardziej dotkliwa jest dla psychologii niechęć do 
wykonywania badań replikacyjnych (choć trudno obiektywnie oszacować natężenie tej niechęci), a w 
każdym razie brak publikacji tego rodzaju badań w czołowych pismach psychologicznych. To ostatnie 
można już ocenić łatwo – nie sposób w czołowym piśmie znaleźć replikację, zaś ankieta 

background image

 

5

przeprowadzona wśród redaktorów czasopism psychologicznych wykazała, że w znacznej większości 
replikacji ani nie cenią, ani nie zamierzają drukować (Neuliep i Crandall, 1991). Redaktorzy nie różnią 
się od innych badaczy, spośród których oczywiście się rekrutują (John Garcia, odkrywca roli 
odgrywanej w procesach warunkowania przez biologiczne przygotowanie organizmu, wyraził to 
słowami: Editors are just like other people, only more so). Badacze po prostu nie wysyłają doniesień o 
replikacji do cenionych periodyków w przekonaniu, że i tak nie zostałyby opublikowane. 

Dodatkowy problem to kwestia, jaki wynik replikacji czyni ją udaną. Psychologowie nagminnie 

przyjmują za kryterium udanej replikacji istotność statystyczną związku - udane replikacje to takie, 
które przynoszą zależności istotne statystycznie (podobnie jak badanie oryginalne), zaś replikacje 
nieudane, to takie, w których dany związek nie okazuje się istotny. Jest to zapewne jeszcze jeden 
przejaw znanego skądinąd, bałwochwalczego stosunku psychologów do istotności statystycznej – 
mniej lub bardziej uświadamianego przekonania, że jeżeli coś jest istotne statystycznie, to tym samym 
staje się istotne merytorycznie. W rzeczywistości kryterium to jest całkowicie błędne, co można 
zilustrować hipotetycznym przykładem dwóch badaczy pracujących nad tą samą zależnością 
(przykład przytaczam po spolszczeniu za Rosenthalem, 1991a). Jak widać w tabeli 1, Kowalski 
uzyskał istotną różnicą między grupą eksperymentalną i kontrolną, Nowak zaś – różnicę nieistotną 
statystycznie. Zwykle jest to podstawą do twierdzenia, że Nowakowi nie udało się zreplikować 
wyników Kowalskiego. Dobrze jednak wiadomo, że poziom statystycznej istotności różnicy zależy nie 
tylko od jej wielkości, ale i od liczebności próby (oraz wielkości wariancji wyników), zaś nasz 
przykładowy Nowak posługiwał się czterokrotnie mniejszą próbą niż Kowalski. Stąd też miernikiem 
podobieństwa wyników badań Kowalskiego i Nowaka powinien być nie poziom istotności, ale raczej 
jakiś wskaźnik siły efektu, taki jak statystyka d Cohena (różnica między średnimi podzielona przez 
wspólne odchylenie standardowe obu grup) albo współczynnik korelacji r Pearsona. Z tego punktu 
widzenia wyniki uzyskane przez Nowaka i Kowalskiego są identyczne – w jednym i drugim przypadku 
d wyniosło 0,50, co oznacza zależność umiarkowaną. Co więcej, ostatnia kolumna tabeli 1 pokazuje, 
że oba badania potraktowane łącznie, równie silnie przemawiają za istnieniem zależności, jak samo 
pierwsze badanie Kowalskiego. Nawet różnica poziomów istotności między nimi okazuje się 
nieistotna: 

z

różnicy

 = (z

Kowalski

 – z

Nowak

)/√2 = (2,17 – 1,03)/√2 = 0,81; p = 0,42.  

----- tutaj tabela 1 ---- 

Tak więc przy decyzji, czy replikacja jest udana czy też nie, należy stosować kryteria 

ilościowe, a najlepiej uwzględniające wskaźniki siły efektu, nie zaś “na oko” i błędnie stosowane 
wskaźniki istotności statystycznej. Nawet przyjęcie adekwatnych kryteriów udanej replikacji, nie 
rozwiązuje jednak problemu jej wartości poznawczej. A problem jest dosyć oczywisty – jeżeli 
replikacja się powiedzie, badanie nie wnosi nic oryginalnego do istniejącej już wiedzy. Jeżeli zaś 
replikacja się nie uda, nie wiadomo, co to znaczy – czy jest to świadectwem braku umiejętności 
drugiego autora, skutkiem modyfikacji metody (ta przecież siłą rzeczy musi się mniej lub bardziej 
różnić od oryginału), wyrazem zmian historycznych (co może dotyczyć wielu zagadnień psychologii 
wychowawczej, rozwojowej i społecznej), czy też wreszcie wyrazem nieistnienia oryginalnej 
zależności.  

Publikowanie replikacji zarówno udanych, jak i nieudanych zdaje się więc mieć niewiele 

sensu. Jednakże brak publikacji tego rodzaju jest jeszcze mniej sensowny, ponieważ prowadzi do 
zniekształconego obrazu świata, szczególnie w połączeniu z inną dobrze znaną tendencyjnością 
psychologii polegającą na niechęci do publikowania badań, których wyniki okazały się nieistotne w 
sensie statystycznym (por. Brzeziński, 1996). Statystyczna istotność (na poziomie p<0,05) jest jednym 
z najsilniejszych predyktorów kwalifikowania artykułu do druku przez recenzentów i redaktorów. W 
konsekwencji, psychologia jako dziedzina wiedzy staje się podatna na błąd I rodzaju – większa jest 
szansa, że ujrzą światło dzienne dane przemawiające za jakąś nieistniejącą prawidłowością, niż dane 
sugerujące pominięcie prawidłowości faktycznie istniejących. Jest to o tyle paradoksalne, iż 
obowiązujące we współczesnej psychologii reguły wnioskowania statystycznego jednoznacznie każą 
unikać właśnie tego błędu na poziomie pojedynczego badania. Niebezpieczeństwo jest tym większe, 
że w psychologii następuje dosyć szybki wzrost przynajmniej niektórych standardów 
metodologicznych, co sprawia, że wiele wcześniejszych w czasie badań oryginalnych jest 
nieporównanie gorszych od późniejszych badań replikacyjnych, choć te ostatnie mają znacznie 
mniejszą szansę publikacji. Dobrą ilustracją są tu dzieje badań nad wpływem rozszerzenia źrenic na 
wzrost atrakcyjności fizycznej. Eckhard Hess (1975), odkrywca tego zjawiska, z reguły posługiwał się 
próbami liczącymi sobie od kilku do trzydziestu kilku osób badanych. Kiedy Hensley (1991) powtórzył 
badania Hessa na 501 osobach, wszelkie różnice w spostrzeganiu osób z poszerzonymi i normalnymi 
źrenicami zanikły. Sam wzrost liczebności próby (i liczby metod pomiaru zmiennej zależnej – w tym 

background image

 

6

przypadku pozytywności sądów o osobie spostrzeganej) wystarczył więc do zaniknięcia 
podstawowego efektu. 
 

Publikowanie replikacji rodzi więc dylemat “rzetelność czy oryginalność.” Rzetelność każe 

replikacje publikować jako świadectwo powtarzalności (lub jej braku), oryginalność każe replikacje 
odkładać do szuflady, jako nie wnoszące nic nowego do dziedziny, niezależnie od wyniku. 
Współczesna psychologia wybiera w tym dylemacie bez wątpienia oryginalność, z jednym wszakże 
poważnym ukłonem w stronę rzetelności – nakłada bowiem na autorów obowiązek autoreplikacji (a 
także dopuszcza pojęciowo zmodyfikowane replikacje badań cudzych, ale ten wątek zmuszony tu 
jestem pominąć). Autoreplikacja, czyli powtarzanie własnego wyniku w kolejnych badaniach, nie jest w 
stanie całkowicie zastąpić pożytków replikacji zewnętrznej i niezależnej od badania oryginalnego. 
Jednak eliminuje przynajmniej błąd próby i spełnia szereg innych pożytecznych zadań, czego 
ilustracją może być fascynujący ciąg badań Dariusza Dolińskiego i Ryszarda Nawrata (1994, 1998) 
nad wykrytą przez nich techniką wpływu społecznego, którą nazwali “huśtawką emocjonalną.”  

Analizując wspomnienia osób przesłuchiwanych w więzieniach nazistowskich 

czy stalinowskich autorzy ci zauważyli, że dosyć często pojawiają się w nich 
opowieści o pewnym szczególnym rodzaju przesłuchań. Zwykle przesłuchujący 
oprawca próbuje zmusić więźnia do zeznań za pomocą krzyków, gróźb czy tortur. 
Chwilami jednak łagodnieje i zaczyna traktować więźnia niczym starego przyjaciela. 
Załamanie przesłuchiwanego i złożenie obciążających zeznań często następuje w 
tym właśnie momencie ulgi, a nie największego natężenia strachu. Nawiązując do 
pewnych ogólniejszych prawidłowości funkcjonowania emocji, Doliński i Nawrat 
założyli, że choć strach wpływa na człowieka mobilizująco, następstwem nagłego 
zaniknięcia źródła strachu jest demobilizacja. W stanie takiej ulgi po uprzednim 
strachu (huśtawki emocjonalnej) człowiek powinien stawać się bardziej podatny na 
wpływy wywierane przez innych. 
 

Uzbrojeni w tę hipotezę badacze wyruszyli na ulice Opola, gdzie część 

przechodniów przekraczających ruchliwą ulicę w nieoznakowanym miejscu stawiali w 
sytuacji huśtawki emocjonalnej. Gdy już taka osoba zbliżała się do chodnika, słyszała 
gwizdek policyjny (w rzeczywistości gwizdali Doliński z Nawratem), co zwykle 
powodowało nerwowe rozglądanie się za policjantem, który zaraz miałby wlepić 
mandat. Jednak zamiast policjanta pojawiała się – co za ulga – młoda dziewczyna, 
przedstawiając się jako studentka i prosząc w wypełnienie pewnego kwestionariusza. 
Choć było zimno i wietrzno, a wypełnianie kwestionariusza na ulicy było niewygodne, 
aż 59% przechodniów w stanie ulgi godziło się wyrządzić studentce tę przysługę. Jak 
wskazują dane z tabeli 2, był to większy odsetek niż w innej grupie przechodniów, 
którzy nie przeżywali akurat ulgi (także przeszli ulicę w nieoznakowanym miejscu, ale 
nie potraktowano ich gwizdkiem, bądź też w ogóle nie przechodzili ulicy). 
 

Wynik eksperymentu potwierdził więc hipotezę huśtawki emocjonalnej. Jednak 

autorzy postanowili dokonać autoreplikacji tego efektu w kilku innych badaniach, 
które również ilustruje tabela 2. 

---tutaj tabela 2--- 

 

2. Maksymalizacja trafności wewnętrznej 

Celem powtarzania własnych badań jest z reguły nie tylko wykazanie rzetelności 
(powtarzalności) podstawowego efektu, ale i realizacja szeregu innych zamierzeń.  

Pierwszym takim zamierzeniem Dolińskiego i Nawrata była maksymalizacja 

trafności wewnętrznej ich badania, tzn. doprowadzenie do powiększenia siły efektu, 
co zwykle uzyskuje się albo zwiększając natężenie manipulacji eksperymentalnej (tak 
aby wzrosła różnica między grupą eksperymentalną i kontrolną), albo oczyszczając 
ją z jakichś niepożądanych elementów (które mogą hamować jej skuteczność). W 
pierwszym badaniu różnice w uległości osób w stanie ulgi i w stanie neutralnym były 
niewielkie (13% lub 18% w zależności od porównywanych grup), co autorzy 

background image

 

7

przypisali brakowi jasnego sygnału przeminięcia zagrożenia. Niektórzy badani mogli 
dojść do wniosku o nieobecności policjanta dopiero w trakcie rozmowy ze studentką, 
inni – zanim jeszcze do nich podeszła, itd. Stąd też następne badanie zaaranżowali 
w taki sposób, by sygnał ustąpienia zagrożenia był jednoznaczny i pojawiał się dla 
wszystkich w tym samym momencie. Tym razem badani byli kierowcy parkujący w 
niewłaściwym miejscu samochód – dochodząc do swego pojazdu już z daleka 
widzieli za wycieraczką kartkę o rozmiarach mandatu. Kiedy jednak odwracali kartkę 
okazywało się, że to nie mandat – co za ulga! – lecz reklama Vitapanu, (nie 
istniejącego) środka na porost włosów. I tutaj pojawiała się studentka z prośbą o 
wypełnienie kwestionariusza potrzebnego jej do pracy magisterskiej. Tym razem 
zgodziło się aż 62% nagabniętych, znacznie więcej niż w grupie, gdzie kartka była 
przyklejona na bocznej szybie (a więc już z daleka wyglądała na reklamę, a nie 
mandat), bądź wcale nie było kartki, jak przekonują dane z tabeli 2. Ulepszenie 
metody manipulowania stanem ulgi doprowadziło więc do wzrostu trafności 
wewnętrznej badania. 

Maksymalizacja trafności wewnętrznej polegająca na różnych zabiegach 

mających na celu doprowadzenie do tego by badanie “wyszło” (by wystąpiła istotna 
różnica między grupami, bądź istotna korelacja między zmiennymi) jest zapewne 
powszechnym elementem procesu badawczego w psychologii. Jednak informacja o 
tych zabiegach rzadko pojawia się w publikacjach, w tych bowiem preferowany jest 
opis zabiegów udanych, nie zaś nieudanych. Nietrudno to zrozumieć – publikacje 
naukowe nie są biograficznym zapisem zmagań autorów ze swą hipotezą, opisem 
dziejów ich kolejnych klęsk i zwycięstw, lecz jedynie informacją o sposobie 
przeprowadzenia badania, sporządzoną w taki sposób, by każdy inny badacz mógł je 
powtórzyć. Problem jednak w tym, iż pominięcie klęsk na drodze do sukcesu (a klęsk 
jest z reguły więcej niż zwycięstw) czyni tę informację niepełną, szczególnie gdy nie 
wiemy, co tak naprawdę zadecydowało o sukcesie badania, to zaś zdarza się wcale 
często. Każdy inny badacz pragnący zreplikować dane badanie bywa więc 
niepotrzebnie narażony na pułapki, w które wpadł już uprzednio autor oryginalnego 
badania. Np. w psychologii społecznej tajemnicą poliszynela jest, iż niektóre badania 
“wychodzą” tylko pod warunkiem, że przeprowadzane są indywidualnie, inne – tylko 
pod warunkiem, że prowadzone są w grupach; niektóre “wychodzą” tylko na 
komputerze, ale nie przy metodzie “papier-ołówek”, inne zaś na odwrót (Stapel, 
2000). Jednak dopóki badacz nie wie (nie potrafi wyjaśnić) dlaczego konieczne są 
takie, a nie inne warunki, po prostu pomija taką kwestię milczeniem i pułapka dla 
następnego badacza gotowa. 
 

3. Eliminacja alternatywnych wyjaśnień 

 

Innym celem powtarzania własnych badań jest eliminacja alternatywnych 

wyjaśnień zasadniczego efektu. W dotychczas opisanych dwóch badaniach nad 
huśtawką emocjonalną ich uczestnicy z warunków eksperymentalnych nie tylko byli 
w stanie ulgi, ale także przeżywali strach, natomiast osoby z warunków kontrolnych 
nie przeżywały ani ulgi, ani  strachu. Nie wiadomo więc, czy różnice między tymi 
osobami wynikały z samej ulgi, czy też ze strachu – całkiem rozsądne jest przecież 
przypuszczenie, że osoby zastraszone łatwiej ulegają presji społecznej niż 
niezastraszone. Aby to rozstrzygnąć, Doliński i Nawrat przeprowadzili kolejne 
badanie z kierowcami niewłaściwie parkującymi swoje samochody i stworzyli tym 
razem jeszcze jeden rodzaj warunków, w których kierowcy owi znajdowali za 
wycieraczką wezwanie na policję, celem wyjaśnienia niewłaściwego parkowania. 
Bezpośrednio po przeczytaniu kartki podchodziła do nich studentka z prośbą o 

background image

 

8

wypełnienie ankiety. Jak przekonują wyniki zamieszczone w tabeli 2 (Eksperyment 
3), kierowcy z tej grupy – zapewne nadal jeszcze przeżywający strach – zgadzali się 
spełnić prośbę nieporównanie rzadziej niż kierowcy przeżywający ulgę (z grupy 
“reklama za wycieraczką”), a także kierowcy w stanie neutralnym (z grup “reklama na 
drzwiach” i “brak kartki”). W ten sposób autorzy udowodnili, że za wzrost podatności 
na wpływ społeczny odpowiedzialne jest nagłe wycofanie źródła strachu, a nie sam 
strach.  

W tym samym badaniu podjęto także próbę eliminacji innych alternatywnych 

wyjaśnień – wypełniana przez kierowców ankieta zawierała m. in. pomiar aktualnie 
przeżywanego poczucia winy i wstydu. Okazało się, że natężenie tych dwóch emocji 
nie różniło się u badanych z warunków ulgi i badanych z warunków neutralnych, choć 
emocje te były istotnie nasilone w grupie “wezwanej na policję.” Eliminuje to 
wyjaśnienie zwiększonej uległości na nacisk społeczny w kategoriach 
domniemanego wzrostu poczucia winy i wstydu. 

Eliminacja alternatywnych wyjaśnień jest niezbędnym elementem większości 

programów badawczych, ponieważ bardzo wiele zjawisk stanowiących przedmiot 
zainteresowania psychologii, to zjawiska uwarunkowane wieloczynnikowo. Jeżeli zaś 
zjawisko ma wiele przyczyn, które mogą działać równocześnie, to eliminacja 
alternatywnych wyjaśnień jest niezbędna do ustalenia, która z możliwych przyczyn 
faktycznie wywołuje dane zjawisko. Dość często zdarza się przy tym, że różne 
czynniki są postulowane przez różne teorie psychologiczne, w związku z czym 
rozstrzyganie między alternatywnymi wyjaśnieniami staje się fascynującym 
rozstrzyganiem o prawdziwości rywalizujących teorii (experimentum crucis). Zadanie 
to ma w istocie niemalże nieskończenie wiele odmian, a jedną z najtrwalszych w 
psychologii i innych naukach społecznych jest problem “kultura czy natura,” a więc 
pytanie o względną rolę czynników dziedzicznych i środowiskowych w wyznaczaniu 
ludzkich cech (jak inteligencja) i zachowań (jak agresja). Np. z licznych badań dobrze 
wiadomo, że mężczyźni i kobiety mocno się różnią preferencjami co do własności 
partnera heteroseksualnego (Buss, 1996). Mężczyźni poszukują partnerek młodych i 
urodziwych, choć dla kobiet zalety te są mało ważne u partnerów. Kobiety poszukują 
partnerów ambitnych, majętnych i zajmujących wysoką pozycję społeczną, choć 
odniesione do kobiet, zalety te mało znaczą w oczach mężczyzn. Buss i inni 
psychologowie nawiązujący do teorii ewolucji skłonni są te różnice preferencji 
heteroseksualnych wyjaśniać jako rezultat przystosowania się kobiet i mężczyzn do 
nieco odmiennych nacisków selekcyjnych oddziaływujących na każdą z płci w 
kontekście wyborów heteroseksualnych (ponieważ kobiety dokonują większych 
nakładów rodzicielskich, bardziej są zainteresowane męskimi zasobami, które 
zrekompensowałyby te nakłady; zaś mężczyźni podążają za urodą, gdyż jest ona 
wskaźnikiem wartości reprodukcyjnej kobiety i gwarantuje wyższą szansę sukcesu 
reprodukcyjnego w zamian za zasoby oferowane partnerce). Jednakże inni badacze 
wskazują, iż te różnice płci mogą być rezultatem czynników nie biologicznych, lecz 
kulturowych, takich jak utożsamianie się zarówno mężczyzn jak i kobiet z 
obowiązującym w ich kulturze stereotypem płci. Skłoniło to Bussa i in. (1990) do 
przeprowadzenia na szeroką skalę zakrojonych badań, w których porównywano 
preferencje ponad 10 tys. młodych kobiet i mężczyzn z 37 różnych krajów. Choć 
badani pochodzili z kultur tak zróżnicowanych, jak Ameryka, Chiny, Polska i Zambia, 
wymienione różnice między płciami okazały się rzetelne i występowały niemalże w 
każdej z badanych kultur – co silnie przemawia za pozakulturowym wyjaśnieniem 
tych różnic. 

background image

 

9

Eliminacja alternatywnych wyjaśnień jest również konieczna do wywikłania się 

z błędu qui pro quo, jaki nierzadko nęka psychologię i inne nauki empiryczne. 
Badacze ulegają złudzeniu, że zastosowana przez nich manipulacja wywołuje efekty 
jedynie zamierzone i mierzone w badaniu, ale już nie żadne inne. W przypadku 
badań korelacyjnych jest to bliźniacze złudzenie, że zastosowana metoda (np. 
kwestionariusz) mierzy jedynie tę zmienną, do mierzenia której badacz ją 
przeznaczył.  

W istocie przekonania te są właśnie złudzeniami, bowiem większość 

kwestionariuszy mierzy więcej niż jedną zmienną. Każdy kwestionariusz mierzy nie 
tylko cechę, do mierzenia której jest przeznaczony, ale także i  wiele pokrewnych 
zmiennych, a prawie wszystkie mierzą w jakimś stopniu skłonność do ukazywania się 
w dobrym świetle. Podobnie wiele manipulacji eksperymentalnych wywołuje oprócz 
efektów zamierzonych przez badacza, także i efekty niezamierzone, często w postaci 
różnych przekonań osoby badanej. Klasycznym i dobrze znanym przykładem jest 
wpływ alkoholu na agresję – zarówno obserwacja potoczna, statystyki policyjne, jak i 
badania laboratoryjne wskazują, że spożycie alkoholu nasila agresję (Ito, Miller i 
Pollock, 1996). Jednakże osoby trzeźwe i nietrzeźwe różnią się zwykle nie tylko 
zawartością alkoholu we krwi, ale także przekonaniem, że są trzeźwe lub nie, zaś 
przekonanie o własnej nietrzeźwości może znosić zwykle działające zahamowania 
reakcji agresywnych. Jeśli eksperymentalnie rozdzielić takie przekonanie od 
faktycznej intoksykacji (np. podając badanym tonic z alkoholem lub bez niego oraz 
informując, że napój zawiera alkohol lub go nie zawiera), to nierzadko okazuje się,  
że agresję nasila samo przekonanie o nietrzeźwości, a faktycznie wypijany alkohol 
jest bez znaczenia (Lang i in.,  1975). 

Jednorazowe badanie, w szczególności nad nowym problemem naukowym, 

bardzo rzadko, jeżeli w ogóle kiedykolwiek, jest w stanie rozstrzygnąć pomiędzy 
różnymi wyjaśnieniami tego samego zjawiska. Także dlatego, że badacz często nie 
zdaje sobie w pełni sprawy z tego, co w swoim badaniu faktycznie zrobił, dopóki tego 
nie zrobił, tj. nie przeprowadził badania. Jeżeli zaś po badaniu jest w 100% pewien, 
że zrobił w nim tylko to, co zrobić zamierzał, to skłonny jestem podejrzewać, że po 
prostu brak takiemu badaczowi samokrytycyzmu. Przejawem braku krytycyzmu jest 
także niechęć do uwzględniania, a nawet samodzielnego wymyślania alternatywnych 
wyjaśnień własnych wyników (a następnie ich eliminacji na drodze empirycznej). 
Jeżeli badacz nie widzi żadnych wyjaśnień alternatywnych w stosunku do 
ulubionego, oznacza to albo niedojrzałość problemu, albo samego badacza. 

 

4. Maksymalizacja trafności zewnętrznej i teoretycznej 

 Wróćmy jednak do programu Dolińskiego i Nawrata, którzy kolejne badanie 
przeprowadzili w laboratorium, a nie na ulicy. Nie dlatego, że opolscy kierowcy w 
końcu zaprzestali procederu niewłaściwego parkowania swoich samochodów, ale 
dlatego, że autorzy chcieli w ten sposób powiększyć trafność zewnętrzną swoich 
badań. Badanie jest trafne zewnętrznie wówczas, gdy jego wyniki można uogólniać 
na inne osoby i sytuacje niż faktycznie zbadane. Wzrost trafności zewnętrznej osiąga 
się poprzez powtarzanie badań na odmiennych rodzajach osób badanych i z 
użyciem odmiennych manipulacji zmiennymi niezależnymi i różnorodnych 
operacjonalizacji zmiennych zależnych. Dzięki takiemu poszerzaniu zróżnicowania 
manipulacji i/lub pomiarów w oczywisty sposób rośnie możliwość uogólniania 
uzyskanej zależności na inne, niebadane sytuacje. Mała trafność zewnętrzna jest 
częstym problemem badań laboratoryjnych z uwagi na to, że warunki laboratoryjne 
dość mocno odbiegają od tego, co dzieje się w przebiegu naturalnych interakcji 
społecznych.  

background image

 

10

Dotychczas przedstawione badania nad huśtawką emocjonalną nie stwarzają 

takich kłopotów, ponieważ rozgrywały się dosłownie na ulicy. Jednak samo w sobie 
nie zapewnia to jeszcze zadowalającej trafności zewnętrznej badań. Na przykład 
dlatego, że we wszystkich trzech identycznie wyglądał pomiar zmiennej zależnej – 
zawsze było to spełnianie prośby o wypełnienie studentce kwestionariusza. Stąd też 
w Eksperymencie 4 zastosowano zupełnie inną operacjonalizację zmiennej zależnej 
– osoby badane (którymi byli dla odmiany licealiści) proszono o udział w zbieraniu 
pieniędzy na ulicach Opola na rzecz dzieci z sierocińca. Uczestnikom zapowiedziano 
udział w “badaniach nad różnymi umiejętnościami i zdolnościami” i podzielono 
losowo na trzy grupy. Jednej zapowiedziano udział w badaniu nad uczeniem się, 
gdzie za każdy błąd mieli otrzymać bolesne “kopnięcie” prądem elektrycznym. 
Drugiej zapowiedziano to samo, ale po pewnym czasie odwołano groźbę informując, 
że prowadzący badania profesor zmienił zdanie i że wezmą udział w innym badaniu 
nad koordynacją wzrokowo-ruchową, gdzie z pewnością nie czekają ich żadne szoki 
elektryczne. Osoby z tej grupy zostały więc wprowadzane w stan ulgi. Wreszcie 
trzeciej grupie od początku zapowiadano badania nad koordynacją wzrokowo-
ruchową. Jak przekonują dane z tabeli 2, eksperyment 4, badani w stanie ulgi 
znacznie częściej ulegali prośbie, niż badani w stanie strachu (oczekujący na 
wstrząsy elektryczne), lub w stanie neutralnym (oczekujący na badanie koordynacji). 
Huśtawka emocjonalna okazała się raz jeszcze skuteczna – pomimo zmiany rodzaju 
osób badanych, zmiany manipulacji eksperymentalnej i zmiany rodzaju 
operacjonalizacji zmiennej zależnej. 

Różnicowanie operacjonalizacji tej samej zmiennej zależnej lub niezależnej 

jest ważnym elementem strategii SMAR. Podobnym i jeszcze ważniejszym 
elementem tej strategii jest różnicowanie (dywergencja) zmiennych poddanych 
badaniu. Weryfikacja hipotez formułowanych na dużym poziomie ogólności wymaga 
zwykle zbadania nie jednej, lecz wielu różnych zmiennych zależnych, których często 
nie można zmierzyć w tym samym badaniu, ponieważ pomiar jednej obniżyłby 
wiarygodność pomiaru innych (interferencja pomiarów), albo dlatego, że pomiar 
każdej z nich wymaga odmiennego scenariusza badawczego. Do weryfikacji takich 
hipotez konieczna jest więc seria badań, z których każde poświęcone jest pomiarowi 
innych zmiennych w nadziei na uzyskanie zbieżnych wyników pomimo rozbieżnych 
pomiarów. Jest to więc dążenie do konwergencji wyniku przy dywergencji zmiennych 
i metod ich pomiaru. 

Przykładem takiej dywergencji zmiennych są badania nad ogólną hipotezą o dominacji 

kategorii moralnych w formułowaniu ocen interpersonalnych – oceniając innego człowieka bardziej 
kierujemy się informacjami na temat jego moralności-niemoralności, niż innymi informacjami o 
podobnej wartościowości (Wojciszke, 1994, Wojciszke, Bazińska i Jaworski, 1998). Założenie to 
opiera się na przesłance, że podstawową funkcją spostrzegania społecznego, a przynajmniej ocen 
interpersonalnych, jest “lokowanie” innych osób na wymiarze dążenie-unikanie, a więc decydowanie o 
tym, czy inna osoba jest dobroczynna dla spostrzegającego podmiotu (i warto dążyć do kontaktów z 
nią), czy też jest szkodliwa (i warto jej unikać). Z tego punktu widzenia moralność-niemoralność 
innego człowieka silniej powinna wpływać na oceny niż np. jego sprawność-niesprawność, choć wiele 
cech moralnych ma wartościowość zbliżoną do cech sprawnościowych. Np. inteligencja i uczciwość są 
jako cechy “same w sobie” mniej więcej jednakowo cenione - dlatego w całym tym programie 
cechy/informacje dotyczące sprawności traktowano jako porównawcze w stosunku do cech/informacji 
dotyczących moralności. Moralność-niemoralność innego człowieka bezpośrednio bowiem przekłada 
się na zyski i straty spostrzegającej osoby (ze strony uczciwego człowieka nic mi nie grozi, złodziej 
może okraść i mnie), podczas gdy sprawność tego pierwszego ma znaczenie jedynie wtórne i zależy 
od tego, czy jest użyta do realizacji moralnych czy też niemoralnych celów (bystrość przyjaciela jest 
zwykle dobroczynna, w przeciwieństwie do bystrości złodzieja). 

Bezpośrednią konsekwencją założenia o dominacji kategorii moralnych jest 

przewidywanie, że nasze oceny innych ludzi bardziej zależą od tego, co wiemy o ich 

background image

 

11

moralności niż o innych cechach o podobnej wartościowości. Aby sprawdzić to 
rozumowanie poprosiliśmy naszych badanych o oszacowanie 10 moralnych i 10 
sprawnościowych cech (o wyrównanej wartościowości) kilkunastu osób ze swego 
otoczenia, a następnie o ogólną ocenę tych osób. Zgodnie z przewidywaniami 
(sprawdzanymi metodą regresji wielokrotnej) okazało się, że sądy o cechach 
związanych z moralnością pozwalają znacznie lepiej przewidywać oceny globalne, 
niż sądy o cechach sprawnościowych. Pierwsze wyjaśniały średnio 53% wariancji 
ocen, drugie – tylko 29% wariancji. Jednakże badanie to ma charakter korelacyjny, a 
więc nie rozstrzyga, czy to sądy o moralności i sprawności z niejednakową siłą 
wpływają na oceny globalne, czy też na odwrót – ogólny stosunek do człowieka 
silniej wpływa na ocenę jego moralności niż sprawności. Stąd też hipotezę o 
silniejszym uzależnieniu ocen od moralności niż sprawności sprawdzaliśmy także w 
eksperymencie, w którym badani najpierw otrzymywali opisy zachowań nieznanych 
sobie osób, a następnie dokonywali ich ocen. Treść zachowań zmieniała się według 
schematu 2 (moralnie pozytywne lub negatywne) x 2 (sprawnościowo pozytywne lub 
negatywne). Jak ilustruje rysunek 1, decydująca dla ocen okazała się informacja o 
moralności. Gdy była ona dodatnia, ogólna ocena była zawsze pozytywna, nawet 
przy ujemnej informacji o sprawności; gdy była ona ujemna, ocena była zawsze 
negatywna, nawet przy dodatniej informacji o sprawności. Najbardziej pozytywne 
oceny zyskiwały sobie osoby zarówno moralne, jak i sprawne. Najbardziej 
negatywnie były natomiast oceniane osoby sprawne w czynieniu zła, a więc przy 
informacji negatywnej moralnie, ale pozytywnej sprawnościowo.  

Zaletą tego eksperymentu jest możliwość rozstrzygnięcia, że to informacje o 

moralności-sprawności są przyczyną takich, a nie innych ocen, nie zaś odwrotnie. 
Jego wadą jest natomiast badanie osób (spostrzeganych) fikcyjnych, jedynie 
wyobrażanych sobie przez badanych na podstawie naszych słownych opisów ich 
zachowań. Jednakże podobny wynik przyniosło poprzednio opisane badanie 
korelacyjne, gdzie badani szacowali cechy rzeczywistych osób ze swego otoczenia i 
oceniali je, choć nie wiadomo, co tam było przyczyną, a co skutkiem. Wady i zalety 
obu tych badań są więc komplementarne, a wynik pozostaje wyraźnie podobny, co 
rzecz jasna podnosi zaufanie do jego wiarygodności. Wady i zalety badań 
korelacyjnych i eksperymentalnych zwykle przedstawiają się w taki właśnie 
komplementarny sposób, stąd też równoczesne ich stosowanie w obrębie tego 
samego programu badawczego jest ważnym elementem strategii SMAR.  

--- tu Rysunek 1 --- 

Założenie o dominacji kategorii moralnych pozwala sformułować kilka 

dodatkowych hipotez szczegółowych (obok hipotezy głównej, że moralność bardziej 
wpływa na oceny niż porównywalna pod względem pozytywności-negatywności 
informacja o sprawności). Na przykład, skoro kategorie moralne są częściej używane 
niż sprawnościowe, powinny się one cechować chroniczną dostępnością 
pamięciową. Hipotezę tę sprawdzaliśmy w prostym badaniu, którego uczestników 
poprosiliśmy, aby wymienili wszystkie te cechy, które chcieliby poznać u nieznanej 
osoby, aby zorientować się, jaka ona jest (Wojciszke, Bazińska i Jaworski, 1998, 
Badanie 1). Pierwsza dziesiątka najczęściej wskazywanych cech to: szczerość, 
uczciwość, bycie wesołym, tolerancja, lojalność, inteligencja, prawdomówność, brak 
egoizmu, odpowiedzialność
 i bycie miłym. Znaczna większość tych cech wyraźnie 
dotyczy moralności, co wskazuje na podwyższoną, chroniczną dostępność tych 
kategorii spostrzegania innego człowieka. 
 Początkową operacją procesu spostrzegania jest często poszukiwanie danych 
o spostrzeganym człowieku, które staną się podstawą do wydania sądu na jego 

background image

 

12

temat. W jednym z eksperymentów prosiliśmy badanych o wskazanie na 
dostarczonej im liście tych cech innego człowieka, które chcieliby sprawdzić (czy 
tamten je ma czy nie), aby zorientować się na jaką ogólna ocenę on zasługuje, albo 
czy warto go wybrać na skarbnika, albo czy warto go wybrać na negocjatora w 
trudnym konflikcie. zasługuje on na ogólnie pozytywną, czy też negatywną ocenę. 
Przy celu związanym z moralnością (skarbnik) badani rzecz jasna poszukiwali 
najczęściej informacji o cechach moralnych; przy celu związanym ze sprawnością 
(negocjator) najczęściej poszukiwali informacji o cechach sprawnościowych. Co 
najważniejsze, także przy celu “ogólna ocena” badani dwukrotnie częściej 
poszukiwali informacji na temat moralności niż sprawności spostrzeganej osoby, 
choć cechy dotyczące obu tych dziedzin były wyrównane pod względem stopnia 
wysycenia ich oceną (Wojciszke, Bazińska, Jaworski, 1998, Badanie 2). Informacja o 
moralności jest więc bardziej potrzebna do wydania ogólnej oceny innego człowieka, 
niż informacja o jego sprawności. 
 Kolejną operacją procesu spostrzegania osób jest interpretacja danych o 
zachowaniu spostrzeganej osoby. Operację tę badaliśmy w eksperymencie, w którym 
ludzie interpretowali zachowania bohaterów ośmiu historyjek interpretowalnych przez 
pryzmat zarówno moralności, jak i sprawności (np. Zosia próbuje obronić Marysię 
przed niesłusznymi zarzutami, ale robi to tak nieudolnie, że jeszcze bardziej ją 
pogrąża– przykład zachowania świadczącego o moralności i o braku sprawności). 
Badani proszeni byli o ocenę bohatera historyjki oraz o uzasadnienie oceny, które 
było potem szacowane przez sędziów kompetentnych z uwagi na to, jak dalece 
odwoływało się ono do względów moralnych lub sprawnościowych (Wojciszke, 1994, 
Badanie 2). Połowa badanych interpretowała je z punktu widzenia aktora, czyli 
samego działającego bohatera (mieli odtworzyć jego myśli i sposób rozumienia 
sytuacji), połowa zaś - z punktu widzenia obserwatora danego zdarzenia (mieli 
odtworzyć myśli osób, którym bohater wyrządzał dobro lub zło). Kategorie moralne 
okazały się znacznie silniej niż sprawnościowe używane przez badanych 
interpretujących cudze zachowania, a więc występujących z pozycji obserwatora 
(odwrotnie było w przypadku pozycji aktora). Przy tym sposób interpretacji 
zachowania był silnie powiązany z ocenami (badani podkreślający moralność Zosi z 
przykładu w nawiasie oceniali ją pozytywnie, badani podkreślający jej nieudolność 
oceniali ją negatywnie).  
 

Interpretacja danych o zachowaniu osoby spostrzeganej była także 

przedmiotem eksperymentu Bazińskiej i Wojciszke (1996), choć przy użyciu zupełnie 
innej metodologii. Badanym osobom eksponowano na ekranie komputera słowne 
opisy zachowań interpretowalnych w kategoriach zarówno moralnych, jak i 
sprawnościowych - np. Aby zyskać poparcie, podlizywał się swojemu nowemu 
szefowi, jednak z powodu kompletnego braku wyczucia tylko zraził go do siebie

które to zachowanie świadczy zarówno o nieszczerości (cecha moralna), jak i o 
niezręczności (cecha sprawnościowa). Kiedy badany zasygnalizował, że przeczytał i 
zrozumiał opis zachowania, na ekranie pojawiało się pytanie o to, czy zachowanie to 
świadczy o stosownej cesze moralnej (fałszywy?), bądź sprawnościowej 
(niezręczny?). Pomiary czasów reakcji wykazały, że badani odpowiadali istotnie 
szybciej na pytania o cechy moralne niż sprawnościowe, co wskazuje, że moralny 
aspekt zachowań innego człowieka bardziej się obserwatorowi narzuca niż aspekt 
sprawnościowy. 
 Przykłady te ilustrują najważniejszą zasadę strategii SMAR: kolejne replikacje 
własnego wyniku polegają nie tylko na systematycznych modyfikacjach metody 
pomiaru (czy manipulacji) tej samej zmiennej, ale także na systematycznej 

background image

 

13

dywersyfikacji zmiennych poddawanych badaniu. Skoro hipoteza dotyczy procesu 
(np. spostrzegania i oceniania ludzi), to poszczególne badania składające się na cały 
program powinny dotyczyć poszczególnych etapów tego procesu (np. kolejnych 
operacji składających się na spostrzeganie – poszukiwania danych, ich interpretacji i 
integracji w ocenę globalną). Ogólniej rzecz biorąc, jest to oczywiście przykład 
generalnej reguły metodologicznej nakazującej weryfikowanie hipotezy teoretycznej 
poprzez sprawdzanie możliwe dużej liczby, możliwie różnorodnych konsekwencji 
empirycznych tej hipotezy. Strategia ta oznacza sprawdzanie nie pojedynczej 
hipotezy, lecz całej teorii, w którą hipoteza owa jest uwikłana i z której wynika. 
Nietrudno zauważyć, że autoreplikacje są niezbędnym elementem takiej strategii. 
 

5. Sprawdzanie skuteczności manipulacji 

Wróćmy raz jeszcze do programu badań nad huśtawką emocjonalną i 

czwartego badania, które miało charakter laboratoryjny. Jednym z celów tego 
eksperymentu było sprawdzenie skuteczności zastosowanej manipulacji, które 
zwykle polega na zbadaniu, czy wywołuje ona zamierzony przez badacza stan lub 
proces psychiczny. Kluczowym elementem huśtawki jest lęk. Jeżeli zastosowane 
manipulacje wywoływały zamierzone przez autorów stany, to osoby oczekujące na 
wstrząsy elektryczne powinny być najbardziej zalęknione, osoby oczekujące na 
pomiar koordynacji powinny być najmniej zalęknione, zaś pomiędzy tymi krańcami 
winny się znajdować osoby, u których oczekiwanie zmieniło się z jednego na drugie 
(warunki ulgi). Oczekujący na badanie licealiści wypełniali kwestionariusz mierzący 
natężenie aktualnie przeżywanego lęku. Wskaźniki lęku w trzech porównywanych 
grupach okazały się dokładnie zgodne z przewidywaniami. 

Sprawdzanie skuteczności manipulacji jest ważnym elementem strategii 

SMAR, bowiem pozwala uniknąć błędu qui pro quo oraz dostarcza dowodów 
trafności proponowanego przez badacza wyjaśnienia efektu. Pomiar zasadniczych 
efektów manipulacji (tj. głównej zależności interesującej badacza) i pomiar 
skuteczności manipulacji zwykle nie są możliwe w tym samym badaniu, ponieważ 
pomiar skuteczności może zaburzać pomiar właściwego efektu i odwrotnie. Jeżeli 
badamy wpływ poczucia winy na pomaganie, to możemy badanych wprowadzić w 
poczucie winy (subtelnie nakłaniając by wzięli do ręki przedmiot, który 
nieoczekiwanie “psuje się”) oraz zbadać czy tacy badani są bardziej skłonni pomagać 
innemu człowiekowi (np. pozbierać rzeczy, które “przypadkiem” wysypują się z siatki 
przechodzącej obok nieznajomej). Jednak nie możemy w tym samym eksperymencie 
zmierzyć poczucia winy przeżywanego przez jego uczestników. Gdybyśmy zmierzyli 
poczucie winy tuż po manipulacji, a jeszcze przed okazją do udzielenia pomocy, 
zaburzylibyśmy trafność pomiaru podstawowej zmiennej zależnej, czyli pomagania – 
np. dlatego, że badani zorientowaliby się, iż badanie dotyczy wpływu poczucia winy 
na pomaganie, albo poczucie winy zmalałoby wskutek zawierzenia winy innemu 
człowiekowi (w końcu na tym polega część katartycznego efektu spowiedzi). 
Gdybyśmy zmierzyli poczucie winy na sam koniec, już po ewentualnym udzieleniu 
pomocy, pomiar byłby nietrafny, gdyż poczucie winy mogło zmaleć u osób 
pomagających (a wzrosnąć u niepomagających). W takiej sytuacji jedynym wyjściem 
jest losowy podział badanych na dwie grupy, gdzie w jednej przedmiotem pomiaru 
jest zasadnicza zmienna zależna (pomaganie nieznajomym), w drugiej zaś mierzona 
jest skuteczność manipulacji (natężenie przeżywanego poczucia winy). Jest to 
oczywiście odmiana auto-replikacji badania. 

Zaburzający wpływ pomiaru zasadniczej zmiennej zależnej na pomiar 

skuteczności manipulacji i odwrotnie jest szczególnym przypadkiem ogólniejszej 

background image

 

14

zasady intereferencji pomiarów: im więcej zmiennych (zależnych i/lub 
pośredniczących) mierzymy w tym samym badaniu, tym mniejsza jest wiarygodność 
każdego kolejnego pomiaru ponieważ rośnie błąd, jakim pomiar ten jest obciążony 
wskutek dokonywania na tej samej osobie badanej pomiarów poprzednich. W 
szczególności bezwartościowy bywa “retrospektywny” pomiar skuteczności 
manipulacji dokonany już po pomiarze zmiennej zależnej. Badacz twierdzący, iż za 
pomocą takich pomiarów wykazał skuteczność swojej manipulacji – a więc, że 
manipulacja wpłynęła w zamierzony przezeń sposób na procesy psychiczne 
badanego – często przypomina barona Műnnhausena opowiadającego, jak to 
ciągnąc siebie samego za włosy wyciągnął siebie i konia z bagna. Wykazanie, iż 
manipulacja wywołuje określone zmiany stanów lub procesów psychicznych oraz, że 
wywołuje one określone następstwa tych zmian (np. w zachowaniu) wymaga z reguły 
odrębnych badań, a więc systematycznie modyfikowanych autoreplikacji. 
 

6. Poszukiwanie moderatorów zależności 

 

Innym jeszcze celem laboratoryjnego eksperymentu Dolińskiego i Nawrata 

było poszukiwanie moderatorów zależności między huśtawką emocjonalną, a 
wzrostem podatności na wpływy społeczne. Moderator jakiejś zależności to czynnik, 
który decyduje o jej występowaniu lub nie (czy też mniej kategorycznie – czynnik 
decydujący o sile podstawowej zależności). Całkiem rozsądne jest np. 
przypuszczenie, że moderatorem wpływu ulgi na uleganie wpływom społecznym w 
pierwszych trzech eksperymentach było poczucie winy. Wszyscy uczestnicy 
“ulicznych” badań Dolińskiego i Nawrata dopuścili się jakiegoś wykroczenia (w 
niewłaściwym miejscu przechodzili przez ulicę lub parkowali samochód) i możliwe, że 
właśnie dlatego przeżywana przez nich ulga nasilała podatność na cudze prośby, 
bowiem poczucie winy nasila skłonność do pomagania innym. Stąd też autorzy do 
swojego laboratorium zaprosili licealistów, którzy niczego nie przeskrobali, 
przynajmniej tuż przed usłyszeniem skierowanej do nich prośby. Gdyby poczucie 
winy odgrywało rolę moderatora interesującej tu nas zależności, huśtawka 
emocjonalna powinna zaniknąć w tym badaniu. W rzeczywistości działała nadal, co 
wskazuje na to, że poczucie winy nie jest warunkiem występowania tego zjawiska.  

Poszukiwanie moderatorów jest ważnym elementem programów badawczych i 

strategii SMAR ponieważ oznacza poszukiwanie granic, w jakich prawidłowości 
psychologiczne obowiązują, a poznanie tych granic jest równie ważne jak poznanie 
samych prawidłowości, cóż bowiem za pożytek z wiedzy, o której nie wiadomo kiedy 
obowiązuje. Jest to wyrazem jednej z głównych różnic między wiedzą potoczną a 
naukową – podczas ta pierwsza dość beztrosko formułuje prawidłowości ogólne, co 
do których zakłada implicite, że obowiązują zawsze i wszędzie, wiedza naukowa 
świadoma jest własnych ograniczeń – w tym faktu, iż każda prawidłowość, 
przynajmniej w naukach społecznych, obowiązuje tylko w pewnych warunkach, choć 
ich granice bywają czasami dość szeroko zarysowane.  

Przykładem szeroko, choć nie zawsze obowiązującej prawidłowości jest 

omawiana poprzednio dominacja kategorii moralnych nad sprawnościowymi w 
spostrzeganiu osób, wykazana w około 10 badaniach (por. Wojciszke, 1999). Jednak 
co najmniej dwa badania wykazały, że wzorzec owej dominacji ulega dokładnemu 
odwróceniu, gdy człowiek interpretuje i ocenia swoje własne zachowania (Wojciszke, 
1994). Między innymi wspominane już badanie, którego uczestnicy proszeni byli o 
ocenę bohatera historyjki oraz o uzasadnienie oceny, które było potem szacowane 
przez sędziów kompetentnych z uwagi na to, jak dalece odwoływało się ono do 
względów moralnych lub sprawnościowych. Połowa badanych interpretowała je z 

background image

 

15

punktu widzenia aktora, czyli samego działającego bohatera (mieli odtworzyć jego 
myśli i sposób rozumienia sytuacji), połowa zaś - z punktu widzenia obserwatora 
danego zdarzenia (mieli odtworzyć myśli osób, którym bohater wyrządzał dobro lub 
zło). Jak ilustruje rysunek 2 (strona prawa) kategorie moralne okazały się co prawda 
znacznie silniej niż sprawnościowe używane przez badanych interpretujących cudze 
zachowania (powtórzenie efektu dominacji kategorii moralnych w spostrzeganiu 
innych), jednak w przypadku interpretowania zachowań własnych pojawiła się 
tendencja dokładnie odwrotna, co ilustruje lewa strona rysunku 2. 

--- tutaj rysunek 2 --- 

Oczekiwanie dominacji kategorii sprawnościowych w spostrzeganiu siebie 

wynika zresztą z tej samej logiki, która każe oczekiwać dominacji kategorii moralnych 
w spostrzeganiu innych. Tak jak cudza moralność w większym stopniu wpływa na 
nasze zyski-straty niż cudza sprawność, tak monitorowanie naszej własnej 
sprawności w większym stopniu wpływa na nasze zyski-straty niż monitorowanie 
własnej moralności (przynajmniej na krótką metę). Perspektywa aktor-obserwator 
(czy interpretujemy zachowania własne czy też cudze) jest zatem bardzo silnym 
moderatorem dominacji kategorii moralnych w spostrzeganiu – jak ilustruje rysunek 
2, mamy tu do czynienia ze skrzyżowaną interakcją: w przypadku perspektywy 
obserwatora (spostrzeganie cudzych zachowań) kategorie moralne dominują nad 
sprawnościowymi, zaś w przypadku perspektywy aktora (spostrzeganie własnych 
zachowań) kategorie sprawnościowe dominują nad moralnymi.  
 

6. Poszukiwanie mediatorów zależności 

Kolejny i w pewnym sensie najważniejszy etap programu badań empirycznych i 
strategii SMAR to poszukiwanie mediatorów badanej zależności. Mediator to tyle, co 
proces lub stan pośredniczący między zmienną niezależną (przyczyną), a zmienną 
zależną (skutkiem). Znaleźć mediator zależności to tyle, co odpowiedzieć na pytanie 
dlaczego ona występuje, podczas gdy znaleźć moderator to tyle, co odpowiedzieć na 
pytanie kiedy (w jakich warunkach) ona występuje. Znalezienie mediatora jakiejś 
zależności jest więc równoznaczne z empirycznym dowodem na wyjaśnienie tej 
zależności. A ponieważ wyjaśnianie jest najważniejszą funkcją teorii, poszukiwanie 
mediatorów można uważać za najważniejszy element programu badawczego.  

Dlaczego nagłe wycofanie zagrożenia wywołuje wzrost podatności na wpływ 

społeczny? Zważmy, że cztery dotąd omówione eksperymenty nie pozwalają udzielić 
odpowiedzi na to pytanie, choć pozwalają wykluczyć niektóre możliwości. Nawiązując 
do wcześniejszych prac Ellen Langer, Doliński i Nawrat postawili hipotezę, że 
powodem takiego działania ulgi jest swoista bezmyślność, w jaką człowiek popada w 
tym stanie. Po nagłym ustąpieniu zagrożenia człowiek tak jest jeszcze pochłonięty 
myśleniem o przeszłości (ale mi się ugięły kolana) i o tym co mogłoby się stać (a co 
by było, gdyby mnie jednak złapali), że brak mu umysłowych (“uwagowych”) zasobów 
operacyjnych, by w przemyślany sposób przetwarzać aktualnie dochodzące doń 
informacje. W konsekwencji, przetwarzanie informacji staje się bezrefleksyjne i 
człowiek automatycznie ulega pojawiającym się prośbom, czy naciskom ze strony 
innych.  

Aby sprawdzić to rozumowanie, autorzy zaaranżowali jeszcze jeden 

eksperyment, podczas którego elegancko ubrana dwójka studentów zbierała 
pieniądze w kweście ulicznej na rzecz dzieci upośledzonych. Studenci podchodzili do 
co dziesiątego samotnego przechodnia i potrząsając puszką i mówili “Przepraszam 
Pana. Zbieramy pieniądze. Czy mógłby nam Pan dać trochę pieniędzy” były to 
warunki “tylko prośba.” W warunkach uzasadnienia rzeczywistego kwestujący 

background image

 

16

dodawali “Jesteśmy z organizacji Studenci dla dzieci upośledzonych. Czy mógłby 
Pan włączyć się do naszej akcji, bo chcemy zebrać tak dużo pieniędzy jak to 
możliwe, aby pokryć koszt wakacyjnego obozu dla kilkorga dzieci upośledzonych 
umysłowo.” Wreszcie w warunkach uzasadnienia pozornego, czyli wypowiedzi o 
gramatycznej strukturze uzasadnienia, lecz nie przedstawiającej żadnych 
argumentów, kwestujący mówili “Czy mógłby nam pan dać trochę pieniędzy 
ponieważ chcemy zebrać tak dużo pieniędzy, jak to tylko możliwe?” Autorzy 
zakładali, że w normalnych warunkach ludzie będą dostrzegać pozorność 
uzasadnienia i dawać pieniądze równie rzadko, jak w warunkach braku 
uzasadnienia. Natomiast w warunkach “bezmyślności” wywołanej ulgą (ponownie 
policyjny gwizdek w odniesieniu do osób nieprawidłowo przechodzących ulicę) nie 
będą w stanie precyzyjnie przetworzyć tej informacji i zareagują na uzasadnienie 
pozorne w taki sam sposób jak na rzeczywiste. Wyniki przedstawione w tabeli 2 
(Eksperyment 5) dokładnie potwierdziły te przewidywania, sugerując, że powodem 
wzrostu podatności na wpływy społeczne w sytuacji ulgi jest swoista “bezmyślność,” 
czyli brak operacyjnych zasobów umysłów, które są niezbędne do skutecznej obrony 
przed naciskiem innych.  
 Rozróżnienie moderatorów i mediatorów w przyjętej tu postaci zaproponowali 
Baron i Kenny (1986), którzy podają także dość szczegółowe wskazówki o metodach 
rozstrzygania, czy jakaś zmienna jest, czy też nie jest  moderatorem, bądź 
mediatorem danej zależności. Schematyczne porównanie moderatora i mediatora 
przedstawia rysunek 3. 

-- tutaj rysunek 3 --- 

Moderator to zmienna, której wartość decyduje o kierunku i/lub sile 

zasadniczej zależności. Zasadniczą zależność obrazuje na rysunku strzałka A – 
istotność związku zasadniczych zmiennych 1 i 2 jest świadectwem istnienia 
podstawowej zależności. Świadectwem, że jakaś trzecia zmienna stanowi moderator 
tej zależności jest natomiast istotność strzałki C; nie ma przy tym znaczenia, czy 
zależność obrazowana strzałką B jest istotna, czy nie.  

W klasycznych kategoriach analizy wariancji dowodem na to, że zmienna 3 

ma status moderatora związku zmiennych 1 i 2 jest istotna interakcja zmiennych 1 i 3 
w wyznaczaniu natężenia 2 (ta ostatnia ma więc status zmiennej zależnej, podczas 
gdy 1 i 3 są w schemacie eksperymentu zmiennymi niezależnymi). Na przykład 
wiadomo, że sygnały cierpienia ofiary (zmienna 1) hamują agresję (zmienna 2), co 
jednak silnie zależy od płci agresora (zmienna 3): sygnały cierpienia ofiary 
skuteczniej hamują agresję u kobiet niż u mężczyzn. Płeć jest więc moderatorem 
związku sygnałów cierpienia ofiary z agresją.  

W kategoriach badań korelacyjnych, 1 i 2 są zmiennymi skorelowanymi, 

natomiast 3 jest zmienną, której kontrola za pomocą korelacji częściowej zmienia 
natężenie i/lub kierunek podstawowej korelacji (pierwszego rzędu) między 1 i 2. 
Jednym z tradycyjnych problemów psychologii społecznej jest związek między 
postawą (zmienna 1) a zachowaniem (zmienna 2). Średnio rzecz biorąc związek ten 
wynosi r = 0,39 (Eckes i Six, 1992; Kraus, 1995), jednak dobrze wiadomo, że jego 
wielkość zależy od licznych zmiennych trzecich, takich jak ważność i aktywizacja 
postawy (postawy ważne i zaktywizowane wywierają istotnie silniejszy wpływ na 
zachowanie od nieważnych i nie aktywizowanych), cechy osobowości posiadacza 
postawy (osoby o pryncypialnej koncepcji siebie przejawiają silniejszy związek 
postaw z zachowaniem niż osoby o koncepcji pragmatycznej), czy cechy sytuacji 
(jeżeli w danej sytuacji obowiązują jakieś silne normy postępowania, związek 
postawy z zachowaniem spada). Wymienione zmienne trzecie są więc moderatorami 

background image

 

17

związku postawa-zachowanie. Przykłady te ilustrują, iż moderatorami bywają 
zmienne o bardzo różnorodnym charakterze – mogą to być równie dobrze zmienne 
osobowościowe, czy osobnicze, jak i zmienne sytuacyjne. 

Mediatorami są natomiast z reguły stany lub procesy psychiczne 

pośredniczące między jakąś zmienną niezależną a jakąś zmienną zależną. Sposób 
ich identyfikacji przedstawia prawa strona rysunku 3. Zmienna 3 ma status mediatora 
jeżeli spełnione są dwa warunki. Po pierwsze, w analizie wstępnej istotne okazują się 
wszystkie związki obrazowane strzałkami D, E i F, co oznacza, że zmienna 1 wpływa 
na zmienną 2 zarówno bezpośrednio (strzałka E), jak i za pośrednictwem zmiennej 3 
(strzałki E i F: zmienna 1 wpływa na 3, zaś zmienna 3 wpływa na 2). Po drugie, 
związek E, zmiennej 1 z 2 zanika (lub przynajmniej istotnie słabnie), jeżeli uwzględnić 
w analizie (kontrolować statystycznie) dwa pozostałe związki D i F.  

W przypadku badań korelacyjnych stosowną metodą analizy są tu równania 

liniowo-strukturalne. Np. Sędek (1995) wykazał w serii eleganckich badań, że 
przeżywanie lęku na lekcjach (zmienna 1) hamuje postępy szkolne uczniów z danego 
przedmiotu (zmienna 2). Jednakże związek lęku z niskimi ocenami całkowicie zanikał 
po uwzględnieniu stanu bezradności intelektualnej (zmienna 3), czyli nękającego go 
niezrozumienia tego, co dzieje się na lekcji, pomimo podejmowanych w przeszłości 
prób by to zrozumieć. Sugeruje to, że lęk w klasie szkolnej jest o tyle szkodliwy dla 
wyników nauczania, o ile wywołuje bezradność intelektualną, natomiast rzeczywistym 
wrogiem ucznia jest bezradność – bowiem pogarsza ona wyniki szkolne nawet po 
eliminacji wpływu lęku. Przy tym inne analizy tego autora pokazały, że mediatorem 
wpływu bezradności na wyniki nauczania nie jest np. inteligencja ucznia, bowiem 
nawet po statystycznej eliminacji oddziaływań inteligencji ujemny związek 
bezradności z wynikami nauczania pozostawał istotny. 

W przypadku badań eksperymentalnych wielu badaczy traktuje jako test 

mediacji dwukrotną analizę wariancji – raz przeprowadzoną na zmiennej zależnej 
(zmiennej 2), drugi raz na domniemanym mediatorze (zmiennej 3). Jeżeli średnie 
zmiennej 2 i 3 układają się podobnie (jako funkcja zmiennej 1), wnioskuje się, że 
zmienna 3 stanowi pośrednik oddziaływania zmiennej 1 na 2. W rzeczywistości taka 
droga wnioskowania o statusie mediatora jest jednak bardzo zawodna (Fiske, Kenny 
i Taylor, 1982), m. in. dlatego, że sam fakt iż zmienne 2 i 3 w podobny sposób zależą 
od zmiennej 1, wcale jeszcze nie świadczy o ich związku przyczynowo-skutkowym, 
czyli o tym, że zmiany w zakresie 2 zależą od zmian w zakresie 3 (np. korelacja 
zmiennych 2 i 3 może być pozorna i zależeć od jakiejś nieznanej badaczowi 
zmiennej 4). Baron i Kenny (1986) przekonują, że bardziej adekwatnym sposobem 
testowania mediacji jest dokonanie trzech analiz regresji szacujących kolejno:  
- wpływ zmiennej niezależnej (1) na pośredniczącą (3),  
- wpływ zmiennej niezależnej (1) na zmienną zależną (2), 
- wpływ zmiennej niezależnej (1) i pośredniczącej (3) na zmienną zależną (2). 
O tym, że zmienna (3) ma status mediatora można wnioskować, gdy obie pierwsze 
analizy ujawnią istotne współczynniki regresji, a analiza trzecia ujawni istotny 
współczynnik regresji 3-2. Równocześnie w analizie trzeciej współczynnik regresji 1-2 
powinien spaść do zera lub przynajmniej istotnie zmaleć w porównaniu z 
analogicznym współczynnikiem uzyskanym w analizie drugiej. 
 

Moderatory i mediatory są zwykle identyfikowane przez psychologów dla 

różnych powodów i w różnych warunkach. Typowa sytuacja, w której psychologowie 
poszukują moderatorów, to występowanie zależności słabej i/lub mało rzetelnej, która 
czasami występuje, a czasami zanika, jak np. wpływ postaw na zachowanie. 
Identyfikacja moderatorów ma więc duże znaczenie praktyczne, pozwala bowiem 

background image

 

18

określić warunki, w których jakaś zależność występuje i odróżnić je od warunków, w 
których zależność zanika, nawet jeżeli nie rozumiemy dlaczego tak się dzieje. 
Typowa sytuacja, w której psychologowie poszukują  mediatorów to natomiast 
występowanie zależności silnej, na tyle silnej, że można założyć jej istnienie z dużą 
dozą pewności i poświęcić się dociekaniom dlaczego (na mocy jakich psychicznych 
procesów pośredniczących) ona występuje. Poszukiwanie mediatorów jest więc 
istotnym elementem budowania teorii psychologicznej.  

Znajomość mediatorów prawie zawsze umożliwia precyzyjne wskazanie 

przynajmniej niektórych moderatorów; natomiast znajomość moderatorów 
niekoniecznie oznacza wiedzę o mediatorach - możemy nie rozumieć dlaczego np. 
płeć jest moderatorem jakiejś zależności, choć wiemy, w jaki sposób ją zmienia. 
Jednak identyfikacja moderatora zależności jest zwykle przynajmniej pierwszym 
krokiem w kierunku zrozumienia, dlaczego zależność ta istnieje. Np. dobrze wiadomo 
z licznych badań, iż kobiety intensywniej przeżywają swoje emocje niż mężczyźni (a 
więc płeć jest moderatorem intensywności uczuć w reakcji na emotogenne bodźce). 
Michele Grossman i Wendy Wood (1993) wykazały, że ta różnica płci rośnie wraz ze 
wzrostem stopnia, w jakim porównywane kobiety i mężczyźni wierzą w istnienie 
ogólnych różnic między kobietami (uczuciowymi i impulsywnymi) a mężczyznami 
(opanowanymi i racjonalnymi). Kiedy jednak badanych poinstruowano, że właściwa 
reakcja na pokazywane im fotografie pewnych scenek polega na odczuwaniu silnych 
emocji, albo słabych emocji, różnice między płciami zanikały – zarówno gdy 
emocjonalność reakcji mierzono za pomocą samoopisów, jak i wskaźników 
fizjologicznych (m.in. EMG). Różnice owe pozostawały widoczne w tej grupie 
mężczyzn i kobiet, w której nie wpływano w żaden sposób na normatywne 
przekonania co do emocjonalnego reagowania na pokazywane im bodźce. W ten 
sposób autorki wykazały, iż mediatorem (pośrednikiem) związku między 
emotogennymi bodźcami, a intensywnością reakcji emocjonalnych są normatywne 
przekonania dotyczące tego, jaki stopień emocjonalności reakcji jest w danej sytuacji 
właściwy. Płeć jest moderatorem tego związku dlatego, iż elementem stereotypu płci 
(z którym ludzie się identyfikują) są normatywne przekonania dotyczące siły 
reagowania na bodźce emotogenne. 
 

7. Metaanaliza: ilościowa integracja wyników różnych badań 

 Czy 

huśtawka emocjonalna jest skuteczną techniką manipulacji społecznej? 

Odpowiadając na to pytanie jesteśmy w dosyć komfortowej sytuacji, ponieważ 
wszystkie (i jak dotąd nieliczne) znane badania na ten temat mają tę samą wymowę 
– wszystkie wskazują na skuteczność huśtawki. Jest to jednak sytuacja raczej 
wyjątkowa, bowiem w przypadku większości problemów psychologicznych (jak 
skuteczność psychoterapii, wpływ postaw na zachowanie, różnice między kobietami i 
mężczyznami pod względem zdolności werbalnych, matematycznych czy agresji) 
istnieją liczne badania o nierzadko sprzecznych wynikach. W takiej sytuacji 
konieczna jest jakaś integracja istniejących wyników badań, której dokonywać można 
na dwa sposoby – za pomocą jakościowej narracji i ilościowej metaanalizy.  

Jakościowa narracja to tworzenie wewnętrznie spójnej interpretacji, czyli 

“opowieści” o wynikach dotyczących danej zależności – czy zależność istnieje, jak 
jest jej zwykła siła, jakie są wyjątki od reguły, kiedy zdaje się ona pojawiać, a kiedy 
zanikać i dlaczego. Ten tradycyjny sposób podsumowywania wyników różnych 
badań ma jednak zasadniczą wadę – ponieważ dochodzenie do konkluzji nie jest w 
nim podporządkowane jasnym i sformalizowanym regułom, treść wyciąganych 
konkluzji silnie zależy od poglądów osoby, która je formułuje. Oczywiście, konkluzje 

background image

 

19

okazują się zwykle zgodne z poglądami autora. Jeżeli więc jakiś zbiór wyników jest 
niejednorodny (co w psychologii, jak i w nauce w ogóle, stanowi raczej regułę niż 
wyjątek), podsumowujący go autorzy o różnych poglądach mogą dojść do zgoła 
odmiennych wniosków w oparciu o te same dane. Tego mankamentu nie ma 
metaanaliza – ilościowa metoda integrowania w całość wyników różnych badań nad 
tym samym problemem. Metaanaliza opiera się na prostej logice, którą można opisać 
w czterech krokach.  

Krok pierwszy to odnalezienie wszystkich badań na dany temat. W przypadku 

huśtawki emocjonalnej zadanie jest proste, ponieważ wykonano na ten temat 
niewiele i stosunkowo niedawnych badań. Oprócz pięciu opisanych eksperymentów, 
opublikowano jeszcze jedno tylko badanie opisywane przez Dolińskiego (1997). 
Jednakże nad skutecznością psychoterapii, czy różnicami płciowymi pod względem 
agresji wykonano dosłownie setki badań i ich odnalezienie jest niełatwą sztuką (dużą 
pomocą są tu komputerowe bazy danych – w szczególności prowadzony przez 
American Psychological Association baza PsychLit zawierająca streszczenia 
niemalże wszystkich artykułów, jakie ukazały się w różnych językach od roku 1887 
do chwili obecnej). 

Krok drugi to selekcja badań do metaanalizy – odrzucenie tych, które 

zawierają niepełne dane lub z jakichś względów są niewiarygodne – np. w przypadku 
skuteczności psychoterapii odrzucimy badania bez grupy kontrolnej nie poddanej 
psychoterapii. Ustalenie kryteriów wiarygodności wyniku powinno oczywiście 
poprzedzać faktyczną metaanalizę, tak aby jej wyniki nie mogły wpływać na treść 
kryteriów. 

Krok trzeci to ustalenie jakiegoś miernika siły rozważanego efektu – 

jednakowego dla wszystkich badań. W przypadku huśtawki emocjonalnej może to 
być różnica odsetka osób ulegających wpływowi społecznemu w warunkach huśtawki 
i neutralnych. Różnica ta jest równoważna współczynnikowi korelacji, o czym się 
zaraz przekonamy. Często używanym wskaźnikiem siły efektu jest statystyka d 
Cohena (1988), czyli standaryzowana różnica między średnimi porównywanych grup 
(np. różnica między średnią emocjonalnością mężczyzn i kobiet wyrażona w 
jednostkach odchylenia standardowego łącznego rozkładu emocjonalności obu tych 
grup). Statystyka d i współczynnik korelacji r Pearsona są zresztą wzajemnie 
przekładalne – istnieją reguły przeliczania jednaj na drugą (Cohen, 1988; Rosenthal, 
1991b). 

Wreszcie krok czwarty to ustalenie, jaka jest wartość średnia owego 

wskaźnika siły efektu w jakiejś grupie badań, zwykle we wszystkich dostępnych 
badaniach na dany temat spełniających jakieś minimalne wymogi metodologiczne. 
Towarzyszy temu z reguły oszacowanie przedziału ufności dla tej średniej oraz test 
homogeniczności efektu, a więc sprawdzenie, czy w danej grupie badań wskaźnik 
siły efektu jest jednorodny, czy też nie. Tego rodzaju testy zwykle wskazują na 
niejednorodność, a więc że rozsiew wskaźnika siły efektu jest większy niż wynikałoby 
to z samego przypadku, co pozwala stawiać i sprawdzać hipotezy co do 
domniemanych przyczyn tego zróżnicowania. 

Średni współczynnik korelacji huśtawka-uleganie w sześciu opublikowanych 

badaniach na ten temat wyniósł 0,28. Co to znaczy? Jak ilustruje tabela 3, bez 
huśtawki różnym prośbom ulegało, średnio rzecz biorąc, 33%  nagabywanych, zaś w 
warunkach huśtawki było to już 61%. Różnica między tymi warunkami to właśnie 28, 
czyli współczynnik korelacji pomnożony przez 100 (Rosenthal i Rubin, 1982).  

--- tutaj Tabela 3 --- 

background image

 

20

Czy wzrost odsetka osób ulegających wpływowi społecznemu o 28% to dużo 

czy mało? Odpowiedź w oczywisty sposób zależy od kontekstu – przed wszystkim od 
treści wpływu społecznego. Wzrost o 28% osób ulegających prośbie o złożenie 
niewielkiego datku pieniężnego, można uważać za mały lub umiarkowany. Gdyby 
jednak prośba dotyczyła darowania miliona dolarów albo życia, to wzrost jej 
skuteczności o 28% należałoby uznać za sprawę pierwszorzędnej wagi. To czy jakaś 
zależność jest silna czy słaba, zależy więc nie tylko od wielkości współczynnika 
korelacji, ale i od tego, czego on dotyczy. Chyba najlepszym tu przykładem jest 
przytaczane przez Rosenthala (1991b) badanie nad skutkami zażywania aspiryny 
prowadzone na próbie ponad 22 tysięcy lekarzy. Losowo wybrana połowa z nich 
zażywała co 2 dzień tabletkę aspiryny, druga połowa zażywała placebo. Po pewnym 
czasie eksperyment ten przerwano z powodów etycznych, bowiem okazało się iż 
aspiryna hamuje zapadalność na zawał serca. Korelacja między zażywaniem 
aspiryny a zapadaniem na zawał wynosiła przy tym 0,04 (!), była więc tak mała, że w 
standardowym badaniu psychologicznym nie zostałaby w ogóle odnotowana. A 
jednak ta korelacja przekładała się na pewną liczbę ludzkich istnień i to wystarczyło 
autorom badania do przerwania eksperymentu, by poinformować wszystkich jego 
uczestników o pożytkach aspiryny. 

Konkluzje 

Repetitio est mater studiorum (powtarzanie jest matką wiedzy) powiada znana 

maksyma nawiązująca do losu średniowiecznych żaków, którzy siedząc na 
drewnianych ławach uczyli się łaciny chóralnie powtarzając za magistrem zdania w 
tym języku. Powtarzanie jest także matką wiedzy psychologicznej, tyle, że nie jest to 
powtarzanie mechaniczne, ale konstruowanie ciągu badań, w których pewne 
elementy dokładnie się powtarzają, inne zaś są celowo zmieniane, według strategii 
SMAR – Systematycznie Modyfikowanych Auto-Replikacji. Jak starałem się pokazać, 
SMAR służy co najmniej siedmiu następującym celom: (1) replikacji podstawowego 
efektu, (2) sprawdzaniu skuteczności manipulacji, (3) polepszaniu trafności 
wewnętrznej, (4) polepszaniu trafności zewnętrznej, (5) eliminacji alternatywnych 
wyjaśnień, (6) poszukiwaniu moderatorów efektu oraz (7) poszukiwanie mediatorów 
efektu. Współczesna psychologia akceptuje jako rzeczywiste tylko prawidłowości 
wielokrotnie uzyskiwane w programach badań, w których zrealizowano przynajmniej 
większość wymienionych celów.  

Choć wielu badaczom powtarzanie wyników własnych badań wydaje się 

przedsięwzięciem nudnym i niepotrzebnym, zgromadzone tu argumenty przekonują, 
mam nadzieję do tezy, że w istocie bez powtarzania właściwie nie sposób udowodnić 
czegokolwiek w psychologii rozumianej jako nauka empiryczna. Nie sposób 
dowiedzieć się, jaka jest badana rzeczywistość, a dokładniej – czy rzeczywistość 
przedstawia się tak, jak to zakłada nasza teoria.  

Kto SMARuje ten jedzie – bez elementów tej strategii nie sposób uzyskać 

sensownych, wiarygodnych i poddających się jednoznacznej interpretacji danych 
empirycznych. Dodajmy, że bez tej strategii nie sposób także opublikować wyników 
badań w dobrym czasopiśmie, cieszącym się międzynarodowym uznaniem i 
czytanym w świecie, a więc przez liczniejszą grupę osób niż nasi znajomi, którym i 
tak o swoich badaniach już opowiedzieliśmy. Oczywiście, SMARowanie, jak (prawie) 
wszystko, należy stosować z umiarem – nie sposób czekać z publikacją wyniku na 
całkowite spełnienie wszystkich siedmiu omówionych tu celów programu 
badawczego. Nie sposób jednak oczekiwać od krytycznych czytelników, aby 
uwierzyli w jednorazowo uzyskany efekt, którego nawet nam samym nie udało się 
powtórzyć.  

background image

 

21

 
BIBLIOGRAFIA 

Baron, R. M., Kenny, D. A (1986). The moderator-mediator variable distinction in 

social psychological research: Conceptual, strategic, and statistical 
considerations. Journal of Personality and Social Psychology, 51, 1173-1182. 

Bazińska, R., Wojciszke, B. (1996). Drawing inferences on moral and competence-

related traits. Polish Psychological Bulletin, 27, 293-299. 

Brzeziński, J. (1996). Metodologia badań psychologicznych. Warszawa: 

Wydawnictwo Naukowe PWN. 

Buss, D. M. (1996). Ewolucja pożądania. Strategie doboru seksualnego ludzi

Gdańsk: Gdańskie Wydawnictwo Psychologiczne.  

Buss, D. M. i in. (1990). International preferences in selecting mates: A study of 37 

cultures. Journal of Cross-Cultural Psychology, 21, 5-47. 

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Wyd. 2. 

Hillsdale, NJ: Erlbaum. 

Doliński, D. (1997). O niektórych konsekwencjach nagłego wycofania źródeł emocji. 

Przegląd Psychologiczny, 40, 9-20. 

Doliński, D., Nawrat, R. (1994). Huśtawka emocji jako nowa technika manipulacji 

społecznej. Przegląd Psychologiczny, 37, 7-20. 

Doliński, D., Nawrat, R. (1998). “Fear-then-relief” procedure for producing 

compliance: Beware when the danger is over. Journal of Experimental Social 
Psychology, 34
, 27-50. 

Eckes, T., Six, B. (1992). Fakten und Fiktionen in der Einstellungs-Verhalktens-

Forschung: Eine Meta-Analyse. Zeitschrift fűr Sozialpsychologie, 253-271. 

Ernst, C., Angst, J. (1983). Birth order: Its influence on personality. Berlin:Springer-

Verlag. 

Fishbein, M., Ajzen, I. (1975). Belief, attitude, intention and behavior. An introduction 

to theory and research. Reading: Addison-Wesley. 

Fiske, S. T., Kenny, D. A, Taylor, S. E. (1982). Structural models for the mediatopn of 

salience effects on attribution. Journal of Experimental Social Psychology, 18
105-127. 

Gardner, M. (1957). Fads and fallacies in the name of science. New York: Dover 

Publications, Inc. 

Grossman, M., Wood, W. (1993). Sex differences in intensity of emotional 

experience: A social role interpretation. Journal of Personality and Social 
Psychology, 65
, 1010-1022. 

Harris, J. R. (2000). Geny czy wychowanie? Co wyrośnie z naszych dzieci i 

dlaczego. Warszawa: Jacek Santorski & Co. 

Hensley, W. E. (1991). Pupillary dilation revisited: The constriction of a nonverbal 

cue. W: J. W. Neuliep (red.) Replication research in behavioral sciences (s. 
97-104). Newbury Park, C. A.: Sage Publications. 

Hess, E. H. (1975). The tell-tale eye. New York: Van Nostrand Reinhold. 
Ito, T. A., Miller, N. Pollock, V. E. (1996). Alcohol and aggression: A meta-analysis on 

the moderating effects of inhibitory cues, triggering events, and self-focused 
attention. Psychological Bulletin, 120, 60-82. 

Kraus, S. J. (1995). Attitudes and the prediction of behavior: A meta-analysis of the 

empirical literature. Personality and Social Psychology Bulletin, 21, 58-75. 

Lang, A. R., Goeckner, D. J., Adesso, V. J., Marlatt, G. A. (1975). Effects of alcohol 

on aggression in male social drinkers. Journal of Abnormal Psychology, 84
508-518. 

background image

 

22

Neuliep, J. W., Crandall, R. (1991). Editorial bias against replication research. W: J. 

W. Neuliep (red.) Replication research in behavioral sciences (s. 85-90). 
Newbury Park, C. A.: Sage Publications.  

Pratkanis, A. R., Eskenazi, J., Greenwald, A. G. (1994). What you expect is what you 

believe (but not necessarily what you get): A test of the effectiveness of 
subliminal self-help audiotapes. Basic and Applied Social Psychology, 15
251-276. 

Rosenthal, R. (1991a). Replication in behavioral research. W: J. W. Neuliep (red.) 

Replication research in behavioral sciences (s. 1-30). Newbury Park, C. A.: 
Sage Publications.  

Rosenthal, R. (1991b). Meta-analytic procedures for social research. Wyd. 2, 

zmienione. Newbury Park, CA: Sage 

Rosenthal, R., Rubin, D. B. (1982). A simple, general purpose display of magnitude 

of experimental effect. Journal of Educational Psyhcology, 74, 166-169. 

Schooler, C. (1972). Birth order effects: Not here, not now. Psychological Bulletin, 78, 

161-175. 

Sędek, G. (1995). Bezradność intelektualna w szkole. Warszawa: Wydawnictwo 

Instytutu Psychologii PAN. 

Stapel, D. A. (2000). Moving from fads and fashions to integration: Illustrations from 

knowledge accessibility research. European Bulletin of Social Psychology, 12
4-27. 

Wojciszke, B. (1994). Multiple meanings of behavior: Construing actions in terms of 

competence or morality. Journal of Personality and Social Psychology, 67
222-232. 

Wojciszke, B. (1999). Grzech czy porażka? Moralne i sprawnościowe kategorie w 

potocznym rozumieniu świata społecznego. W: B. Wojciszke i M. Jarymowicz 
(red.) Psychologia rozumienia zjawisk społecznych (ss. 34-51). Warszawa: 
PWN. 

Wojciszke, B., Bazińska, R., Jaworski, M. (1998). On the dominance of moral 

categories in impression formation. Personality and Social Psychology 
Bulletin, 12
, 1245-1257. 

 

 

 

 

 

Tabela 1. Przykład replikacji udanej według kryterium siły efektu, a nieudanej według kryterium 

istotności statystycznej (za Rosenthalem, 1991a, s. 15). 

       Badacz 

    _________________________ 

 

 

 

 

 

 

Kowalski 

Nowak   

łącznie 

Średnia 

grupy 

eksperymentalnej  0,38 

 0,36 

 0,376 

Średnia 

grupy 

kontrolnej   0,26 

 0,24 

 0,256 

 

background image

 

23

Wielkość różnicy    0,12 

 0,12 

 0,120 

Test 

     2,21 

 1,06 

 2,45 

Liczba 

stopni 

swobody 

(df) 

  78 

 18 

 96 

Dwustronne 

    0,03 

 0,30 

 0,02 

Wskaźnik siły 

efektu 

  0,50 

 0,50 

 0,50 

Wskaźnik siły 

efektu 

  0,24 

 0,24 

 0,24 

Statystyka 

    2,17 

 1,03 

 2,40 

 

 

background image

 

24

Tabela 2. Odsetki osób ulegających próbom wpływu w różnych warunkach poszczególnych 

eksperymentów składających się na program badań nad “huśtawką emocjonalną” (zacienione – 

warunki ulgi) 

----------------------------------------------------------------------------------------------------------------- 

Eksperyment 1 (zgoda na wypełnienie kwestionariusza) 

Przechodzący ulicę – gwizdek 

 

 

59 

Przechodzący ulicę – bez gwizdka 

 

 

46 

Idący wzdłuż 

chodnika 

   41 

 

Eksperyment 2 (zgoda na wypełnienie kwestionariusza) 

Kartka za wycieraczką 

 

 

 

62 

Kartka 

na 

drzwiach 

    37 

Brak kartki   

 

 

 

 

36 

 

Eksperyment 3 (zgoda na wypełnienie kwestionariusza) 

Reklama za wycieraczką   

 

 

62 

Wezwanie na policję za wycieraczką 

 

  8 

Reklama 

na 

drzwiach 

    38 

Brak kartki   

 

 

 

 

32 

 

Eksperyment 4 (zgoda na udział w kweście) 

Oczekiwanie na wstrząsy elektryczne   

38 

Oczekiwanie na wstrząsy, potem wycofanie   

75 

Oczekiwanie na badanie koordynacji 

 

53 

 

Eksperyment 5 (złożenie datku pieniężnego) 

Przechodzący ulicę – gwizdek 
 Tylko 

prośba 

    39 

 Prośba z uzasadnieniem pozornym 

 

76 

 Prośba z uzasadnieniem rzeczywistym  72 
Przechodzący ulicę – bez gwizdka 
 Tylko 

prośba 

    11 

 Prośba z uzasadnieniem pozornym 

 

15 

 Prośba z uzasadnieniem rzeczywistym  58 
----------------------------------------------------------------------------------------------------------------- 
(Źródło: Doliński i Nawrat, 1994) 

background image

 

25

Tabela 3. Średni odsetek osób ulegających prośbie w warunkach huśtawki 
emocjonalnej i braku huśtawki – wyniki metaanalizy. 
 

 Brak 

huśtawki 

huśtawka 

emocjonaln

Ulegli 33 

61 

Nie ulegli 

67 

39 

Razem 100 100 

 
Uwaga: Metaanalizie poddano wyniki 5 eksperymentów Dolińskiego i Nawrata (1998) 
i 1 eksperymentu A. Borkowskiej cytowanego przez Dolińskiego (1997).  
 

background image

 

26

 
Rysunek 1. Dominacja kategorii moralnych w spostrzeganiu - ocena osoby 
przejawiającej zachowania moralne lub niemoralne, a przy tym sprawne bądź 
niesprawne (Wojciszke, Bazińska i Jaworski, 1998). 
 

 

-2,11

1,19

-2,77

3,5

-4

-3

-2

-1

0

1

2

3

4

niemoralne

moralne

Moralność zachowań

O

cena gl

obal

n

a

niesprawne
sprawne

background image

 

27

Rysunek 2. Dominacja kategorii moralnych nad sprawnościowymi w interpretacji 
zachowań cudzych (perspektywa obserwatora) i sprawnościowych nad moralnymi 
(perspektywa aktora) (Wojciszke, 1994). 

 

4,2

2,62

2,73

4,46

0

1

2

3

4

5

aktor

obserwator

perspektywa

nat

ęż

e

n

ie

 inte

rpre

ta

c

ji

sprawność
moralność

background image

 

28

 

      MODERATOR 

      

 

 

 

MEDIATOR 

 

Zmienna 

1. 

 
         A 

  

 

  Zmienna 

3. 

 

 

 

 

 

 

 

  D 

 

        

 

Zmienna 

3. 

        B 

Zmienna  

2. 

 Zmienna 

1. 

      

 

Zmienna  

2. 

 

       C 

 

 

 

 

 

 

 

Interakcja 

1 x 3 

 

 

 

 

 

 

 

 

 
Rysunek 3. Schematyczne ilustracje pojęcia moderatora i mediatora według Barona i 
Kenny’ego (1986).