background image

Wykład 7

TRAFNOŚĆ POMIARU 

TESTEM: PODSTAWOWE 

POJĘCIA ORAZ METODY I 

WSKAŹNIKI

background image

Pojęcie trafności pomiaru

Trafność pomiaru testem to:

a). stopień, w jakim test mierzy 
cechę, jaką ma mierzyć (

trafność 

teoretyczna

 czy inaczej trafność 

zorientowana na konstrukt);

b). stopień dokładności 
przewidywania określonych kryteriów 
praktycznych  (

trafność kryterialna

 

lub inaczej trafność podejmowanych 
decyzji).

background image

Trafność a założenia KTT 

   Pojęcie trafności odwołuje się do 

założeń Klasycznej Teorii Testów, 

zgodnie z którymi wyniki 

prawdziwe i błędy pomiaru są 

nieskorelowane, jak i błędy są 

nieskorelowane (r

tb

 = 0 oraz r

bb

 = 

0), co oznacza, że obserwowane 

korelacje (między pozycjami, 

testem i innymi testami oraz 

testem a kryteriami) są korelacjami 

wyników prawdziwych. 

background image

Trafność a rzetelność 

pomiaru

Rzetelność jest koniecznym , ale 

niewystaczającym warunkiem 

trafności pomiaru. Oznacza to, że 

test może być rzetelny i nietrafny, 

ale nie odwrotnie – test nierzetelny 

musi być nietrafny.

Rzetelność jest kresem górnym 

trafności, ponieważ wariancja 

prawdziwa jest źródłem rzetelności, 

ale także trafności.

background image

Źródła wariancji przy analizie 

rzetelności i trafności

(A) 

Systematyczna 
wariancja 
wspólna  z 
innymi testami.

(B) 

Systematyczna 
wariancja 
specyficzna dla 
danego testu.

(C) Wariancja 

błędu (losowa). 

 Rzetelność = A 

+ B (wariancja 
systematyczna 

przeciwieństwie 
do wariancji 
losowej).

 Trafność = A 

(wariancja 
wspólna w 
przeciwieństwie 
do specyficznej 
wariancji = B + 
C).

background image

Rzetelność i trafność

Rzetelność i trafność są 

parametrami psychometrycznymi 

pomiaru testem i są wyznaczane 

przez podobne czynniki:

Zmiany w procedurze standaryzacji 

(alternatywne zastosowanie testu).

Zmiany w demograficznym składzie 

próby - ograniczona zmienność 

wyników testu lub wyników 

kryterialnych w grupie.

background image

Rzetelność i trafność

W przypadku trafności kryterialnej, 

wymaganie tego rodzaju trafności 

jest sprzeczne z wymogiem 

rzetelności, jak i trafności 

teoretycznej. Rzetelność i trafność 

teoretyczna jest najwyższa, gdy 

interkorelacje pozycji są wysokie, 

ale wtedy trafność kryterialna jest 

niska (wymaga ona pozycji o 

niskich interkorelacjach oraz 

wysokich korelacjach z kryteriami 

zewnętrznymi,

background image

Rzetelność i trafność

   co prowadzi do obniżenia 

rzetelności i trafności teoretycznej. 

W takim wypadku test mierzy różne 

(nieskorelowane) właściwości 

psychologiczne, pozwalające na 

przewidywanie złożonych kryteriów 

praktycznych - jest heterogeniczny 

pod względem treści 

psychologicznej (zaś rzetelność i 

trafność wymaga homogenicznych 

pozycji oraz jednej cechy, 

wpływającej na wyniki testowe).

background image

Rodzaje trafności pomiaru

Trafność pomiaru obejmuje trzy 
rodzaje:

a). trafność treściową (wewnętrzną),

b). trafność kryterialną 
(diagnostyczną i prognostyczną),

c). trafność teoretyczną.

background image

Trafność treściowa - definicja

Trafność treściowa (wewnętrzna)

 - 

reprezentatywność danej puli pozycji 
dla uniwersum pozycji mierzących 
daną cechę.

background image

Trafność treściowa - definicja

Trafność treściowa (wewnętrzna)

 - 

reprezentatywność danej puli pozycji 
dla uniwersum pozycji mierzących 
daną cechę. Trafność treściowa jest 
wstępnym aspektem trafności 
teoretycznej. Trafność fasadowa jest 
natomiast karykaturą trafności i nie 
powinna być przesłanką do 
budowania sądu o faktycznej 
trafności testu.

background image

Trafność treściowa

   Analiza trafności treściowej jest 

niezbędnym etapem prac 
konstrukcyjnych testu (zanim 
jeszcze test został całkowicie 
opracowany, za wyjątkiem kwestii 
krytyki testu, gdy chcemy wykazać, 
że test jest nietrafny treściowo, np. 
treść pozycji testowych nie 
obejmuje ważnych aspektów 
cechy).

 

background image

Etapy oceny trafności 

treściowej

 Precyzyjna definicja cechy 

(konstruktu oraz porównanie z 
innymi konstruktami 
teoretycznymi).

 Opis aspektów cechy: 

podwymiarów czy fasad cechy 
(cecha, jak i jej podwymiary 
powinny mieć budowę 
hierarchiczną i być precyzyjnie 
zdefiniowane).

background image

Etapy oceny trafności 

treściowej

 Ocena liczby pozycji w każdym 

podwymiarze oraz teście jako 
całości (każdy podwymiar powinien 
być reprezentowany w całym teście 
i obejmować zbliżoną liczbę 
pozycji). 

 Ocena pozycji w każdym 

podwymiarze oraz w całym teście 
przez grupę ekspertów na skalach 
ocen (trafność treściowa) lub osób 
badanych (typowość).

background image

Trafność kryterialna - 

definicja

Trafność kryterialna

 - stopień, w 

jakim test pozwala na przewidywanie 
określonego kryterium 
zewnętrznego, np. powodzenia 
zawodowego, szkolnego, 
wypadkowości, diagnozy klinicznej, 
itp. Trafność kryterialna obejmuje 

trafność diagnostyczną

 (stopień, w 

jakim test pozwala na ocenę 
aktualnego kryterium) oraz 

trafność 

prognostyczną

 (stopień, w jakim test 

pozwala na ocenę przyszłego 
kryterium).

background image

Trafność kryterialna - 

szacowanie

Trafność kryterialna

 jest szacowana 

na podstawie korelacji między 
wynikami testu a określonym 
kryterium pozatestowym; z tego 
względu kluczowym aspektem jest 
rzetelność (jak i trafność) samego 
kryterium, użytego do badania 
trafności testu.

background image

Trafność kryterialna - 

poprawka na nierzetelność 

kryterium

 Poprawka na nierzetelność 
kryterium:

   r

kt

 

r

s-k

 = --------------  

      

   R

tt-k

r

s-k

 -  skorygowany współczynnik korelacji, 

r

kt

 - współczynnik korelacji przed 

skorygowaniem, R

tt-k

 współczynnik 

rzetelności kryterium.

background image

Trafność kryterialna - 

poprawka na nierzetelność 

kryterium i testu

Poprawka na nierzetelność kryterium 
i testu:

   r

kt

 

r

s-kt

 = --------------  

           R

tt-k 

 R

tt-t

r

s-kt

 -  skorygowany współczynnik korelacji, 

r

kt

 - współczynnik korelacji przed 

skorygowaniem, R

tt-k

 współczynnik 

rzetelności kryterium, R

tt-t

 -współczynnik 

rzetelności testu.

background image

Trafność kryterialna – dane z 

meta-analiz

 Testy zdolności – korelacje około 

0,50 ze wskaźnikami efektywności 
pracy oraz osiągnięciami szkolnymi 
(0,70 – szkoła podstawowa, 0,50 – 
szkoła średnia oraz 0,30 – szkoła 
wyższa).

 Skale osobowości – korelacje około 

0,30 ze wskaźnikami efektywności 
pracy oraz 0,50 z diagnozą 
kliniczną (psychiatryczną).

background image

Skala 

Mount i Barrick 

(1991) 

Tett, J ackson i 

Rothstein (1991) 

Neurotyczność 

-0,04 (-0,07) 

-0,15 (-0,22) 

Ekstrawersja 

0,06 (0,10) 

0,10 (0,16) 

Otwartość 

-0,02 (-0,03) 

0,18 (0,27) 

Sumienność 

0,13 (0,23) 

0,12 (0,18) 

Ugodowość 

0,04 (0,06) 

0,22 (0,33) 

 

Tabela 8. Dane z dwóch meta-analiz trafności kryterialnej

skal osobowości i efektywności pracy (w nawiasach – 

korelacje skorygowane na nierzetelność kryterium i/lub skali).

background image

Trafność kryterialna – inne 

meta-analizy

 Mount, Barrick i Judge (2001) – meta-

analiza 15 wcześniejszych metaanaliz: 
korelacje -0,13 dla N oraz 0,24-0,27 dla S 
i efektywności pracy.

 Salgado (1997) – meta-analiza badań 

europejskich: korelacje -0,19 dla N i 0,25 
dla S.

 Mount, Barrick i Stewart (1998) – U i N 

przewidują efektywność pracy w zespole.

 Judge, Heller i Mount (2002) -  N, S i E 

przewidują poziom satysfakcji z pracy 
(zbliżone rezultaty dla trafności 
diagnostycznej i predykcyjnej).

background image

Cechy OCEAN a powodzenie 

zawodowe

   

Cechy PMO badane w dzieciństwie, 

zostały odniesione do subiektywnie 
ocenianego sukcesu zawodowego 
oraz zobiektywizowanych 
wskaźników sukcesu zawodowego 
(dochodów i statusu społecznego 
wykonywanego zawodu), badanych 
w dorosłości - po upływie ponad 50 
lat (Judge, Higgins, Thoresen i 
Barrick, 1999).

background image

Rycina 1. 

Cechy Pięcioczynnikowego Modelu Osobowości w dzieciństwie a ocena 

subiektywna i obiektywne wskaźniki sukcesu zawodowego (status 

społeczny zawodu oraz dochody) w dorosłości (Judge, Higgins, Thoresen i 

Barrick, 1999). 

Dochody

Subiektywna ocena sukcesu 

zawodowego

Status społeczny zawodu

background image

Cechy OCEAN a powodzenie 

zawodowe

   

Najlepszym predyktorem 

subiektywnie ocenianego sukcesu 
zawodowego była sumienność, 
mała neurotyczność i otwartość. 
Predyktorem poziomu dochodów 
była ekstrawersja, mała 
neurotyczność i sumienność, zaś 
statusu społecznego (rangi) 
zawodu – sumienność, otwartość 
oraz mała neurotyczność.

background image

Ryc. 21. Związki między cechami temperamentu: reaktywnością emocjonalną

i aktywnością, cechami osobowości: depresyjnością oraz uległością,

paleniem tytoniu a zachorowaniem na raka płuca.

 

 

 

 

 

 

 

 

0,46 

 

 

 

 

 

 

 

Depresyjność 

 

 

 

 

 

0,64 

 

 

 

 

     -0,23 

 

 

          0,23 

    Reaktywność 

 

 

 

 

0,96   

 

 

 

0,54 

 

 

 

 

 

 

 

 

 

0,21 

     -0,30 

 

 

 

Uległość 

 

 

 

Rak płuca 

 

 

 

 

 

-0,21 

      Aktywność 

 

 

 

 

0,95   

0,56 

 

 

 

 

-0,24 

 

 

 

 

 

Palenie 

 

 

background image

Ryc. 22. Związki między cechami temperamentu: reaktywnością emocjonalną

i aktywnością, cechami osobowości: depresyjnością oraz wrogością,

paleniem tytoniu a zachorowaniem na zawał serca.

 

 

 

 

 

 

 

 

0,45 

 

 

 

 

 

 

 

Depresyjność 

 

 

 

 

 

0,76 

 

 

 

 

 

 

 

 

 

0,25 

     Reaktywność   

 

 

 

0,82   

 

 

 

0,83 

 

 

 

 

0,51 

 

     -0,60 

 

 

 

Palenie 

 

 

 

Zawał serca 

 

 

 

0,48 

 

        Aktywność 

 

 

 

 

0,80   

0,29 

 

 

 

 

   0,55 

 

 

 

0,49 

 

 

 

 

 

Wrogość 

 

 

 

background image

Podsumowanie

   Korelacje cech osobowości z 

diagnozą medyczną (stan zdrowia) 
wynosiły ok. 0,20 dla raka płuca i 
zawału serca. Zbliżone dane zostały 
uzyskane w innych badaniach 
(Zawadzki, 2001).

background image

Podsumowanie

   Mischel (1968) określił 

współczynniki trafności skal 
badających cechy osobowości z 
kryteriami (stan zdrowia, 
powodzenie zawodowe) mianem 
„współczynników osobowości”, 
które nie przekraczają wartości 
0,30.

background image

Cechy OCEAN a długość życia

   

Osobami badanymi byli uczestniczy 

programu Termana dotyczącego 
powodzenia życiowego osób 
wybitnie zdolnych, które urodziły 
się około 1910 roku i od początku 
lat 20. uczestniczyły w programie 
badawczym aż do roku 1986. 
Analiza przeżywalności (po ponad 
60 latach) wykazała, że efekt 
sumienności z pewnym dodatkiem 
ugodowości

background image

Cechy OCEAN a długość życia

    (niezawodność społeczna, 

rozwaga, wolność od próżności-
egotyzmu, skrupulatność i 
prawdomówność) - cechy badanej w 
dzieciństwie na podstawie 
szacowania przez rodziców oraz 
nauczycieli (na podstawie szeregu 
pytań, sklasyfikowanych w latach 
80. jako - w głównej mierze - 
wskaźniki sumienności)

background image

Cechy OCEAN a długość życia

    pozwala na przewidywanie 

przeżywalności (Friedmann i in, 
1993; 1995), także przy kontroli 
efektu płci, przyczyny zgonu (np. 
wypadki samochowe), czy 
zachowań zdrowotnych (alkohol, 
palenie, nadwaga).
 

background image

Wykład 8

TRAFNOŚĆ TEORETYCZNA 

POMIARU TESTEM

background image

Trafność teoretyczna - 

pojęcie

Trafność teoretyczna

 - zgodność 

treści mierzonej przez test z 

konstruktem teoretycznym (trafność 

zorientowana na konstrukt) - 

określenie jaką treść psychologiczną 

mierzy test.

background image

Metody szacowania trafności 

teoretycznej

1). Metody bazujące na analizie 

związku pomiędzy konstruktem a 

zachowaniem:

a). metoda zmian nieprzypadkowych,

b). metoda sprawdzania różnic 

międzygrupowych,

c). metoda badania procesu 

rozwiązywania testu;

background image

Metody szacowania trafności 

teoretycznej (c.d.)

2). Metody bazujące na analizie 
macierzy korelacji pomiędzy testem, 
a innymi testami przeznaczonymi do 
badania danego konstruktu:

a). metoda badania wewnętrznej 
struktury testu,

background image

Metody szacowania trafności 

teoretycznej (c.d.)

b). metoda analizy macierzy korelacji 
i analizy czynnikowej (eksploracyjnej 
i konfirmacyjnej) danego testu oraz 
testów, badających ten sam 
konstrukt;

c). badanie trafności 
konwergencyjnej i dyskryminacyjnej 
(zbieżnej i różnicowej) za pomocą 
analizy macierzy Wielu Cech- Wielu 
Metod wg Campbella i Fiskego

background image

Analiza zmian 

nieprzypadkowych

Zmiany rozwojowe – wyniki testów 

zdolności powinny wykazywać 
systematyczną tendencję 
wzrostową wraz ze wzrostem wieku 
w dzieciństwie oraz tendencję 
regresywną w dorosłości. Wyniki 
niektórych skal osobowości także 
powinny wykazywać zmiany z 
wiekiem – aktywność 
temperamentalna powinna 
systematycznie maleć wraz z 
wiekiem, z uwagi na malejące 
zasoby energii.

background image
background image
background image

Ryc. 25. Wiek a aktywność, badana FCZ-KT (wyniki 

standaryzowane 7 prób narodowych).

background image

Analiza zmian 

nieprzypadkowych

„Postulat lekowy” - metoda 

opracowana w psychiatrii i 
stosowana przez H. Eysencka.

   
   Założenia:

• Ekstrawersja jest wyznaczana przez 

poziom pobudzenia korowego 
(ekstrawertycy wykazują niski 
poziom pobudzenia);

background image

Analiza zmian 

nieprzypadkowych

• Niektóre leki zwiększają poziom 

pobudzenia;

• Pod wpływem tych leków osoby 

badane powinny ujawniać 
introwertywny wzór zachowania 
(jako efekt silnego pobudzenia).

   Wniosek:

• Skala Ekstrawersji powinna 

zarejestrować tę różnicę (między 
pre-testem i post-testem po 
podaniu leku

).

background image

Analiza różnic 

międzygrupowych

   Celem tej metody jest ocena różnic 

w wynikach testu, uzyskanych 
przez różne grupy demograficzne, 
wyodrębnione na podstawie 
predykcji bazującej na analizie 
konstruktu teoretycznego 
(konfiguracja tych różnic jest 
oczekiwana na podstawie teorii). 

background image

Analiza różnic 

międzygrupowych

 Testy zdolności – analiza wyników 

testu inteligencji w różnych 
grupach zawodowych (wniosek: im 
bardziej wymagający sprawności 
intelektualnej jest dany zawód, tym 
wyższy poziom inteligencji 
wykazują pracownicy).

 Skale osobowości – przypadek 

wrażliwości sensorycznej i 
wytrzymałości (z FCZ-KT).

background image

Różnice międzygrupowe we 

wrażliwości i wytrzymałości

   Hipotezy:

 Muzycy – wysoki poziom 

wrażliwości sensorycznej (zdolność 
specjalna), ale niski poziom 
wytrzymałości;

 Sportowcy – wysoki poziom 

wytrzymałości (zdolność specjalna), 
ale niski wrażliwości sensorycznej;

background image

Różnice międzygrupowe we 

wrażliwości i wytrzymałości

   Hipotezy:

 Przestępcy (mordercy) – wysoki 

poziom wytrzymałości i niski 
poziom wrażliwości sensorycznej 
(zdolności specjalne?);

 Pytanie o nasilenie obu cech u 

nauczycieli szkół podstawowych?

background image

Tabela 9. Wrażliwość sensoryczna i wytrzymałość

w różnych grupach demograficznych.

Grupa 

Wrażliwość 

sensoryczna 

Wytrzymałość 

Przestępcy 

13,39 

11,18 

Sportowcy 

(zapaśnicy) 

13,43 

11,18 

Artyści muzycy 

15,68 

8,76 

Norma (mężczyźni) 

15,00 (3,45) 

10,26 (4,78) 

Nauczycielki 

16,67 

12,57 

Artystki (muzycy) 

17,32 

6,38 

Norma - kobiety 

16,23 (2,86) 

8,04 (4,58) 

 

background image

Różnice międzygrupowe we 

wrażliwości i wytrzymałości

   Wnioski:

 Większość różnic jest zgodna z 

przewidywaniami (zwłaszcza z 
relacji do grupy normatywnej).

 Nieoczekiwane relacje: zbliżone 

wyniki u przestępców oraz 
zapaśników oraz najwyższe wyniki 
u nauczycieli szkól podstawowych.

background image

Wady metody

 Różne nasilenie tendencji do 

symulowania albo dysymulowania 
w badanych grupach 
(nauczyciele?);

 Wyjaśnienie różnic 

międzygrupowych: dwa procesy – 
„naturalna” selekcja do zawodu 
i/lub (?) adaptacja do wymagań 
zawodu (zmiana nasilenia cech);

 Nieoczekiwane zależności są 

typowe i trudne do wyjaśnienia.

background image

Wady metody – badania 

Nyborga

   Nyborg (1995) prowadził badania 

dotyczące związku między 
poziomem hormonów a 
wykonywaniem różnych zawodów. 
Podstawowa hipoteza głosiła, że im 
wyższy jest poziom męskich 
hormonów, tym za bardziej 
zmaskulinizowany uznawany jest 
dany zawód, zaś im wyższy jest 
poziom żeńskich hormonów, tym za 
bardziej

background image

Wady metody – badania 

Nyborga

   sfeminizowany uznawany jest dany 

zawód. Pielęgniarstwo jest 
typowym zawodem kobiecym i 
pielęgniarki wykazują najwyższy 
poziom żeńskich hormonów. 
Oczekiwano zatem, że pielęgniarze 
powinni wykazywać najniższy 
poziom męskich hormonów, 
podczas gdy w rzeczywistości 
wykazywali najwyższy poziom ze 
wszystkich grup zawodowych!

background image

Analiza procesu 

rozwiązywania testu

Testy zdolności – eksperymenty z 

manipulowaniem złożonością 
zadań, prezentacją zadań 
cząstkowych lub podawaniem 
wskazówek, które zmieniają 
wymagania.

Skale osobowości – „analiza 

protokołów” (instrukcja „głośnego 
myślenia”) w celu identyfikacji 
czynników wpływających na 
udzielanie odpowiedzi na pozycje.   

background image

Analiza wewnętrznej 

struktury testu

Dwie grupy metod:

 Analiza korelacji między pozycjami 

(wskaźnik dyskryminacji lub 
korelacji pozycja-skala oraz analiza 
czynnikowa pozycji);

 Analiza korelacji między skalami 

testu (korelacje skal i analiza 
czynnikowa skal).

background image

Analiza korelacji między 

pozycjami

 Korelacja pozycja-skala (moc 

dyskryminacyjna) – pozycja 
powinna wysoko korelować z 
wynikiem całej skali korelacja 
(pozycja powinna mierzyć tę samą 
treść psychologiczną co wszystkie 
inne pozycje w tej skali).

background image

Analiza korelacji między 

pozycjami

 Analiza czynnikowa pozycji (testy 

wieloskalowe) – pozycja powinna 
wysoko korelować z własną skalą i 
nisko z innymi skalami (pozycja 
powinna mierzyć określoną treść 
psychologiczną i jednocześnie nie 
mierzyć innych treści).

background image

Analiza czynnikowa

   Analiza czynnikowa jest metodą 

dekompozycji macierzy korelacji 
pomiędzy zmiennymi, prowadzącej 
do uzyskania wiązek zmiennych, 
które reprezentują zbliżoną treść 
psychologiczną (odnoszą się do 
zbliżonych lub wręcz identycznych 
konstruktów – cech 
psychologicznych).

background image

Analiza czynnikowa

   Zmienne są grupowane w wiązki na 

podstawie ich korelacji w taki 
sposób, aby korelacje w obrębie 
wiązki były jak najwyższe, zaś 
między wiązkami jak najniższe. Idea 
analizy czynnikowej bazuje na tzw. 
„równaniu czwórkowym” 
Spearmana.

background image

Przykład

 Test A i test B – korelacja 0,70.
    Wniosek – oba testy mierzą tę 

samą cechę.

 Test A, B i C – korelacje 0,70.    
    Wniosek – wszystkie testy są 

jednakowo dobrymi miarami tej 
samej cechy.

 Test A, B i C – korelacja 0,70 

pomiędzy testem A i B oraz 
korelacja 0,50 pomiędzy  testem C 
oraz testami A i B.

background image

Przykład

   Wniosek – testy A i B są dobrymi 

miarami  cechy ogólnej, zaś test C 
mierzy bardziej specyficzną treść i 
jest gorszą miarą cechy ogólnej niż 
testy A i B.

 Test A, B, C i D – korelacje 0,70 

pomiędzy testem A i B oraz 
pomiędzy C i D, a także korelacje 
krzyżowe po 0,50 między testami A 
i B oraz testami C i D.

background image

Przykład

   Wniosek – istnieje nie tylko cecha 

ogólna (badana przez wszystkie 
testy – każdy z nich jest dobrą 
miarą tej cechy do wysokości 
korelacji 0,50), ale przede 
wszystkim istnieją dwie odmienne, 
choć skorelowane cechy; jedna 
wiązka (czynnik) mierzy pierwszą 
cechę (testy A i B), zaś druga 
wiązka bada drugą cechę (testy C i 
D).

background image

Analiza mocy 

dyskryminacyjnej

   Celem tej analizy jest ocena w 

jakim stopniu wszystkie pozycje 
mierzą tę samą treść; najczęściej 
używany jest skorygowany 
współczynnik pozycja-skala. Analiza 
ta jest dokonywana dla pozycji 
tworzących daną skalę oraz 
oddzielnie dla każdej ze skal testów 
wieloskalowych.

background image

Analiza czynnikowa pozycji

   Celem eksploracyjnej analizy 

czynnikowej pozycji jest wykazanie, 
że pozycje tworzące daną skalę 
mają najwyższe korelacje (ładunki 
czynnikowe) z odpowiadającymi im 
czynnikami (odzwierciedlającymi 
określoną treść  psychologiczną) 
oraz najniższe z innymi czynnikami 
(tworzącymi inne wiązki pozycji). 
Analiza jest przeprowadzana na 
wszystkich pozycjach testu.

background image

Skala /pozycja 

SKPS  Czynnik 

Czynnik 

Czynnik

Czynnik 

E / pozycja 6 

0,58 

-0,72 

0,07 

-0,02 

0,11 

11 

0,55 

-0,72 

0,09 

-0,04 

0,16 

-24 

0,51 

0,62 

-0,01 

0,19 

-0,02 

51 

0,55 

-0,69 

-0,17 

0,07 

-0,23 

78 

0,64 

-0,74 

-0,10 

-0,00 

-0,21 

94 

0,53 

-0,71 

0,03 

0,03 

0,06 

N / pozycja 26 

0,56 

0,05 

-0,03 

0,71 

-0,04 

35 

0,54 

-0,15 

0,03 

0,72 

0,07 

38 

0,53 

0,07 

-0,04 

0,67 

0,05 

46 

0,54 

0,22 

-0,03 

0,65 

0,03 

65 

0,49 

0,08 

0,03 

0,63 

-0,06 

83 

0,58 

-0,14 

0,01 

0,76 

0,06 

 

Tabela 10. Współczynniki mocy dyskryminacyjnej i ładunki czynnikowe

pozycji EPQ-R(24). 

background image

Skala / pozycja 

SKPS  Czynnik

Czynnik 

Czynnik 

Czynnik 

P / pozycja 7 

0,23 

0,06 

0,14 

0,08 

0,56 

-18 

0,31 

-0,03 

-0,20 

-0,01 

0,48 

37 

0,30 

-0,12 

0,20 

0,03 

-0,45 

-41 

0,26 

-0,17 

0,01 

0,08 

0,58 

42 

0,26 

-0,13 

0,29 

0,16 

-0,36 

-88 

0,28 

0,01 

0,03 

0,01 

0,54 

K / pozycja 44 

0,37 

0,01 

0,56 

-0,04 

-0,10 

-49 

0,36 

-0,08 

0,64 

-0,04 

0,14 

-53 

0,35 

0,08 

0,65 

-0,04 

0,16 

-66 

0,36 

-0,07 

0,47 

-0,05 

-0,26 

-71 

0,42 

-0,03 

0,61 

0,04 

-0,11 

86 

0,30 

-0,07 

-0,49 

-0,10 

0,06 

 

Tabela 10 – c.d. 

background image

Wnioski

   Moc dyskryminacyjna:

 Skala E - zakres: 0,54 do 0,64 

(pozycja nr 78 jest najlepszą miarą 
E);

 Skala N - zakres: 0,49 to 0,58 

(pozycja nr 83 jest najlepszą miarą 
N);

 Skala P - zakres: 0,23 to 0,31 

(pozycja nr 18 jest najlepszą miarą 
P);

 Skala K - zakres: 0,35 to 0,42 

(pozycja nr 71 jest najlepszą miarą 
K).

background image

Uwaga

   Znak minus przed numerem pozycji 

wskazuje, że odpowiedź negująca 
jest zgodna z kluczem – wyniki tych 
pozycji powinny zostać 
zrekodowane. Zabieg ten jest 
niezbędny dla obliczenia mocy 
dyskryminacyjnej (wszystkie 
korelacje muszą być pozytywne), 
ale opcjonalne dla analizy 
czynnikowej – ładunki mogą być 
zarówno pozytywne, jak i 
negatywne.

background image

Wnioski

   Eksploracyjna analiza czynnikowa: 

wszystkie pozycje wykazały wyższe 
korelacje z odpowiadającymi im 
czynnikami. Najlepsze są skale E i 
N, skale K, a zwłaszcza P są gorsze.

   Optymalny wzór tych korelacji 

powinien być „czarno-biały”. W 
praktyce testów psychologicznych 
nigdy się to nie zdarza.

background image

Analiza korelacji pomiędzy 

skalami testu

 Dwie formy analizy:

 Korelacje między skalami testu;

 Analiza czynnikowa skal testu.

background image

Analiza korelacji pomiędzy 

skalami testu

 Korelacje między skalami - skala 

wytrzymałości z FCZ-KT koreluje 
dodatnio (ok. 0,20) ze skalą 
aktywności (osoby aktywne są 
bardziej wytrzymałe, co jest zgodne 
z oczekiwaniami teoretycznymi).

 Analiza czynnikowa skal testu - 

WAIS-R ujawnia dwa czynniki skal 
testu: Werbalny i Niewerbalny 
(czasami też trzeci czynnik, 
określany mianem 
Pamięci/Odporności na dystrakcję).

background image

Analiza korelacji pomiędzy 

testami

 Dwie formy analizy:

 Analiza korelacji pomiędzy testem 

oraz innymi testami (badającymi 
ten sam i odmienne konstrukty);

 Analiza czynnikowa (eksploracyjna i 

konfirmacyjna) danego testu oraz 
innych testów (badających ten sam 
i odmienne konstrukty).

background image

Korelacje z innymi testami

   Celem tej analizy jest ocena 

wielkości wariancji dzielonej przez 
test z innymi testami. Analiza ta 
wymaga uwzględnienia skal 
mierzących te same i odmienne 
konstrukty w celu wykazania 
trafności konwergencyjnej i 
dyskryminacyjnej (oceniana skala 
powinna korelować ze skalami 
badającymi zbliżone konstrukty 
oraz nie korelować ze skalami 
mierzącymi odmienne konstrukty).

background image

Przykład badań 

walidacyjnych NEO-FFI

   Hipotezy:

 Skale N i E z NEO-FFI i EPQ-R oraz 

skale U i S z NEO-FFI i PAL 
(identyczne konstrukty – bardzo 
wysokie korelacje);

 Skale U i S z NEO-FFI i skale P i K z 

EPQ-R oraz skale E i N z NEO-FFI i 
skale P i D z PAL, a także skala O z 
NEO-FFI i skala I z PAL (zbliżone 
konstrukty – przeciętne korelacje);

background image

Przykład badań 

walidacyjnych NEO-FFI

   Wszystkie te korelacje są 

wskaźnikiem 

trafności 

konwergencyjnej (zbieżnej).

 Korelacje pomiędzy skalami, 

badającymi odmienne kontrukty 
powinny być bardzo niskie (zbliżone 
do zera).

   Wszystkie te korelacje są z kolei 

wskaźnikiem 

trafności 

dyskryminacyjnej (różnicowej).

background image

NEO-FFI, EPQ-R/PAC 

NEU 

EKS 

OTW 

UGD 

SUM 

Ekstrawersja 

-0,25* 

0,71* 

0,18* 

-0,11* 

0,06* 

Neurotyczność 

0,73* 

-0,19* 

-0,00 

-0,15* 

-0,11* 

Psychotyczność 

0,00 

0,09* 

0,03 

-0,47* 

-0,37* 

Skala Kłamstwa 

-0,10* 

-0,09* 

-0,09* 

0,39* 

0,45* 

Pobudliwość 

0,40* 

0,10* 

0,06 

-0,27* 

-0,01 

Dynamiczność 

-0,27* 

0,60* 

0,22* 

-0,01 

0,38* 

Intelekt 

-0,29* 

0,32* 

0,40* 

0,12* 

0,31* 

Ugodowość 

0,01 

0,28* 

0,22* 

0,35* 

0,24* 

Sumienność 

-0,04 

0,10* 

0,04 

0,18* 

0,66* 

 

Tabela 11. Korelacje pomiędzy skalami NEO-FFI oraz EPQ-R

i PAL (korelacje konwergencyjne są podkreślone).

background image

Wnioski

 Wysokie korelacje skal N i E z NEO-

FFI i EPQ-R oraz skali S z NEO-FFI i 
PAL potwierdzają trafność 
konwergencyjną (korelacje skali A 
są zbyt niskie);

 Przeciętne korelacje skal U i S z 

NEO-FFI i skale P i K z EPQ-R oraz 
skali N z NEO-FFI i P z PAL, a także 
skali O z NEO-FFI i skali I z PAL 
także potwierdzają trafność 
konwergencyjną (korelacja 
pomiędzy skalami E i D jest zbyt 
wysoka);

background image

Wnioski

 Korelacje zbieżne są wyższe niż 

korelacje krzyżowe, co potwierdza 
trafność dyskryminacyjną.

 Korelacje krzyżowe są wyższe w 

przypadku PAL niż EPQ-R – niektóre 
problemy słabej trafności zbieżnej i 
różnicowej występują, gdy NEO-FFI 
jest odnoszony do PAL (a nie EPQ-
R).

 PAL wykazuje niską trafność. 

background image

Analiza czynnikowa testów

Dwie formy analizy:

 Eksploracyjna analiza czynnikowa 

(empiryczna klasyfikacja treści skal 
różnych testów);

 Konfirmacyjna analiza czynnikowa 

(porównanie modelu teoretycznego 
do danych – analiza dobroci 
dopasowania modelu do struktury 
danych testowych).

background image

Źródła wariancji w analizie 

czynnikowej

(A) Systematyczna 

wariancja wspólna 
 z innymi testami.

(B) Systematyczna 

wariancja 
specyficzna dla 
danego testu.

(C) Wariancja błędu 

(losowa).

(A1) Wariancja 

wspólna 
specyficzna dla 
danej cechy.

(A2) Wariancja 

wspólna 
specyficzna dla 
innych cech.

(B+C) Wariancja 

unikatowa testu 
(niewyjaśniona).

background image

Źródła wariancji w analizie 

czynnikowej

 (A1) = trafność konwergencyjna;
 (A2) = trafność dyskryminacyjna;
 (A1+A2) = wariancja wspólna 

(communality, h

2

);

 1-h

2

 = wariancja unikatowa (B+C).

    Inne źródła zmienności: 
 1-α = wariancja błędu (C).
 α-h

= wariancja systematyczna, 

specyficzna dla testu (B).

background image

Eksploracyjna analiza 

czynnikowa

   Celem tej analizy jest ocena 

trafności konwergencyjnej i 
dyskryminacyjnej testu (lub 
testów), bazująca na empirycznej 
strukturze danych.

background image

Skala 

Czynnik I  Czynnik II  Czynnik III  Czynnik 

IV 

Czynnik V 

h

2

 

NEU 

0,77 

-0,20 

-0,17 

-0,03 

-0,10 

0,67 

EKS 

-0,15 

0,85 

0,13 

0,04 

-0,01 

0,76 

OTW 

0,01 

0,39 

0,15 

0,20 

-0,39 

0,37 

UGD 

-0,21 

0,05 

-0,06 

0,79 

0,04 

0,68 

SUM 

-0,11 

0,11 

0,74 

0,23 

0,15 

0,64 

-0,10 

0,85 

0,11 

-0,10 

-0,05 

0,77 

0,85 

-0,06 

-0,02 

-0,01 

-0,14 

0,74 

-0,06 

0,12 

-0,06 

-0,63 

-0,23 

0,48 

-0,08 

-0,16 

0,38 

0,47 

0,23 

0,45 

POB-L 

0,66 

0,21 

0,19 

-0,26 

-0,06 

0,59 

DYN-L 

-0,08 

0,61 

0,52 

-0,08 

-0,11 

0,67 

INT-P 

-0,15 

0,34 

0,48 

0,18 

-0,21 

0,44 

UGD-L 

0,10 

0,29 

0,28 

0,55 

-0,05 

0,47 

SUM-L 

0,06 

-0,03 

0,72 

0,37 

0,11 

0,67 

 

Tabela 12. Eksploracyjna analiza czynnikowa 38 skal osobowości.

background image

Skala 

Czynnik I  Czynnik II  Czynnik III  Czynnik 

IV 

Czynnik V 

h

2

 

ŻW 

-0,45 

0,29 

0,40 

-0,04 

-0,11 

0,46 

PE 

0,72 

0,00 

-0,12 

0,13 

-0,15 

0,58 

WS 

-0,06 

0,12 

0,19 

0,26 

-0,28 

0,20 

RE 

0,81 

-0,24 

-0,20 

0,11 

-0,01 

0,76 

WT 

-0,63 

0,20 

0,34 

-0,11 

-0,09 

0,58 

AK 

-0,06 

0,78 

0,01 

-0,10 

-0,08 

0,63 

SP 

-0,60 

0,39 

0,38 

-0,17 

-0,11 

0,71 

SH 

-0,58 

-0,08 

0,04 

0,34 

-0,15 

0,48 

RU 

-0,48 

0,62 

0,14 

0,10 

-0,12 

0,66 

 

Tabela 12 – c.d.

background image

Skale 

Czynnik I  Czynnik II  Czynnik III  Czynnik 

IV 

Czynnik V 

h

2

 

TOW 

-0,10 

0,61 

-0,10 

0,15 

0,13 

0,43 

AKT 

0,13 

0,63 

0,37 

-0,15 

0,02 

0,58 

STR 

0,73 

-0,19 

-0,12 

0,14 

0,02 

0,60 

NIE 

0,82 

-0,11 

-0,03 

-0,10 

-0,00 

0,69 

GNW 

0,76 

0,08 

0,09 

-0,34 

0,00 

0,70 

A-G 

0,17 

0,63 

0,26 

-0,11 

0,08 

0,51 

A-S 

0,17 

0,11 

-0,15 

-0,03 

-0,25 

0,13 

A-W 

-0,36 

0,69 

0,16 

0,10 

-0,00 

0,64 

F-R 

-0,54 

0,32 

-0,11 

0,09 

-0,26 

0,48 

MQ 

-0,28 

0,62 

-0,13 

0,10 

-0,00 

0,49 

R-S 

0,02 

-0,01 

0,12 

0,17 

0,65 

0,47 

R-E 

-0,07 

0,04 

0,17 

0,11 

0,72 

0,57 

R-H 

0,07 

0,14 

0,08 

0,04 

0,74 

0,58 

DIST 

-0,16 

0,09 

0,58 

-0,12 

0,20 

0,43 

PERS 

-0,12 

0,14 

0,62 

0,01 

0,15 

0,44 

 

Tabela 12 – c.d.

background image

Skala Neurotyczności z NEO-

FFI

(A1) = 0,77

2

 = 0,59 (wariancja 

specyficzna dla neurotyczności)

(A2) = 0,08 (wariancja wspólna z 

pozostałymi czterema cechami) = (-

0,20

2

;4%E)+(-0,17

2

;3%C)+(-0,03

2

;A)

+(-0,10

2

;1%O).

Wariancja wspólna (A1+A2=h

2

) = 

0,59+0,08=0,67.

Wariancja unikatowa = 1-h

2

 = 1-

0,67=0,33 (błąd pomiaru + 

systematyczna wariancja 

specyficzna dla skali N z NEO-FFI).

background image

Skala Neurotyczności z EPQ-

R

(A1) = 0,85

2

 = 0,72 (wariancja 

specyficzna dla neurotyczności)

(A2) = 0,02 (wariancja wspólna z 

pozostałymi czterema cechami) = (-

0,06

2

;E)+(-0,02

2

;C)+(-0,01

2

;A)+(-

0,14

2

;2%O).

Wariancja wspólna (A1+A2=h

2

) = 

0,72+0,02=0,74.

Wariancja unikatowa = 1-h

2

 = 1-

0,74=0,26 (błąd pomiaru + 

systematyczna wariancja 

specyficzna dla skali N z EPQ-R).

background image

Wniosek

   Skala 

Neurotyczności z NEO-FFI 

wykazuje gorszą trafność 
konwergencyjną (59% w 
porównaniu do 72%) oraz 
dyskryminacyjną (8% w odniesieniu 
do 2%) niż skala Neurotyczności z 
EPQ-R (obie skale mają zbliżoną 
zgodność wewnętrzną wynoszącą 
około 0,85). Błąd pomiaru jest 
równy 15%, unikatowa 
systematyczna wariancja 
specyficzna dla skali z NEO-FFI = 
18% oraz EPQ-R = 11%).

background image

Porównanie trafności skal      

 NEO-FFI

Skala      Konwergencyjna  

Dyskryminacyjna

E

72%

4%

U

62%

6%

N

59%

8%

S

55%

9%

O

14%

22%

background image

Wniosek

   Skala Otwartości wykazuje słabą 

trafność konwergencyjną oraz 
dyskryminacyjną. Inne skale 
wykazują wysoką trafność 
konwergencyjną, ale skala 
Neurotyczności, Ugodowości i 
Sumienności wykazuje także słabą 
trafność dyskryminacyjną. 
Najlepsza jest skala Ekstrawersji.

background image

Trafność innych skal

 Siła Procesu Pobudzenia - 36% 

neurotyczności, 15% ekstrawersji, 
14% sumienności, 3% ugodowości 
oraz 1% otwartości/rytmiczności– 
wykazuje słabą trafność 
dyskryminacyjną.

 Skala Aktywności we śnie (A-S) - 

13% wspólnej wariancji z innymi 
skalami (6% z czynnikiem 
otwartości/rytmiczności) – brak 
trafności konwergencyjnej, tylko 
wariancja unikatowa.

background image

Konfirmacyjna analiza 

czynnikowa testów

   Celem tej analizy jest ocena 

trafności konwergencyjnej i 
dyskryminacyjnej skal testu, przez 
porównanie modelu teoretycznego i 
empirycznej struktury skal.

background image

Przykład Inwentarza 

Struktury Temperamentu 

(KST) Rusalova

   Analiza konfirmacyjna skal KST – 

analiza wewnętrznej struktury 
testu (analiza konfirmacyjna 
podobnie do analizy eksploracyjnej 
może być zrealizowana na poziomie 
pozycji, skal danego testu, jak i 
całych testów).

background image

Przykład Inwentarza 

Struktury Temperamentu 

(KST) Rusalova

   Dwa czynniki wpływające na 

temperament: geny i środowisko. 
Wrodzona (pierwotna) struktura 
temperamentu obejmuje: 
ergiczność, plastyczność, tempo i 
emocjonalność. Cechy te różnicują 
się się pod wpływem czynników 
środowiskowych na cechy 
społeczne i przedmiotowe.

background image

Przykład Inwentarza 

Struktury Temperamentu 

(KST) Rusalova

   KST zawiera osiem skal:

 Ergiczność - społeczną

 Ergiczność - przedmiotową

 Plastyczność - społeczną 

 Plastyczność - przedmiotową

 Tempo - społeczne

 Tempo - przedmiotowe

 Emocjonalność - społeczną

 Emocjonalność - przedmiotową

background image

Hipotezy i modele

 Bez cechy ogólnej (skale są 

nieskorelowane - model powinien 
być odrzucony);

 Jedna cecha ogólna (brak specyfiki 

skal - model powinien być 
odrzucony);

 Dwie cechy („struktura wtórna”) - 

model powinien być potwierdzony);

 Cztery cechy („struktura 

pierwotna”) - model powinien być 
potwierdzony);

 SOS model (ad hoc model trzech 

cech).

background image

 

ERP         ERS 

   PLP            PLS       TEP 

TES          EMP 

   EMS 

 

 

 

 

 

 

         ERG 

  

 

PLA   

 

 TEM   

 

    EMO 

 

 
 
 

Rycina. 28. Model „struktury pierwotnej” temperamentu.

background image

 

ERP          PLP 

   TEP           EMP       ERS 

PLS          TES 

   EMS 

 

 

 

 

 

 

  PRZED. 

 

 

 

 

       SPOŁ. 

 

Rycina. 29. Model „struktury wtórnej” temperamentu.

background image

Wskaźniki „dobroci 

dopasowania”

 Wartość testu chi

2

 (brak istotności);

 Goodness of Fit Index (GFI; powyżej 

0,95);

 Adjusted Goodness of Fit Index 

(AGFI; powyżej 0,90);

 Normed Fit Index (NFI – wartość 

przyrostowa dopasowania w 
stosunku do „modelu zerowego”; 
powyżej 0,90);

 Wartości indeksu Watkinsa chi

2

/df 

(poniżej 5,0 – akceptowalne 
dopasowanie; poniżej 3,0 – 
znakomite dopasowanie).

background image

Model 

Opis modelu 

chi2 

df 

GFI 

AGFI 

NFI 

M0  Bez czynnika 

ogólnego 

417,36  28  0,000  0,60 

0,60 

M1  J eden czynnik 

225,42  20  0,000  0,76 

0,56 

0,46 

M2  Dwa czynniki 

(struktura wtórna) 

201,46  19  0,000  0,78 

0,59 

0,52 

M3  Trzy czynniki 

(emocjonalność, 
aktywność 
społeczna i 
rzedmiotowa) 

86,18  17  0,000  0,90 

0,78 

0,79 

M4  Cztery czynniki 

(struktura pierwotna) 

104,69  14  0,000  0,88 

0,69 

0,75 

 

Tabela 13. Wskaźniki dobroci dopasowania KAF dla skal KST.

background image

Wnioski

 Żaden z analizowanych modeli nie 

wykazał akceptowalnego 
dopasowania – empiryczna 
struktura korelacji skal KST jest 
nieprzewidywalna na podstawie 
oczekiwań teoretycznych;

 Teoria temperamentu jest fałszywa 

lub KST powinien zostać 
zmodyfikowany, bowiem wykazuje 
niewystarczającą trafność.

background image

Analiza macierzy Wielu Cech 

– Wielu Metod

   Macierz WC-WM (ang. MTMM 

matrix) jest przygotowywana w 
celu formalnej oceny trafności 
konwergencyjnej i 
dyskryminacyjnej pomiary testem. 
Analiza ta wymaga wprowadzenia 
przynajmniej dwóch metod oraz 
dwóch cech.

background image

Rodzaje korelacji w macierzy 

   WC-WM

 Pomiędzy skalami mierzącymi 

różne cechy w obrębie tej samej 
metody (różne cechy, ta sama 
metoda);

 Pomiędzy skalami mierzącymi te 

same cechy, ale za pomocą różnych 
metod (te same cechy, różne 
metody);

 Pomiędzy skalami mierzącymi 

różne cechy za pomocą różnych 
metod (różne cechy, różne metody).

background image

Wymóg trafności 

konwergencynej

 Trafność konwergencyjna (zbieżna): 

korelacje pomiędzy skalami różnych 
metod, ale badających te same 
cechy (te same cechy, różne 
metody) powinny być co najmniej 
przeciętne (istotne statystycznie).

background image

Wymóg trafności 

dyskryminacyjnej

 Trafność dyskryminacyjna 

(różnicowa): korelacje skal różnych 
metod badających te same cechy 
(te same cechy, różne metody) 
powinny być wyższe niż:

 korelacje skal mierzących różne 

cechy, za pomocą tej samej metody 
(różne cechy, te same metody); 

 korelacje skal mierzących różne 

cechy, za pomocą różnych metod 
(różne cechy, różne metody).

background image

Macierz WC-WM dla 

samoopisu i szacowania z 

użyciem NEO-FFI

   Kwestionariusz: NEO-FFI

   Miary: samoopis (s) and 

szacowanie (sz)

   
   Korelacje:

 Pomiędzy NEO-FFI skalami 

samopisu

 Pomiędzy NEO-FFI szacowania

 Pomiędzy samoopisem i 

szacowaniem

background image

Pomiar 

NEU - s 

EXT - s 

OPE - s 

AGR - s 

SUM - s 

NEU – sz 

0,84 (0,81) 

-0,35* 

-0,07* 

-0,26* 

-0,30* 

EXT – sz 

-0,39* 

0,78 (0,80) 

0,22* 

0,09* 

0,27* 

OPE – sz 

-0,11* 

0,17* 

0,63 (0,66) 

0,06* 

0,02 

AGR – sz 

-0,33* 

0,13* 

0,20* 

0,65 (0,77) 

0,19* 

CON – sz 

-0,28* 

0,18* 

0,17* 

0,34* 

0,81 (0,87) 

Measure 

NEU - s 

EXT - s 

OPE - s 

AGR - s 

CON – s 

NEU – sz 

0,52* 

-0,28* 

-0,08* 

-0,20* 

-0,16* 

EXT – sz 

-0,22* 

0,61* 

0,14* 

0,04 

0,13* 

OPE – sz 

-0,08* 

0,08* 

0,51* 

0,04 

-0,07* 

AGR – sz 

-0,09* 

-0,01 

0,04 

0,45* 

0,03 

CON – sz 

-0,12* 

0,03 

0,01 

0,16* 

0,45* 

 

Tabela 14. Macierz WC-WM dla samoopisu i szacowania NEO-FFI.

background image

Wnioski

 Skale NEO-FFI wykazują 

wystarczającą trafność 
konwergencyjną (korelacje 
podkreślone w tabeli);

 Skale NEO-FFI wykazują 

akceptowalną trafność 
dyskryminacyjną (korelacje 
„zbieżne” są wyższe niż wszystkie 
korelacje „różnicowe”).

background image

Podsumowanie

   Pojęcie trafności zbieżnej i 

różnicowej jest kluczowe dla 
zrozumienia trafności teoretycznej, 
choć zazwyczaj jest ograniczane 
tylko do analizy macierzy Wc-WM. 
Test powinien mierzyć określoną 
cechę i nie mierzyć innych cech (ani 
jakichkolwiek innych 
charakterystyk indywidualnych, a 
zatem także stylów odpowiadania 
czy stanów psychologicznych).

background image

Podsumowanie

   Pojęcie trafności konwergencyjnej i 

dyskryminacyjnej może odnosić się 
zarówno do trafności teoretycznej, 
jak i kryterialnej. Test jest 
nietrafny, jeśli niczego nie 
przewiduje lub nie mierzy (brak 
trafności konwergencyjnej). Test 
jednak jest także nietrafny, jeśli 
przewiduje lub mierzy wszystko 
(brak trafności różnicowej).

background image

Podsumowanie

   

Narzędzie, które diagnozuje 

wszystko, nie mierzy 

niczego w szczególności.

background image

Wykład 9

STRATEGIE KONSTRUOWANIA 

TESTÓW

background image

Strategie konstruowania 

testu

1). teoretyczna (dedukcyjna)

2). zewnętrzna (kryterialna)

3). wewnętrzna (indukcyjna)

4). sekwencyjne lub połączone 

background image

Strategie konstruowania 

testu

1). teoretyczna (dedukcyjna) – 
podstawa teoretyczna dla strategii 
empirycznych, choć może też być 
stosowana samodzielnie (do 
diagnozy raczej cech).
2). zewnętrzna (kryterialna) – do 
diagnozy typów
 (eksploracyjna lub 
połączona z teoretyczną).
3). wewnętrzna (indukcyjna) – do 
diagnozy cech 
 (eksploracyjna lub 
połączona z teoretyczną).

background image

Strategie konstruowania 

testu

Budowa skali w każdej strategii 
poza kryterialną) jest podobna – te 
same końcowe procedury techniczne, 
ale nieco inny model 
psychometryczny jest stosowany w 
każdej strategii.

Strategie mają podobny plan 
konstrukcji, poza strategiami 
połączonymi - unikatowość planu 
analizy i przebieg procesu 
konstrukcji.

background image

Porównanie strategii 

konstrukcji testów

Aspekty opisu strategii:

a). dostępność teorii psychologicznej 
w strategii: dedukcyjna ("teoria"), 
kryterialna ("wiedza"), indukcyjna 
("metodologia");

background image

Porównanie strategii 

konstrukcji testów (c.d.)

b). model psychometryczny 
zastosowany do konstrukcji testu: 
teoretyczna - analiza pozycji 
(korelacja pozycja-skala, zewnętrzna 
- analiza pozycji (korelacja pozycja-
kryterium), indukcyjna - 
eksploracyjna analiza czynnikowa;

background image

Porównanie strategii 

konstrukcji testów (c.d.)

c). efekt finalny: w zakresie 
psychologicznym, diagnostycznym i 
psychometrycznym - każda strategia 
ma swoje zalety i wady - zależnie od 
typu problemu należy stosować różne 
strategie.

background image

Wykład 10

PROCEDURA (PROCES) 

KONSTRUKCJI TESTU

background image

Etap I

Etap I - wybór strategii (cel badań – 
pytania badawcze, rodzaj badanego 
konstruktu: cecha albo typ) oraz plan 
budowy narzędzia (w tym także skale 
kontrolne).

Niezbędna jest wiedza dotycząca 
danego konstruktu oraz wiedza z 
metodologii, psychometrii i 
diagnostyki psychologicznej.

background image

Etap II

Etap II - analiza podstaw 
teoretycznych narzędzia: teorii, 
wiedzy lub metodologii (trafność 
treściowa lub prototypowość).

Hierarchiczna struktura konstruktu 
- podwymiary lub składniki 
definicyjne (pokrycie całego 
konstruktu, łatwość generowania 
wskaźników konstruktu).

background image

Składniki definicyjne

Antonovsky (1995) przy tworzeniu Kwestionariusza 
Poczucia Koherencji w postaci przestrzeni 
Kartezjańskiej, zbudowanej poprzez wyodrębnienia 
podwymiarów poczucia koherencji oraz fasad 
reprezentujących różne aspekty reagowania na 
bodźce. W ramach podwymiarów wyodrębnione 
zostało poczucie zrozumiałości, zaradności i 
sensowności (E1-3), zaś w obrębie fasad: modalność 
bodźca (A1-3: instrumentalny, poznawczy i 
afektywny), źródło bodźca (B1-3: wewnętrzne, 
zewnętrzne i wewnętrzno- zewnętrzne), stawiany 
jednostce wymóg (C1-3: konkretny, rozproszony i 
abstrakcyjny) oraz czas reakcji (D1-3: przeszła, 
teraźniejsza i przyszła).
 Określona kombinacja 
złożona z elementów składowych każdej fasady oraz 
podwymiaru stanowiła profil, ułatwiający 
generowanie pozycji.
 

background image

Składniki definicyjne

Przykładowo, pytanie „Nawet ludzie o silnym 
charakterze czasami czują się przegrani w pewnych 
sytuacjach. Jak często w przeszłości tak się czułeś?” 
(Anotonovsky, 1995, s. 83) zostało zbudowane przez 
operacjonalizację profilu: A3, B1, C3, D1 i E2 
(bodziec afektywny, pochodzenia wewnętrznego, o 
wymaganiach abstrakcyjnych, odnoszący się do 
przeszłości i odwołujący się do poczucia 
zaradności). Dla całego konstruktu dało to 
możliwość stworzenia 243 pozycji, praktycznie 
pokrywających cały zakres jego treści oraz 
jednocześnie nie duplikujących się wzajemnie. 

background image

Etap II

Określenie specyfiki konstruktu (nie 
tylko aspekt zbieżny ale i różnicowy), 
także poprzez hipotezy dotyczące 
relacji do innych konstruktów.
Procedura „mocnej walidacji” – inne 
narzędzia lub kryteria wprowadzone 
do badania i analizy danych, ale nie 
tylko zbieżne, ale i zwłaszcza 
różnicowe.

background image

Etap III-IV

Etap III - generowanie wskaźników 
będących deskrypcją cech 
psychologicznych.
 
Etap IV - zapisywanie pozycji 
testowych (rodzaj pozycji, 
zachowania, format odpowiedzi) i 
ocena ich własności formalnych.

background image

Pozycja testowa - definicja

Pozycja testowa

 to sformalizowany 

wskaźnik danej cechy 
psychologicznej, a więc zdanie 
(twierdzenie lub pytanie) opisujące 
określone zachowanie (lub zadanie 
wyzwalające określone zachowanie) 
oraz skala rejestrująca to zachowanie 
(opcje odpowiedzi o określonym 
formacie oraz reguła przekształcania 
odpowiedzi w wynik liczbowy).

background image

Tworzenie pozycji

Proces tworzenia pozycji:
Generowanie pozycji - poszukiwanie 
takich zachowań i sytuacji, które występują 
w życiu codziennym określonej grupy osób 
badanych - wymaga wyrażenia wskaźników 
teoretycznych w „języku” naturalnych 
zachowań i sytuacji.
Zapisywanie pozycji -  wymaga 
przełożenia terminów psychologicznych na 
język naturalny, a więc wyrażenia pozycji w 
języku, którym posługują się osoby badane. 

background image

Decyzje wstępne

Decyzje wstępne:
Wybór procedury odpowiadania 
oraz formy pozycji 
kwestionariuszowych
  (wybieranie 
dowolnej liczby pozycji lub 
ograniczeniu wyboru do opcji 
stwierdzenia albo opcji odpowiedzi).
Wybór rodzaju procedury: spiralna 
albo piramidowa.

background image

Generowanie pozycji

Źródła pozycji:
Zapożyczenia z innych narzędzi 
(MMPI lub 16 PF, testy zdolności – 
typowe dla strategii zewnętrznej).
Poszukiwanie „naturalnych” 
banków pozycji (zasoby słownikowe - 
listy przymiotnikowe, testy zdolności 
– typowe dla strategii indukcyjnej).

background image

Generowanie pozycji

Źródła pozycji:
Tworzenie nowych pozycji przez 
profesjonalistów lub 
nieprofesjonalistów (typowe dla 
strategii teoretycznej lub połączonej 
– teoretyczno-indukcyjnej czy 
kryterialnej (ważna jest trafność 
treściowa lub prototypowość).

background image

Generowanie pozycji

Nowe pozycje:
Odpowiedniość do badanego 
konstruktu (trafność treściowa);
Reprezentatywność dla zachowania 
osób badanych (proces społeczny 
generowania wskaźników – eliminacja 
obciążenia demograficznego; analiza 
prototypowości ujmuje oba aspekty).

background image

Ocena trafności treściowej 

lub typowości pozycji

Procedura analizy:
Tworzenie wskaźników;
Kwalifikowanie do konstruktów;
Ocena wskaźników na skalach ocen;
Analiza psychometryczna i 
walidacja procedury (muszą być 
możliwe do uzyskania korelacje ocen 
ze wskaźnikami psychometrycznymi).

background image

Zapisywanie pozycji

Wymagania:
Uwzględnianie reguł formalnych w 
procesie zapisywania pozycji;
Sprawdzenie uzyskanego efektu w 
tzw. analizach formalnych własności 
pozycji (analizy itemmetryczne).

background image

Zapisywanie pozycji

Konsekwencje:
Zakłócenie warunku standaryzacji – 
zmienność inter- i intraindywidualna 
interpretacji treści pozycji;
Uruchomienie stylu odpowiadania;
Udzielanie odpowiedzi 
„niezgodnych” z intencjami 
(niespójnych);
Pogorszenie charakterystyki 
psychometrycznej pozycji.

background image

Własności formalne pozycji

Model Angleitnera i wsp. (1986):
Zrozumiałość
Niejasność
Ogólność (abstrakcyjność)
Dostępność w osobistym 
doświadczeniu (możliwość 
odniesienia do „ja”)
Obciążenie czynnikami 
zniekształcającymi, np. aprobatą 
społeczną.

background image

Zrozumiałość

Długość pozycji (liczba zdań, słów, 
itd.), ale unikanie telegraficznej 
skrótowości.
Złożoność gramatyczna (forma 
gramatyczna pozycji, np. negacja, 
strona bierna oraz komplikacja 
pozycji w postaci zdań złożonych, ze 
względu na tryb złożenia, np. w 
zdaniach podrzędnie czy nadrzędnie 
złożonych).

background image

Zrozumiałość

Poprawność gramatyczna - błędy 
językowe oraz prostota - dostępność 
użytych pojęć.
 
Wyrażenie zdań w pierwszej osobie;
Respektowanie obyczajów 
językowych oraz zasad językowych, 
np. form obocznych dla płci, ale bez 
żargonu. 

background image

Zalecenia

Zapisywanie pozycji zgodnie z 
regułami.
Konsultacja językoznawcy.
Analizy itemmetryczne – ocena 
„zrozumiałości” pozycji.

background image

Niejasność – wieloznaczność 

interpretacyjna

Niejasność – możliwość  przypisania 
wielu różnych znaczeń pozycji - 
interpretowania jej treści na wiele 
sposobów, z których każdy jest 
poprawny językowo i dopuszczalny z 
punktu widzenia formy gramatycznej.

background image

Niejasność

Źródła:
zbyt duża ogólność i abstrakcyjność 
użytych pojęć; 
czynniki lingwistyczne, wynikające z 
formy gramatycznej zdania, np. 
negacji, jego złożoności 
gramatycznej czy błędów, np. 
interpunkcyjnych, a zwłaszcza 
zapisanie pozycji w formie zadania 
złożonego, którego zdania proste nie 
tworzą koniunkcji i mogą wymagać 
odrębnej odpowiedzi.

 

background image

Zalecenia

Zapisywanie w formie pozycji 
konkretnych.
Grupowa analiza znaczenia treści 
twierdzeń oraz ustalanie na drodze 
dyskusji ich ostatecznej i bardziej 
jednoznacznej formy.
Analiza znaczenia afirmacji oraz 
negacji treści pozycji dla możliwości 
zbadania określonej cechy. 
Analizy itemmetryczne.

background image

Ogólność-abstrakcyjność

Ogólność wynika z abstrakcyjności 
pojęć użytych do opisu zachowania, 
sytuacji czy cech osobowych. Pozycja 
ogólna zakłada konieczność 
integracji informacji, uzupełniania jej 
przez konkluzje, uogólniania 
zachowań z różnych sytuacji czy 
dokonania porównań z 
niespecyficznymi standardami.
 

background image

Dostępność w doświadczeniu 

- zalecenia

Procedura analizy typowości (także 
przy adaptacji kulturowej).
Proces społeczny tworzenia pozycji.
Odwołanie do „ja” – zdania w 
pierwszej osobie.
Analizy itemmetryczne.

background image

Analizy itemmetryczne

Identyfikacja pozycji źle 
sformułowanych i ich poprawienie 
albo usunięcie z puli.

Oceny na skalach ocen albo 
wskazanie pozycji wadliwych.

Brak możliwości zbudowania pozycji 
doskonałej, ale pozycje wadliwe 
skutkują pogorszeniem 
charakterystyki psychometrycznej.

background image

Opcje odpowiedzi

Problem opcji centralnej w formie 
„nie wiem” , (?), „tak i nie”. 

- Słaby status opcji centralnej :

1). odpowiedź osoby badanej oznacza, że jej 
zachowanie zależy od sytuacji;
2). odpowiedź osoby badanej wynika z trudności w 
ocenie własnego zachowania;
3). odpowiedź osoby badanej wskazuje, że nie 
potrafiła ona jednoznacznie rozkodować treści 
pozycji (pozycja jest niejasna);

background image

Opcje odpowiedzi

4). odpowiedź osoby badanej wskazuje, że 
faktycznie ma przeciętne nasilenie cechy.

- Dwumodalne rozkłady odpowiedzi.

Format może być nieparzysty, ale 
opcja pośrednia musi wskazywać na 
umiarkowanie nasilenie cechy. 

background image

Opcje odpowiedzi

Szerokość formatu: 
wielokategorialne - dwukategorialne. 

- Wady formatów dwukategorialnych:

1). Zmuszają do udzielenia zdecydowanej 
odpowiedzi.
2). Nie gwarantują odpowiedniego zróżnicowania 
odpowiedzi.

- Wady formatów wielokategorialnych:
1). Są trudne poznawczo, zwłaszcza dla o.b. gorzej 
wykształconych.
2). Pozorne zróżnicowanie – tendencje do zawężania 
formatu.

background image

Optymalna szerokość 

formatu

„Magiczna” liczba Millera – górna 
granica:
     7 + 2 (5 – 9)

Ogółem: 4 - 7 opcji

Osoby badane o większych 
zdolnościach:
     5 – 7

Osoby badane o mniejszych 
zdolnościach:
     2 – 5

background image

Inne aspekty formatu

Zakotwiczenie skali: niemalże 
wielkie kwantyfikatory.

Kierunek zakotwiczenia: 
negatywny-pozytywny. 

Wartości liczbowe wtórne 
(podstawowe określenia słowne).

Ujednolicone dla wszystkich pozycji 
(także w skali kontrolnej).

background image

Etap VI - ważenie pozycji lub 

opcji odpowiedzi

Wagi zróżnicowane – krótkie 
narzędzia, pozycje bardzo 
zróżnicowane pod względem 
charakterystyki psychometrycznej, 
komplikacja obliczania wyniku 
końcowego, wagi empiryczne, a nie - 
teoretyczne.

Wagi pozycji równe oraz liniowo 
rosnące wagi odpowiedzi 
(zróżnicowanie wkładu pozycji do 
wyniku końcowego).

background image

Etap VII

Etap VII - przygotowanie testu do 

badań: przyjęcie nazwy testu, 

zaopatrzenie go w instrukcję oraz 

wprowadzenie losowej kolejności 

pozycji w inwentarzach lub 

uporządkowania ich według stopnia 

trudności (wybór procedury 

badania);

background image

Etap VIII – badania i analiza 

psychometryczna

Cel - uzyskanie finalnej wersji 

inwentarza:  przeprowadzenie badań 

listą pozycji i analiza 

psychometryczna danych.

Przebieg badań –  te same warunki i 

to samo narzędzie co w badaniach 

docelowych.

background image

Badania

Dobór próby:

Maksymalne zróżnicowanie 

demograficzne (płeć, wiek, 

wykształcenie, zawód, miejsce 

zamieszkania, itp.).

Duża liczebność grupy (mnożnik 5 - 

10 osób badanych na jedną pozycję 

testową  -„psychometria nie toleruje 

małych prób”) – minimum 400-500 

o.b.

Podział na grupy losowe: walidacja 

krzyżowa. 

background image

Przygotowanie do analizy 

danych

Kodowanie danych – odpowiedzi 

o.b.

Braki danych – bez korekty w fazie 

wstępnej analizy psychometrycznej.

Braki danych - skale końcowe - 

uzupełnianie przez średnią dla danej 

osoby z pozostałych pozycji (inne: 

średnia w skali lub losowe).

Dyskwalifikacja protokołów z 

licznymi brakami danych – kryteria 

(5%).

background image

Analiza psychometryczna

Kierunek: od podwymiarów do skal.

Walidacja krzyżowa.

Walidacja demograficzna (uwaga: 
niwelowanie różnic 
demograficznych).

„Mocna walidacja” – korygowanie 
składu pozycji w aspekcie zbieżnym 
lub różnicowym.

Opracowanie wersji końcowej skal.

background image

Analiza pozycji i pojęcie 

mocy dyskryminacynej

Analiza pozycji - rodzaj analizy 
psychometrycznej, który obejmuje 
wskaźnik 

trudności

 pozycji, 

moc 

dyskryminacyjną

 oraz 

trafność 

zewnętrzną

 pozycji).

Moc dyskryminacyjna

 - wskaźnik 

stopnia, w jakim pozycja mierzy 
cechę, którą mierzy cały test 
(oceniana poprzez korelację pozycja-
skala).

background image

Pojęcie trudności i trafności 

zewnętrznej pozycji

Trudność

 pozycji - proporcja 

odpowiedzi zgodnych z kluczem 
(średnia pozycji w relacji do 
możliwego maksymalnie wysokiego 
wyniku).

Trafność zewnętrzna

 pozycji - 

wskaźnik stopnia, w jakim pozycja 
mierzy kryterium pozatestowe 
(oceniana poprzez korelację pozycja-
kryterium).

background image

Miary mocy 

dyskryminacyjnej

Współczynnik korelacji dwuseryjnej
Współczynnik korelacji punktowo-
dwuseryjnej
Współczynnik korelacji punktowo-
czteropolowej
Skorygowany współczynnik 
korelacji pozycja-skala

background image

Współczynnik korelacji 

dwuseryjnej

         (M

p

 - M

q

)

    ---------------

      S

r

bis

 =    -----------------------

   (p q)

         --------

      y

background image

Współczynnik korelacji 

dwuseryjnej

gdzie M

p

 - to średnia wyników w skali tych 

osób, które odpowiedziały na daną pozycję 
zgodnie z kluczem, M

q

 - to średnia wyników 

w skali tych osób, które odpowiedziały na 
daną pozycję niezgodnie z kluczem, S - 
odchylenie standardowe wyników w całym 
teście, p - to proporcja tych osób, które 
odpowiedziały na daną pozycję zgodnie z 
kluczem, q - to proporcja tych osób, które 
odpowiedziały na daną pozycję niezgodnie 
z kluczem, zaś y - to rzędna rozkładu 
normalnego odpowiadająca proporcji p.

background image

Współczynnik korelacji 

-punktowo dwuseryjnej

             (M

p

 - M

q

)

           ----------------

                 S

r

p-bis

 =  -------------------

           (p q)

background image

Współczynnik korelacji 

punktowo-dwuseryjnej

gdzie M

p

 - to średnia wyników w skali tych 

osób, które odpowiedziały na daną pozycję 
zgodnie z kluczem, M

q

 - to średnia wyników 

w skali tych osób, które odpowiedziały na 
daną pozycję niezgodnie z kluczem, S - 
odchylenie standardowe wyników w całym 
teście, p - to proporcja tych osób, które 
odpowiedziały na daną pozycję zgodnie z 
kluczem, q - to proporcja tych osób, które 
odpowiedziały na daną pozycję niezgodnie 
z kluczem.

background image

Współczynnik korelacji 

punktowo-czteropolowej 

(phi)

     

      f

g

 - f

d

phi = ------------
          
 (p q)

background image

Współczynnik korelacji 

punktowo-czteropolowej

gdzie f

g

 - to proporcja osób w górnej 

połowie próby, które odpowiedziały 
na daną pozycję zgodnie z kluczem, f

d

 

- to proporcja osób w dolnej połowie 
próby, które odpowiedziały na daną 
pozycję zgodnie z kluczem, p - to 
proporcja osób w całej próbie, które 
odpowiedziały na daną pozycję 
zgodnie z kluczem, q - to proporcja 
tych osób, które odpowiedziały na 
daną pozycję niezgodnie z kluczem.

background image

Miary trafności zewnętrznej 

pozycji oraz treści 

czynnikowej

Trafność zewnętrzna - korelacja z 
kryterium (r-Pearsona albo korelacje 
stosowane do oceny mocy 
dyskryminacyjnej)

Analiza czynnikowa pozycji - ładunek 
czynnikowy (korelacja pozycji z 
czynnikiem) oraz wskaźniki 
różnicowe:

W

r

 = F

2

 - (F

a

2

 + F

b

2

 + F

c

2

 + ... + F

z

2

)

background image

Miary trafności zewnętrznej 

pozycji oraz treści 

czynnikowej

gdzie W

r

 - wynik różnicowy, F

2

 - 

ładunek na odpowiadającym pozycji 
("własnym") czynniku, zaś F

a

2

, F

b

2

 do 

F

z

2

 - ładunki na innych czynnikach (od 

czynnika "A" do "Z").

background image

Teoria odpowiadania na 

pozycje testowe - założenia

Odpowiedzi osoby badanej są 

zmiennymi obserwowalnymi, 
uwarunkowanymi przez cechę - 
zmienną latentną;

odpowiedzi na poszczególne pozycje są 

statystycznie niezależnie - ich 
skorelowanie wynika z cechy;

związek między rozwiązaniem pozycji a 

cechą może być opisany przez „krzywą 
charakterystyczną pozycji”

background image

Parametry „krzywej 

charakterystycznej”

Parametr „trudności”
Parametr mocy dyskryminacyjnej
Parametr „zgadywania”
Parametr „nieuważności”

   Zwykle są stosowane model dwu-

parametryczne (wymagają 

zastosowania nieliniowej regresji)

background image

0

0,2

0,4

0,6

0,8

1

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Standaryzowany wynik w ca³ym teœcie (nasilenie mierzonej cechy)

P

ra

w

d

o

p

o

d

o

b

ie

ñ

st

w

o

 r

o

zw

za

n

ia

 d

a

n

e

p

o

zy

cj

i

Rycina 16. „Krzywa 

charakterystyczna” pozycji 

testowej

background image

Rycina 17. Różne formy „krzywej 

charakterystycznej” pozycji 

testowej

0

0,2

0,4

0,6

0,8

1

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Wynik w ca³ym teœcie

P

ra

w

d

o

p

o

d

o

b

ie

ñ

st

w

o

 r

o

zw

za

n

ia

 d

a

n

e

p

o

zy

cj

i

background image

0

0,2

0,4

0,6

0,8

1

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Standaryzowany wynik w całym teście (nasilenie mierzonej cechy)

P

ra

w

d

o

p

o

d

o

b

ie

ń

st

w

o

 r

o

zw

za

n

ia

 d

an

ej

 p

o

zy

cj

i

Rycina 17a. „Krzywa 

charakterystyczna” pozycji testowej 

nr 35 ze skali REM inwentarza FCZ-KT

background image

0

0,2

0,4

0,6

0,8

1

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Standaryzowany wynik w całym teście (nasilenie mierzonej cechy)

P

ra

w

d

o

p

o

d

o

b

ie

ń

st

w

o

 r

o

zw

za

n

ia

 d

an

ej

 p

o

zy

cj

i

Rycina 17b. „Krzywa 

charakterystyczna” pozycji testowej 
nr 102 ze skali REM inwentarza FCZ-

KT

background image

Etap IX

Etap IX – analizy weryfikacyjne 
finalnej wersji inwentarza: rzetelność 
i trafność (te same oraz inne 
aspekty).

Weryfikacja – bo inna skala (długość, 
kompozycja pozycji).

background image

Analiza trafności i 

rzetelności pomiaru

Zgodność wewnętrzna i stabilność 
czasowa.

Różne aspekty trafności – zbieżna i 
różnicowa.

Te same parametry w kilku grupach 
– stabilność (niezmienniczość) 
grupowa.

background image

Etap X

Etap X – normalizacja wyników testu 
(skale standardowe o rozkładzie 
normalnym, skale rangowe, punkty 
odsiewowe wraz z obszarem 
niepewności diagnozy).

background image

Etap X

Rodzaje norm:
(A) normy ogólne bez podziału ze względu na żadną 
ze zmiennych demograficznych, 
(B) normy dla danej kategorii zmiennej 
demograficznej, ale bez podziału ze względu na inne 
zmienne (np. dla wszystkich kobiet, bez podziału na 
wiek),
(C) normy dla określonej kategorii kolejnej zmiennej 
demograficznej, bez podziału na inne zmienne (np. 
dla osób o danym wieku, bez podziału na płeć), itd. 
(D) normy z zastosowaniem wszystkich zmiennych 
demograficznych.
 

background image

Kwestie specyficzne norm

Badania praktyczne a naukowe 
(normy A).

Wyznaczenie SBP oraz PU dla 
wyników znormalizowanych.

Aktualizacja norm – normy 
kroczące.

Aktualizacja norm – najdalej po 10 
latach.

background image

Etap XI - XII

Etap XI - publikacja testu.

Etap XII - rewizja testu (po 
maksimum 25 latach albo wcześniej 
po stwierdzeniu ewidentnych wad 
diagnostycznych).

background image

Wykład 11

CZYNNIKI 

ZNIEKSZTAŁCAJĄCE WYNIKI 

TESTOWE

background image

Czynniki zniekształcające 

wyniki testowe

a). zgadywanie.
b). tendencja do udzielania 
odpowiedzi społecznie aprobowanych 
albo społecznie nie aprobowanych:
- tendencja do dysymulowania 
(aprobata społeczna),

-tendencja do symulowania;
c). style odpowiadania

background image

Style odpowiadania

Style odpowiadania - tendencja 
osoby badanej do wybierania 
określonej opcji odpowiedzi 
niezależnie od treści pozycji 
kwestionariuszowej: tendencja do 
zgadzania się albo zaprzeczania, 
udzielania odpowiedzi ekstremalnych 
albo centralnych (pośrednich), 
udzielania odpowiedzi nieuważnych 
lub niekonsekwentnych,

background image

Style odpowiadania

losowych (przypadkowych), 
niezdecydowanych (opcje „?” lub 
opuszczenia odpowiedzi), 
produktywnych, impulsywnych, 
pozornie oryginalnych, 
konwencjonalnych oraz lateralizacji 
(style graficzne).
 

background image

Style odpowiadania

Konieczne jest rozróżnienie tendencji 
ogólnej (podatność narzędzia lub 
procedury badania) oraz różnic 
indywidualnych w stosowaniu stylu – 
skale kontrolne badają różnice 
indywidualne, wyjątkowo mogą być 
zastosowane do analizy sytuacji 
badania.

background image

Źródła stylów odpowiadania

Brak odpowiedniej motywacji osoby 
badanej do wzięcia udziału w 
badaniach lub poczucie zagrożenia 
badaniem - styl odpowiadania wynika 
z chęci ukrycia faktycznego obrazu 
osobowości w „szumie 
informacyjnym” odpowiedzi.
Własności pozycji oraz zastosowane 
opcje odpowiedzi - niezrozumiałość 
oraz niejasność pozycji oraz 
nieadekwatność zastosowanego 
formatu odpowiedzi.
  

background image

Zalecenia

Odpowiednie sformułowanie 
językowe pozycji oraz właściwy 
format odpowiedzi (eliminowanie 
odpowiedzi pośrednich, 
dostosowanie formatu do preferencji 
osób badanych).
Zrównoważenie skali pod względem 
klucza odpowiedzi (niezbędne do 
zbudowania skal kontrolnych).

background image

Dysymulowanie

Dysymulowanie - tendencja osoby 
badanej do przedstawiania się w 
nieprawdziwie korzystnym świetle, 
która wiązana jest ze zmienną 
aprobaty społecznej (tendencją 
osoby badanej do kierowania się 
społecznym wartościowaniem 
zachowania przy odpowiadaniu, co 
prowadzi do zaprzeczania posiadania 
cech społecznie niepożądanych oraz 
przypisywania sobie cech społecznie 
pożądanych).

background image

Aprobata społeczna

 Aprobata społeczna jako 

styl 

odpowiadania

 (czy inaczej postawa 

wobec badania) to tendencja 
jednostki do kierowania się przy 
odpowiadaniu nie tyle faktycznym 
zachowaniem, czy treścią pytania, 
ale społeczną oceną, jaką pociąga za 
sobą dana odpowiedź. 

background image

Tendencja do dysymulowania 

i aprobata społeczna c.d.

Aprobata jako 

cecha

 to tendencja 

podmiotu do takiego modulowania 

zachowania (każdego - testowego, 

jak i realnego, pozatestowego), by 

było ono zgodne ze społecznym 

wartościowaniem - normami 

społecznymi, akceptacją otoczenia.

background image

Zalecenia – unikanie 

obciążenia

1). Pozycje neutralne.
2). Pozycje subtelne pod względem 
trafności fasadowej.
3). Specjalne formułowanie językowe 
pozycji – tzw. zdania zmodalizowane, 
unikanie dużych kwantyfikatorów 
czasu.
4). Zmiana procedury badania - 
komputeryzacja lub wykorzystanie 
szacowania cech.

background image

Zalecenia – identyfikacja 

pozycji obciążonych

5). Aprobata społeczna jako zmienna 
moderacyjna.
6). Analiza podatności pozycji przez 
manipulowanie instrukcją („dobry” 
profil).
7). Analizy itemmetryczne.
8). Korelacje pozycji ze skalami 
mierzącymi aprobatę społeczną.
Identyfikacja pozycji obciążonych – 
usunięcie albo przeformułowanie.

background image

Metody kontroli 

(eliminowania) wpływu 

aprobaty

Na etapie stosowania 

kwestionariusza:

 8). Instrukcja "szczerości",
 9). Zmiana procedury badania - 
komputeryzacja testu,

background image

Metody kontroli 

(eliminowania) wpływu 

aprobaty

10). Skala kontrolna aprobaty 
społecznej, na podstawie której 
odrzuca się respondentów o 
wysokich wynikach lub koryguje 
wyniki skal treściowych przez 
doliczanie tzw. poprawek 
korekcyjnych,
11). Wprowadzenie do diagnozy 
psychologicznej szacowania cech.

background image

Dysymulacja i symulacja

Konieczne jest rozróżnienie tendencji 
ogólnej (podatność narzędzia lub 
procedury badania) oraz różnic 
indywidualnych w dysymulowaniu czy 
symulowaniu – skale kontrolne 
badają różnice indywidualne, 
wyjątkowo mogą być zastosowane do 
analizy sytuacji badania.

background image

Symulowanie

Symulowanie – tendencja osoby 
badanej do udzielania odpowiedzi, 
bezpodstawnie przedstawiających 
osobę badaną w niekorzystnym 
świetle, np.
 wskazujących na 
istnienie określonych zaburzeń 
zachowania czy niepożądanych cech 
osobowości.

background image

Tendencja do symulowania 

(c.d.)

Tendencja do symulowania jest 
zarówno 

postawą

 wobec badania, 

(styl odpowiadania, np."super-
szczerość"), jak trwałym syndromem 

cech

 osobowości, związanym z 

tendencjami agrawacyjnymi, 
obniżoną samooceną, 
ekscentrycznością i zaburzeniami 
psychicznymi. Kontrolowanie 
tendencji do symulacji umożliwiają 
specjalne skale kontrolne.

background image

Symulowanie

Zagrożenie pozytywną oceną, 

Zagrożenie pozytywną oceną, 

prowadzącą do wzbudzenia 

prowadzącą do wzbudzenia 

motywacji do unikania i dążenia do 

motywacji do unikania i dążenia do 

uzyskania diagnozy negatywnej.

uzyskania diagnozy negatywnej.

Pytania o nietypowe myśli, 

Pytania o nietypowe myśli, 

pragnienia, odczucia i wrażenia (wraz 

pragnienia, odczucia i wrażenia (wraz 

ze swoistym przejaskrawieniem czy 

ze swoistym przejaskrawieniem czy 

udziwnieniem form zachowania) oraz 

udziwnieniem form zachowania) oraz 

zachowania stanowiące 

zachowania stanowiące 

przekroczenie norm moralnych.

przekroczenie norm moralnych.

background image

Zalecenia – unikanie 

obciążenia

Unikanie pytań o zachowania 

Unikanie pytań o zachowania 

regulowane społecznymi normami.

regulowane społecznymi normami.

Unikanie emfazy w formułowaniu 

Unikanie emfazy w formułowaniu 

treści pozycji.

treści pozycji.

background image

Zalecenia – identyfikacja 

pozycji obciążonych

Tendencja do symulowania jako 
zmienna moderacyjna.

Analiza podatności pozycji przez 
manipulowanie instrukcją („zły” 
profil).

Analizy itemmetryczne.

Korelacje pozycji ze skalami 
mierzącymi tendencję do 
dysymulowania.
Identyfikacja pozycji obciążonych – 
usunięcie albo przeformułowanie.

background image

Skale kontrolne

   Funkcja skal kontrolnych polega na 

diagnozowaniu indywidualnych 
stylów odpowiadania na pozycje 
kwestionariuszowe, które są 
ekspresją postaw wobec badania 
inwentarzem osobowości. Postawy 
te nie wiążą się treściowo z 
badanymi cechami osobowości, ale 
powodują zniekształcenie 
uzyskiwanych wyników skal.

background image

Skale kontrolne

   Czynniki te mogą być zatem 

traktowane jako tzw. zmienne 
„tłumiące” lub moderujące. Będą 
one zatem prowadziły do obniżenia 
wartości diagnostycznej inwentarza 
- trafności pomiaru, a niekiedy 
także i rzetelności pomiaru. 

background image

Skale kontrolne

   Rodzaje skal kontrolnych:
 Dysymulacji, symulacji albo 

dysymulacji-symulacji (cecha albo 
styl albo cecha-styl, zależnie od 
sytuacji) – specjalna motywacja 
o.b.;

 Skale do badania stylu 

odpowiadania – brak motywacji o.b. 
(odpowiedzi losowe, potakujące, 
itd.).

background image

Skale kontrolne MMPI

    

Skala L była przeznaczona do diagnozowania 

dysymulacji i została zbudowana z pozycji 
opisujących zachowania społecznie pożądane, ale 
występujące rzadko u przeciętnej osoby. Uważa 
się, że diagnozuje ona tzw. naiwną tendencję do 
dysymulowania. Skala K była przeznaczona do 
diagnozowania tendencji do przedstawiania 
„nadmiernie pozytywnego” obrazu siebie, ale 
zbudowano ją kryterialnie, wyodrębniając pozycje 
różnicujące grupę osób zdrowych oraz osób 
chorych o „normalnym” profilu, które 
podejrzewano zatem o dysymulację. Obu skalom 
przypisywano funkcję zmiennych tłumiących, a 
zatem prowadzących do uzyskania przez osobę 
nieprawdziwie „normalnego” profilu.

background image

Skale kontrolne MMPI

     

 Skala F miała wykrywać tendencję do udzielania 

odpowiedzi nieuważnych i nieprzemyślanych. 
Wybrano do niej pozycje, które były bardzo 
rzadko potwierdzane w próbie normalizacyjnej. 
Pozycje te miały jednak charakter kliniczny i 
opisywały niezwykłe zachowania, z których każde 
stawiało osobę badaną w niekorzystnym świetle. 
Faktycznie zatem skala nieuważności zaczęła 
pełnić rolę skali symulacji. Ostatnia skala badała 
tendencję do wybierania odpowiedzi pośrednich 
(„?”, czyli odpowiedzi „nie potrafię powiedzieć”). 
Jej wyniki obliczono jako liczbę odpowiedzi 
pośrednich na wszystkie pozycje MMPI. Miała ona 
diagnozować styl odpowiadania, wynikający z 
nadmiernej ostrożności czy niezdecydowania, a 
prowadzący do obniżenia wyników skal 
klinicznych.

 

background image

Skale kontrolne MMPI-II

    

II wersja MMPI zawiera aż 9 skal kontrolnych - 

obok czterech tradycyjnych skal kontrolnych („?”, 
L, F i K), wprowadzono aż pięć dalszych: VRIN, 
TRIN, F(b), F(p) oraz S. Skala VRIN (Variable 
Response Inconsistency
) pozwala na ocenę 
zmienności odpowiedzi na zbiór, opozycyjnych w 
treści, par pozycji – wysoki wynik w tej skali, 
oznaczający udzielenie tej samej odpowiedzi na 
oba stwierdzenia z każdej pary, pozwala na ocenę 
niekonsekwencji odpowiadania. Z kolei skala TRIN 
(True Response Inconsistency
) bazuje na liczbie 
odpowiedzi konfirmacyjnych na oba stwierdzenia 
pary i informuje o tendencji do zgadzania się, 
podczas gdy liczba odpowiedzi negujących - o 
tendencji do zaprzeczania.

background image

Skale kontrolne MMPI-II

      

Skala F(b) (Inpatient Psychopathology Scale

została zbudowana na końcowych pozycjach 
inwentarza MMPI-2 i – jako wariant skali F - 
pozwala na ocenę losowości odpowiedzi, 
następującej w efekcie zmęczenia i utraty 
motywacji, przy wypełnianiu tego długiego 
inwentarza. Z kolei skala F(p) (Inpatient 
Psychopathology Scale
) bada tendencję do 
symulowania u osób, wykazujących zaburzenia 
psychiczne. Wreszcie skala S (Superlative Self-
Presentation Scale
) pozwala na ocenę bardziej 
wyrafinowanej formy dysymulowania niż 
tradycyjnie stosowana skala K wraz z pięcioma 
szczegółowymi komponentami tej tendencji.

background image

Skale kontrolne 16 PF-V

      

W 5. edycji 16 PF wprowadzono trzy skale 

kontrolne: aprobaty społecznej (w wersji skali do 
badania „sprawiania wrażenia”), tendencji do 
„zgadzania się” oraz tendencji do udzielania 
„odpowiedzi przypadkowych” (ang. infrequency
). 
Tendencja do udzielania „odpowiedzi 
przypadkowych” („strzelania”) jest diagnozowana 
na podstawie wybierania przez osobę badaną 
szczególnie rzadko zaznaczanych w całej próbie 
opcji odpowiedzi (z trójstopniowej skali) na pulę 
pozycji treściowych (zliczana jest suma 
wybranych takich opcji w puli różnorodnych 
pozycji). Tendencja do „zgadzania się” jest 
oceniana na podstawie wybierania przez osobę 
badaną odpowiedzi potwierdzających na pozycje 
wybrane z różnych skal treściowych (zliczana jest 
suma odpowiedzi potakujących na pulę 
zróżnicowanych treściowo pozycji).

background image

Skale kontrolne 16 PF-V

     

Skala aprobaty zawiera pozycje, które nie są 

włączane do skal treściowych i diagnozuje 
uogólnioną tendencję do kierowania się aprobatą 
społeczną przy odpowiadaniu. Godnym uwagi jest 
także fakt, że w 5. edycji 16PF zmieniono nieco 
status skali rozumowania (B). Pozycje z tej skali 
zamieszczone są na końcu inwentarza, a sama 
skala staje się do pewnego stopnia skalą 
kontrolną. Służy ona nadal do oceny zdolności i 
jej wyniki są uwzględniane w profilu cech, tak jak 
w wersji pierwotnej. Jednocześnie jednak - 
poprzez badanie sprawności rozumowania na 
końcu kwestionariusza - informuje o zasobach 
uwagi, którymi dysponowała osoba badana po 
męczącej i długotrwałej pracy, związanej z 
wypełnieniem 16PF.
 

background image

Zgadywanie - definicja

Zgadywanie

 jest specyficznym 

czynnikiem zniekształcającym wyniki 
testów zdolności, związanym z 
udzielaniem odpowiedzi losowych, 
gdy badani nie znają właściwych 
odpowiedzi 

(„jak nie wiem, to będę 

strzelał”)

background image

Kontrolowanie zgadywania

a). poprzez instrukcję testową: 
wyrównywanie tendencji do 
zgadywania (zachęcanie do 
zgadywania) lub eliminowanie 
zgadywania (informacja o stosowaniu 
korekty wyników);

background image

Kontrolowanie zgadywania

b). zastosowanie statystycznej 
poprawki na zgadywanie:

                 B
K = P -  ---------
              m - 1

gdzie K - liczba odpowiedzi bez 
zgadywania, P - liczba poprawnych 
odpowiedzi w teście, B - liczba błędnych 
odpowiedzi, m - liczba opcji odpowiedzi w 
zadaniach testowych.

background image

Wykład 12

STRATEGIE KULTUROWEJ 

ADAPTACJI TESTÓW

background image

Kulturowa adaptacji testów

Kulturowa adaptacja testu

 - 

przystosowanie wersji oryginalnej 

testu do innej specyfiki kulturowej. 

Adaptacja testu oznacza konieczność 

wprowadzenia specjalnych procedur 

przystosowujących (decentrujących - 

uniwersalizujących lub centrujących 

na kulturze adaptacji), w przeciwnym 

razie stosowanie takiego narzędzia 

prowadzi nieuchronnie do 

stronniczości lub faworyzacji 

kulturowej.

background image

Aspekty równoważności 

kulturowo adaptowanych 

testów

Aspekty równoważności kulturowej 
testu:

a). równoważność teorii 
psychologicznych,
b). równoważność wymiarów 
psychologicznych
c). równoważność pojęć 
psychologicznych,
d). równoważność wskaźników cech - 
zachowań,
e). równoważność procedury 
badania.

background image

Kryteria równoważności 

kulturowowo adaptowanych 

testów

Kryteria równoważności testu:

a). równoważność fasadowa (forma 
testu),
b). równoważność psychometryczna 
(wskaźniki dobroci pomiaru),
c). równoważność funkcjonalna 
(równoważność psychologiczna),
d). wierność tłumaczenia,
e). wierność rekonstrukcji.

background image

Strategie kulturowej adaptacji 

testów

Transkrypcja
Translacja
Trawestacja
Parafraza
Rekonstrukcja

background image

Trankskrypcja

Transkrypcja

 - maksymalnie wierne 

tłumaczenie oryginalnych pozycji 
(założenie, że zarówno konstrukty, 
jak i zachowania są uniwersalne czy 
inaczej równoważne kulturowo). 
Celem adaptacji jest dochowanie 
wierności tłumaczenia oraz wierności 
fasadowej testu. Adaptacje 
transkrypcyjne są "niezręczne" 
językowo i wykazują szereg wad 
psychometrycznych.

background image

Translacja

Translacja

 - wierne tłumaczenie 

finalnej puli oryginalnych pozycji, ale 
z możliwością wprowadzenia 
niezbędnych modyfikacji językowych 
(założenie, że konstrukty, jak i 
zachowania są uniwersalne 
kulturowo, ale nie są uniwersalne 
pojęcia używane w danej kulturze do 
opisu zachowania).

background image

Trawestacja

Trawestacja

 - swobodne tłumaczenie 

oryginału z wprowadzaniem wielu 
modyfikacji, sugerowanych 
względami językowymi i 
psychologicznymi: treściowymi lub 
psychometrycznymi (założenie, że 
konstrukty psychologiczne są 
uniwersalne, ale nie są uniwersalne 
pojęcia

background image

Trawestacja (c.d.)

używane w danej kulturze do opisu 
zachowania i nie zawsze uniwersalne
są same zachowania - część 
zachowań ma charakter emikalny). 
Trawestacja prowadzi do uzyskania 
dostosowanych do danej kultury 
formy testu, ale może się on różnić 
od oryginału.

background image

Parafraza

Parafraza

 - opracowanie nowego 

narzędzia, dla którego inspiracją jest 
test oryginalny. Pozycje oryginalne 
są wykorzystywane tylko częściowo, 
większość pozycji jest generowana 
na bazie pozycji oryginalnych 
(założenie, że konstrukty 
psychologiczne są uniwersalne 
kulturowo, ale z reguły nie są 
uniwersalne zachowania - tylko część 
z nich

background image

Parafraza (c.d.)

ma charakter etikalny, tj. 
równoważny kulturowo. 
Parafraza jest bardzo czasochłonna, 
ale prowadzi do uzyskania w pełni 
dostosowanych do danej kultury 
adaptacji testu.

background image

Rekonstrukcja

Rekonstrukcja

 - opracowanie 

całkowicie nowego narzędzia, dla 
którego inspiracją jest oryginalny 
model teoretyczny i strategia 
konstrukcji (założenie, że zachowania 
z reguły nie są uniwersalne 
kulturowo, ale możliwe że nie są 
uniwersalne również konstrukty 
psychologiczne). 

background image

Rekonstrukcja (c.d.)

Rekonstrukcja może prowadzić do 
uzyskania innej niż oryginalna wersji 
testu i jest najbardziej czasochłonną 
strategią adaptacji, ale prowadzi do 
uzyskania całkowicie dostosowanych 
kulturowo wersji testu.

background image

Adaptacja demograficzna 

testów

Adaptacja demograficzna

 - 

przystosowanie testu 
przeznaczonego do badania 
określonej grupy do stosowania w 
innej grupie demograficznej. 
Adaptacja demograficzna testu, tak 
jak adaptacja kulturowa, oznacza 
konieczność wprowadzenia 
specjalnych procedur 
przystosowujących

background image

Adaptacja demograficzna 

testów

(decentrujących - uniwersalizujących 
lub centrujących na kulturze danej 
grupy), w przeciwnym razie 
stosowanie testu prowadzi 
nieuchronnie do stronniczości lub 
faworyzacji demograficznej (np. 
seksizmu). 

background image

Aspekty adaptacji 

demograficznej testów

Płeć
Wiek
Niepełnosprawność
Rasa
Klasa społeczna (status społeczno-
ekonomiczny)?
Środowisko
Podkultura?

background image

Wykład 13

NORMALIZACJA WYNIKÓW TESTU

background image

Normy

   Normy testowe są niezbędne dla 

poprawnej interpretacji wyników 
testu. Wynik surowy jest 
nieinterpretowalny bez informacji o 
wynikach, otrzymanych przez osoby 
badane z odpowiedniej grupy 
odniesienia. Są dwa rodzaje norm: 
wyniki progowe (pomiędzy grupami 
kontrastowymi) oraz normy 
bazujące na rozkładzie wyników 
testu (w grupie odniesienia – 
normalizacyjnej).

background image

Wyniki progowe

   Wyniki progowe (punkty 

odsiewowe) są stosowane w 
podejściu zorientowanym na 
trafność kryterialną. Celem tych 
norm jest uzyskanie diagnozy 
jakościowej – klasyfikacji osób 
badanych do jednej z dwóch (czy 
kilku) grup, skontrastowanych  ze 
względu na określone kryterium. 
Punkty odsiewowe służą jako 
norma dla wyników testu – 
wskazują co oznacza wysoki i niski 
wynik testu.

background image

Ryc. 33. Grupy kontrastowe 

oraz punkty odsiewowe

Punkt odsiewowy

background image

Wynik progowy

   Wynik progowy jest zazwyczaj 

wyrażany w formie, przykładowo 

„10/11” (najwyższy wynik w jednej 

grupie/najniższy wynik w drugiej 

grupie). Wynik progowy jest 

uzyskiwany poprzez krzywoliniową 

regresję jako punkt pozwalający na 

najlepsze zróżnicowanie obu grup: 

poniżej tego wyniku osoba badana 

ma mniej niż 50% szans, że należy 

do jednej grupy, zaś powyżej, że ma 

powyżej 50% szans na 

przynależność do drugiej grupy.

background image

Ryc. 34. Krzywoliniowa relacja między wynikami 

testu a prawdopodobieństwem przynależności do 

danej „grupy kontrastowej”. 

Wynik 

progow

y

background image

Wskaźniki trafności diagnozy 

na podstawie progów 

odsiewowych

   Diagnoza bazująca na progach 

odsiewowych powinna także być 

poddana walidacji: odsetek 

trafnych i błędnych diagnoz 

powinien być obliczony oraz szereg 

wskaźników trafności diagnozy 

(wrażliwość, specyficzność, 

pozytywna i negatywna wartość 

predykcyjna oraz ogólny wskaźnik 

błędnych klasyfikacji).

background image

Rodzaje diagnoz

   Wskaźniki te wylicza się na 

podstawie liczby diagnoz 

„prawdziwie negatywnych” (osoby 

zdrowe zdiagnozowane jako 

zdrowe), „prawdziwie 

pozytywnych” (osoby chore 

zdiagnozowane jako chore), 

„fałszywie pozytywnych” (osoby 

zdrowe zdiagnozowane jako chore) 

oraz „fałszywie negatywnych” 

(osoby chore zdiagnozowane jako 

zdrowe). 

background image

Tabela 17. Rodzaje diagnoz kryterialnych

 

 

Diagnoza  medyczna 

 

 

„Zdrowy” 

„Chory” 

 
 

Wynik 

 

Poniżej 

progu 

„A” 

(diagnoza 

fałszywie 

pozytywna) 

„B” 

(diagnoza 

prawdziwie 

pozytywna) 

testu 

 

Powyżej 

progu 

„C” 

(diagnoza 

prawdziwie 

negatywna) 

„D” 

(diagnoza 

fałszywie 

negatywna) 

 

background image

Rodzaje wskaźników

 Ogólny wskaźnik błędnych 

klasyfikacji: liczba diagnoz 

fałszywych w stosunku do ogólnej 

liczby osób badanych (czyli 

A+D/A+B+C+D);

background image

Rodzaje wskaźników

 Wskaźnik specyficzności czy inaczej 

swoistości: proporcja osób z 

„dolnej” grupy kontrastowej 

poprawnie zakwalifikowanych na 

postawie wyników inwentarza do 

ogółu osób z tej grupy, np. liczba 

osób zdrowych trafnie ocenionych 

jako zdrowe w stosunku do ogólnej 

liczby zdrowych (czyli C/A+C); 

background image

Rodzaje wskaźników

 Wskaźnik wrażliwości czy inaczej 

czułości: proporcja osób z „górnej” 

grupy kontrastowej poprawnie 

zakwalifikowanych na postawie 

wyników inwentarza do ogółu osób 

z tej grupy kontrastowej, np. liczba 

osób chorych trafnie ocenionych 

jako chore w stosunku do ogólnej 

liczby osób chorych (czyli B/B+D);

background image

Rodzaje wskaźników

 Wskaźnik pozytywnej wartości 

predykcyjnej: proporcja osób z 

„górnej” grupy kontrastowej 

poprawnie zakwalifikowanych na 

postawie wyników inwentarza do 

ogółu osób zakwalifikowanych do 

tej grupy na podstawie inwentarza, 

np. liczba osób chorych trafnie 

ocenionych jako chore w stosunku 

do ogólnej liczby osób ocenionych 

jako chore na podstawie inwentarza 

(czyli B/A+B).

background image

Rodzaje wskaźników

 Wskaźnik negatywnej wartości 

predykcyjnej: proporcja osób z 

„dolnej” grupy kontrastowej 

poprawnie zakwalifikowanych na 

postawie wyników inwentarza w 

stosunku do ogółu osób 

zakwalifikowanych do tej grupy na 

podstawie inwentarza, np. liczba 

osób zdrowych trafnie ocenionych 

jako zdrowe w stosunku do ogólnej 

liczby osób ocenionych jako zdrowe 

na podstawie inwentarza (czyli 

C/C+D).

background image

Ocena wskaźników

   Wskaźniki te wskazują w jakim 

obszarze diagnozy test wykazuje 

obniżoną trafność, np. może dobrze 

diagnozować osoby zdrowe o 

niskich wynikach, ale „mylić” się w 

obszarze wyników wysokich, 

typowych dla osób chorych (ale 

uzyskiwanych często także przez 

osoby zdrowe). Efekty te zależą od 

charakterystyki rozkładu wyników 

w obu grupach kryterialnych.

background image

Ryc. 34. Odmienny rozkład 

wyników w grupach 

kontrastowych

0

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1

1,5

2

2,5

3

Punkt odsiewowy

background image

Konsekwencje zmiany progu

   W celu poprawy danego wskaźnika 

wyniki progowe można przesuwać 

w stronę wysokich wyników testu 

(obniżenie liczby diagnoz fałszywie 

pozytywnych) lub w stronę 

wyników niskich (obniżenie liczby 

diagnoz fałszywie negatywnych). 

Podjęcie takiej decyzji zależy od 

konsekwencji błędu danego 

rodzaju. Należy jednak pamiętać, że 

w każdym wypadku pogarsza się 

wtedy wskaźnik odwrotny.

background image

Normy bazujące na 

rozkładzie wyników testu

   Celem norm opartych na rozkładzie 

wyników w grupie normalizacyjnej 

jest uzyskanie diagnozy ilościowej – 

ocena intensywności mierzonej 

cechy (jako własności różnicowej w 

grupie odniesienia). Istnieją dwa 

rodzaje norm: normy rangowe 

(porządkowa skala pomiarowa) oraz 

skale standaryzowane 

(przedziałowa skala pomiarowa).

background image

Normy rangowe: skala 

centylowa

   Skala centylowa jest wybierana, 

gdy rozkład wyników testu znacznie 

odbiega od rozkładu normalnego 

(rozkład jest asymetryczny, ma 

nieprawidłową gęstość i nie może 

być przetransformowany w rozkład 

normalny). Punktem odniesienia 

(standardem wykonania testu) jest 

mediana – centyle wskazują na 

częstość uzyskania danego wyniku 

w grupie normalizacyjnej.

background image

Charakterystyka skali 

centylowej

Rozkład po transformacji wyników surowych = 
prostokątny („uskokowniony”)
Mediana = 50 
Liczba jednostek skali = 101 centyli
Zakres = od 0 do 100 centyla
Skok skali = 1 centyl (1% wyników, poza centylami 
krańcowymi - 0 oraz 100, które obejmują po 0,5% 
obserwacji)

background image

Zalety i wady skali 

centylowej

   Zaleta:

 Łatwość zrozumienia znaczenia 

wyniku, zwłaszcza dla osób 
badanych.

   Wada:

 Centyle prowadzą do 

nadszacowania różnic 
interindywidualnych w obszarze 
blisko średniej oraz 
niedoszacowania zmienności na 
krańcach rozkładu (zaburzają ocenę 
faktycznej zmienności).

background image

Skale standardowe bazujące 

na rozkładzie normalnym

   Normy wyników testu bazujące na 

rozkładzie normalnym wymagają 
transformacji wyników surowych na 
skale standardowe. Skale te 
umożliwiają osiągnięcie 
zasadniczego celu pomiaru 
psychologicznego: ilościowej oceny 
na skali przedziałowej (wiele 
kategorii wyników oraz równe 
różnice między nimi dla całego 
wymiaru).

background image

Cel transformacji wyników 

surowych na skale 

standardowe

 Poprawna interpretacja wyniku 

indywidualnego (ocena 
intensywności cechy);

 Porównania różnic 

intraindywidualnych w wynikach 
testu (intensywność różnych cech u 
jednej osoby badanej);

 Porównania różnic 

interindywidualnych w wynikach 
testu (intensywność danej cechy u 
różnych osób badanych).

background image

Rodzaje skal standardowych

a). Znormalizowana skala ciągła – jednostki 
"z
", 
b). znormalizowane skale uskokowione:
     dzielące rozkład wg średniej
     (-) skala stenowa
     obejmujące wartość średniej
     (-) skala staninowa 
     (-) skala tetronowa
     (-) skala wyników przeliczonych (WAIS-
R)
     (-) skala tenowa
     (-) skala dewiacyjnego ilorazu 
inteligencji

background image

Skala jednostek 

znormalizowanych „z

Rozkład po transformacji wyników surowych = 
normalny („ciągły”)
Średnia = 0,0
Odchylenie standardowe = 1,0
Skok skali = praktycznie 0,01
Różnicowanie = dowolny zakres
Przeznaczenie = skala podstawowa, stanowiąca 
punkt wyjścia do transformacji wyników surowych 
na inne skale znormalizowane

background image

Formuła transformacyjna

y = zS

y

 + M

y

gdzie y - wynik w znormalizowanej 
skali standardowej, z - 
znormalizowany wynik standardowy, 
S

y

 - odchylenie standardowe danej 

skali standardowej, M

y

 - średnia 

wyników danej skali standardowej)     

background image

Skala stenowa

Rozkład po transformacji wyników surowych = 
normalny („uskokowiony”)
Średnia = 5,5 (między 5 a 6 stenem)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 10 stenów
Zakres = od 1 do 10 stena
Skok skali = 1 sten (0,5 odchylenia standardowego 
jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2 do +2 jednostek 
znormalizowanych „z” (steny krańcowe powyżej 2 
S)
Przeznaczenie = różnicowanie w obrębie „normy”

background image

Skala staninowa

Rozkład po transformacji wyników surowych = 
normalny („uskokowiony”)
Średnia = 5,0 (obejmuje średnią)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 9 stanin
Zakres = od 1 do 9 stanina
Skok skali = 1 stanin (0,5 odchylenia 
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -1,75 do +1,75 
jednostek znormalizowanych „z” (staniny krańcowe 
powyżej 1,75 S)
Przeznaczenie = różnicowanie w obrębie „normy”

background image

Skala tetronowa

Rozkład po transformacji wyników surowych = 
normalny („uskokowiony”)
Średnia = 10,0 (obejmuje średnią)
Odchylenie standardowe = 4,0
Liczba jednostek skali = 21 tetronów
Zakres = od 0 do 20 tetrona
Skok skali = 1 tetron (0,25 odchylenia 
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2,325 do +2,325 
jednostek znormalizowanych „z” (tetrony krańcowe 
powyżej 2,325 S)
Przeznaczenie = różnicowanie w obrębie „normy” i 
„patologii”

background image

Skala tenowa

Rozkład po transformacji wyników surowych = 
normalny („uskokowiony”)
Średnia = 50 (obejmuje średnią)
Odchylenie standardowe = 10,0
Liczba jednostek skali = 100 tenów
Zakres = od 1 do 100 tena
Skok skali = 1 ten (0,1 odchylenia standardowego 
jednostek znormalizowanych „z”)
Różnicowanie = wartości od -5 do +5 jednostek 
znormalizowanych „z” (teny krańcowe powyżej 5 S)
Przeznaczenie = różnicowanie w obrębie „normy’ i 
„patologii”

background image

Skala dewiacyjnego ilorazu 

inteligencji

Rozkład po transformacji wyników surowych = 
normalny („uskokowiony”)
Średnia = 100,0 (obejmuje średnią)
Odchylenie standardowe = 15,0
Liczba jednostek skali = 200 jednostek II
Zakres = od 0 do 200 jednostek II
Skok skali = jednostka II (1/15 odchylenia 
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości praktycznie od -6 do +6 
jednostek znormalizowanych „z” (jednostki 
krańcowe powyżej 6 S)
Przeznaczenie = różnicowanie w obrębie „normy” i 
„patologii”

background image

Kryteria wyboru danej skali 

normalizacyjnej

Kształt rozkładu wyników surowych 
(reguła: rozkłady skośne - skale 
prostokątne)
Liczba stopni skali w stosunku do zakresu 
rozkładu wyników surowych (reguła: 1 do 2 
lub 3)
Rzetelność pomiaru i wielkość 
standardowego błędu pomiaru (reguła: gdy 
SBP duże - raczej skala o mniejszej liczbie 
wartości);
Przeznaczenie - różnicowanie w obrębie 
„normy” czy „patologii” (reguła: 
różnicowanie w obrębie „patologii” - skala 
o większym zakresie) 

background image

Wynik 
su-
rowy 

Frek-

wencja 

Frek-

wencja 

skumiulo

wana 

Frekwencja 

skumulowana z 

wiersza poniżej 

+ 1/2 frekwencji 

z danego 

wiersza 

Propor-

cja (p) 

J ed-

nostka 

“z” 

2z + M 

(M=5.0) 

Wynik 

sta-

ninowy 

2,5 

0,003 

-2,801 

-0,602 

10 

7,5 

0,009 

-2,385 

0,230 

17 

14,0 

0,017 

-2,136 

0,728 

20 

37 

27,5 

0,033 

-1,845 

1,310 

22 

59 

48,5 

0,058 

-1,574 

1,852 

26 

85 

72,5 

0,087 

-1,363 

2,274 

25 

110 

98,0 

0,118 

-1,190 

2,620 

31 

141 

126,0 

0,151 

-1,034 

2,932 

37 

178 

160,0 

0,192 

-0,873 

3,254 

 

Tabela 18. Normy staninowe dla skali Reaktywności emocjonalnej 

Inwentarza FCZ-KT (kobiety w wieku 15-19 lat; N=834).

background image

38 

216 

197,5 

0,237 

-0,718 

3,564 

10 

69 

285 

251,0 

0,301 

-0,523 

3,954 

11 

56 

341 

313,5 

0,376 

-0,318 

4,364 

12 

72 

413 

377,5 

0,453 

-0,121 

4,758 

13 

70 

483 

448,5 

0,538 

0,093 

5,186 

14 

77 

560 

522,0 

0,626 

0,319 

5,638 

15 

81 

541 

601,0 

0,721 

0,583 

6,166 

16 

57 

698 

670,0 

0,803 

0,851 

6,702 

17 

56 

754 

726,5 

0,871 

1,128 

7,256 

18 

45 

799 

776,5 

0,931 

1,483 

7,966 

19 

22 

821 

810,5 

0,972 

1,897 

8,794 

20 

13 

834 

828,0 

0,993 

2,412 

9,824 

 

Tabela 19 – c.d.

background image

Wynik surowy 

Stanin 

0-3 

4-5 

6-8 

9-11 

12-13 

14-15 

16-17 

18 

19-20 

 

Tabela 20. Tabela norm staninowych dla kobiet w wieku 15-19 lat.

background image

Interpretacja nasilenia cechy 

bazująca na staninach

 Staniny od 4 do 6 (przeciętne 

nasilenie – wynik w normie);

 Staniny od 2 do 3 (niskie nasilenie) 

oraz od 7 do 8 (wysokie nasilenie);

 Stanin 1 (bardzo niskie nasilenie) 

oraz stanin 9 (bardzo wysokie 
nasilenie).   

background image

Interpretacja wyników 

różnicowych testu

   Nasilenie cechy, wyrażonej w 

wynikach testu jest proporcjonalne 
do wielkości odbiegania go od 
średniej (punktu odniesienia, czy 
inaczej standardu wykonania) oraz 
częstości (wynik częsty =  typowy, 
wynik rzadki = ekstremalny). Im 
bardziej odchylony i rzadko 
spotykany jest dany wynik, tym 
większe (lub mniejsze) nasilenie 
badanej cechy.

background image

Kwestie specjalne norm

Normy generalne czy lokalne 

(poradnictwo i dobór);

Aktualizacja norm i normy 

„kroczące” (liczebność grupy 
normalizacyjnej, trendy 
uzyskiwanych wyników);

Normy dla wszystkich i odrębne 

normy dla grup demograficznych 
(kryteria – analiza demograficznej 
stronniczości wyników testu).

background image

Zagadnienie specjalne - 

normy aktuarialne

Normy aktuarialne

 to 

normy, w które zostały 
wbudowane dane 
trafnościowe

background image

Wykład 14

INTERPRETACJA WYNIKÓW 

TESTOWYCH I ZASADY 

KORZYSTANIA Z 

PODRĘCZNIKÓW TESTOWYCH

background image

Interpretacja wyników testu

 Interpretacja oznacza, że na 

podstawie wyników testu 
formułowane są wnioski 
psychologiczne – wynikom testu 
przypisywany jest sens 
psychologiczny.

 Interpretacja wyników testu jest 

ściśle związana z trafnością 
pomiaru – odnosi się do trafności 
teoretycznej i/lub trafności 
kryterialnej.

background image

Interpretacja wyników testu

 Interpretacja może dotyczyć opisu 

zachowania osoby badanej 
(struktury cech osobowości czy 
zdolności intelektualnych) i/lub 
przewidywania zachowania w 
warunkach pozatestowych 
(funkcjonowania w realnych 
warunakch życiowych). Wszystkie 
te wnioski (interpretacje) bazują na 
danych otrzymanych w procesie 
walidacji testu.

background image

Interpretacja wyników testu

 Interpretacja może być trafna 

jedynie jeśli nasilenie cechy zostało 
prawidłowo oszacowane – oznacza 
to, że punktem wyjścia diagnozy 
psychologicznej jest ocena wyniku 
prawdziwego osoby badanej 
poprzez wyznaczenie 
odpowiedniego przedziału ufności.

background image

Rodzaje interpretacji 

wyników testowych

Interpretacja kliniczna

Interpretacja statystyczna

background image

Interpretacja kliniczna

   Zakłada interpretację profilu 

testowego na podstawie treści 

psychologicznej poszczególnych skal i 

agregację tej treści poprzez ustalenie 

sensu danej konfiguracji cech. 

Interpretacja kliniczna wiąże się z 

idiograficznym podejściem do 

diagnostyki psychologicznej i w jej 

efekcie formułowane są wnioski raczej 

jakościowe niż ilościowe, a jeśli 

ilościowe - to są one mało precyzyjne.

background image

Interpretacja statystyczna

   Zakłada raczej mechaniczne łączenie 

skal, poprzez tworzenie agregatów nie 

tyle psychologicznych, ile 

statystycznych, np. poprzez tworzenie 

baterii testów predykcyjnych 

określonego kryterium (stanu zdrowia 

psychicznego, powodzenia zawodowego, 

itp.). Dla każdego z tych wskaźników 

możliwe jest określenie pewności 

wnioskowania czy dokładności diagnozy. 

Interpretacja statystyczna

background image

Interpretacja statystyczna

   wymaga sformalizowania procesu 

wnioskowania na podstawie 

uzyskanych danych. Wiąże się ona z 

nomotetycznym podejściem do 

diagnostyki psychologicznej i 

dostarcza przede wszystkim 

wyników ilościowych. 

background image

Interpretacja kliniczna a 

interpretacja statystyczna

   Predykcja zachowania jednostki jest 

bardziej trafna przy podejściu 
statystycznym niż klinicznym. 
Podejście statystyczne jest jednak 
krytykowane za mechaniczność 
analizy danych i sprowadzenie udziału 
psychologa w diagnozie do roli 
“technika” rozdzielającego testy, 
obliczającego ich

background image

Interpretacja kliniczna a 

interpretacja statystyczna

   wyniki i odczytującego ich 

znaczenie z tabel aktuarialnych. Z 
tych względów postuluje się 
łączenie obu podejść albo 
akcentuje się konieczność 
wypracowania nowych modeli 
diagnostycznych. 

background image

Struktura podręcznika 

testowego

prezentacja teoretycznych podstaw 

testu;

opis procedury konstrukcji
dane, ilustrujące rzetelność i trafność 

pomiaru (wraz z charakterystyką orób);

procedura praktycznego stosowania 

testu i obliczania wyników;

procedura interpretacji wyników testu;
tabele normalizacyjne.

background image

Co musi zawierać podręcznik 

testowy?

   Podręcznik musi zawierać precyzyjny 

opis testu: jego przeznaczenie, 

wskazówki dotyczące procedury 

badania testem i obliczania wyników, 

pełne dane ilustrujące charakterystykę 

psychometryczną, opis procedury 

normalizacji oraz normy, precyzować 

zasady interpretacji oraz zawierać 

informację o możliwej stronniczości 

czy ograniczeniach stosowania testu.


Document Outline