Wykład 7

TRAFNOŚĆ POMIARU

TESTEM: PODSTAWOWE

POJĘCIA ORAZ METODY I

WSKAŹNIKI

Pojęcie trafności pomiaru

Trafność pomiaru testem to:

a). stopień, w jakim test mierzy
cechę, jaką ma mierzyć (

trafność

teoretyczna

czy inaczej trafność

zorientowana na konstrukt);

b). stopień dokładności
przewidywania określonych kryteriów
praktycznych (

trafność kryterialna

lub inaczej trafność podejmowanych
decyzji).

Trafność a założenia KTT

Pojęcie trafności odwołuje się do

założeń Klasycznej Teorii Testów,

zgodnie z którymi wyniki

prawdziwe i błędy pomiaru są

nieskorelowane, jak i błędy są

nieskorelowane (r

= 0 oraz r

0), co oznacza, że obserwowane

korelacje (między pozycjami,

testem i innymi testami oraz

testem a kryteriami) są korelacjami

wyników prawdziwych.

Trafność a rzetelność

pomiaru

Rzetelność jest koniecznym , ale

niewystaczającym warunkiem

trafności pomiaru. Oznacza to, że

test może być rzetelny i nietrafny,

ale nie odwrotnie – test nierzetelny

musi być nietrafny.

Rzetelność jest kresem górnym

trafności, ponieważ wariancja

prawdziwa jest źródłem rzetelności,

ale także trafności.

Źródła wariancji przy analizie

rzetelności i trafności

(A)

Systematyczna
wariancja
wspólna z
innymi testami.

(B)

Systematyczna
wariancja
specyficzna dla
danego testu.

(C) Wariancja

błędu (losowa).

 Rzetelność = A

+ B (wariancja
systematyczna
w
przeciwieństwie
do wariancji
losowej).

 Trafność = A

(wariancja
wspólna w
przeciwieństwie
do specyficznej
wariancji = B +
C).

Rzetelność i trafność

Rzetelność i trafność są

parametrami psychometrycznymi

pomiaru testem i są wyznaczane

przez podobne czynniki:

Zmiany w procedurze standaryzacji

(alternatywne zastosowanie testu).

Zmiany w demograficznym składzie

próby - ograniczona zmienność

wyników testu lub wyników

kryterialnych w grupie.

Rzetelność i trafność

W przypadku trafności kryterialnej,

wymaganie tego rodzaju trafności

jest sprzeczne z wymogiem

rzetelności, jak i trafności

teoretycznej. Rzetelność i trafność

teoretyczna jest najwyższa, gdy

interkorelacje pozycji są wysokie,

ale wtedy trafność kryterialna jest

niska (wymaga ona pozycji o

niskich interkorelacjach oraz

wysokich korelacjach z kryteriami

zewnętrznymi,

Rzetelność i trafność

co prowadzi do obniżenia

rzetelności i trafności teoretycznej.

W takim wypadku test mierzy różne

(nieskorelowane) właściwości

psychologiczne, pozwalające na

przewidywanie złożonych kryteriów

praktycznych - jest heterogeniczny

pod względem treści

psychologicznej (zaś rzetelność i

trafność wymaga homogenicznych

pozycji oraz jednej cechy,

wpływającej na wyniki testowe).

Rodzaje trafności pomiaru

Trafność pomiaru obejmuje trzy
rodzaje:

a). trafność treściową (wewnętrzną),

b). trafność kryterialną
(diagnostyczną i prognostyczną),

c). trafność teoretyczną.

Trafność treściowa - definicja

Trafność treściowa (wewnętrzna)

reprezentatywność danej puli pozycji
dla uniwersum pozycji mierzących
daną cechę.

Trafność treściowa - definicja

Trafność treściowa (wewnętrzna)

reprezentatywność danej puli pozycji
dla uniwersum pozycji mierzących
daną cechę. Trafność treściowa jest
wstępnym aspektem trafności
teoretycznej. Trafność fasadowa jest
natomiast karykaturą trafności i nie
powinna być przesłanką do
budowania sądu o faktycznej
trafności testu.

Trafność treściowa

Analiza trafności treściowej jest

niezbędnym etapem prac
konstrukcyjnych testu (zanim
jeszcze test został całkowicie
opracowany, za wyjątkiem kwestii
krytyki testu, gdy chcemy wykazać,
że test jest nietrafny treściowo, np.
treść pozycji testowych nie
obejmuje ważnych aspektów
cechy).

Etapy oceny trafności

treściowej

 Precyzyjna definicja cechy

(konstruktu oraz porównanie z
innymi konstruktami
teoretycznymi).

 Opis aspektów cechy:

podwymiarów czy fasad cechy
(cecha, jak i jej podwymiary
powinny mieć budowę
hierarchiczną i być precyzyjnie
zdefiniowane).

Etapy oceny trafności

treściowej

 Ocena liczby pozycji w każdym

podwymiarze oraz teście jako
całości (każdy podwymiar powinien
być reprezentowany w całym teście
i obejmować zbliżoną liczbę
pozycji).

 Ocena pozycji w każdym

podwymiarze oraz w całym teście
przez grupę ekspertów na skalach
ocen (trafność treściowa) lub osób
badanych (typowość).

Trafność kryterialna -

definicja

Trafność kryterialna

- stopień, w

jakim test pozwala na przewidywanie
określonego kryterium
zewnętrznego, np. powodzenia
zawodowego, szkolnego,
wypadkowości, diagnozy klinicznej,
itp. Trafność kryterialna obejmuje

trafność diagnostyczną

(stopień, w

jakim test pozwala na ocenę
aktualnego kryterium) oraz

trafność

prognostyczną

(stopień, w jakim test

pozwala na ocenę przyszłego
kryterium).

Trafność kryterialna -

szacowanie

Trafność kryterialna

jest szacowana

na podstawie korelacji między
wynikami testu a określonym
kryterium pozatestowym; z tego
względu kluczowym aspektem jest
rzetelność (jak i trafność) samego
kryterium, użytego do badania
trafności testu.

Trafność kryterialna -

poprawka na nierzetelność

kryterium

Poprawka na nierzetelność
kryterium:

s-k

= --------------

 R

tt-k

s-k

- skorygowany współczynnik korelacji,

- współczynnik korelacji przed

skorygowaniem, R

tt-k

współczynnik

rzetelności kryterium.

Trafność kryterialna -

poprawka na nierzetelność

kryterium i testu

Poprawka na nierzetelność kryterium
i testu:

s-kt

= --------------

 R

tt-k

tt-t

s-kt

- skorygowany współczynnik korelacji,

- współczynnik korelacji przed

skorygowaniem, R

tt-k

współczynnik

rzetelności kryterium, R

tt-t

-współczynnik

rzetelności testu.

Trafność kryterialna – dane z

meta-analiz

 Testy zdolności – korelacje około

0,50 ze wskaźnikami efektywności
pracy oraz osiągnięciami szkolnymi
(0,70 – szkoła podstawowa, 0,50 –
szkoła średnia oraz 0,30 – szkoła
wyższa).

 Skale osobowości – korelacje około

0,30 ze wskaźnikami efektywności
pracy oraz 0,50 z diagnozą
kliniczną (psychiatryczną).

Skala

Mount i Barrick

(1991)

Tett, J ackson i

Rothstein (1991)

Neurotyczność

-0,04 (-0,07)

-0,15 (-0,22)

Ekstrawersja

0,06 (0,10)

0,10 (0,16)

Otwartość

-0,02 (-0,03)

0,18 (0,27)

Sumienność

0,13 (0,23)

0,12 (0,18)

Ugodowość

0,04 (0,06)

0,22 (0,33)

Tabela 8. Dane z dwóch meta-analiz trafności kryterialnej

skal osobowości i efektywności pracy (w nawiasach –

korelacje skorygowane na nierzetelność kryterium i/lub skali).

Trafność kryterialna – inne

meta-analizy

 Mount, Barrick i Judge (2001) – meta-

analiza 15 wcześniejszych metaanaliz:
korelacje -0,13 dla N oraz 0,24-0,27 dla S
i efektywności pracy.

 Salgado (1997) – meta-analiza badań

europejskich: korelacje -0,19 dla N i 0,25
dla S.

 Mount, Barrick i Stewart (1998) – U i N

przewidują efektywność pracy w zespole.

 Judge, Heller i Mount (2002) - N, S i E

przewidują poziom satysfakcji z pracy
(zbliżone rezultaty dla trafności
diagnostycznej i predykcyjnej).

Cechy OCEAN a powodzenie

zawodowe

Cechy PMO badane w dzieciństwie,

zostały odniesione do subiektywnie
ocenianego sukcesu zawodowego
oraz zobiektywizowanych
wskaźników sukcesu zawodowego
(dochodów i statusu społecznego
wykonywanego zawodu), badanych
w dorosłości - po upływie ponad 50
lat (Judge, Higgins, Thoresen i
Barrick, 1999).

Rycina 1.

Cechy Pięcioczynnikowego Modelu Osobowości w dzieciństwie a ocena

subiektywna i obiektywne wskaźniki sukcesu zawodowego (status

społeczny zawodu oraz dochody) w dorosłości (Judge, Higgins, Thoresen i

Barrick, 1999).

Dochody

Subiektywna ocena sukcesu

zawodowego

Status społeczny zawodu

Cechy OCEAN a powodzenie

zawodowe

Najlepszym predyktorem

subiektywnie ocenianego sukcesu
zawodowego była sumienność,
mała neurotyczność i otwartość.
Predyktorem poziomu dochodów
była ekstrawersja, mała
neurotyczność i sumienność, zaś
statusu społecznego (rangi)
zawodu – sumienność, otwartość
oraz mała neurotyczność.

Ryc. 21. Związki między cechami temperamentu: reaktywnością emocjonalną

i aktywnością, cechami osobowości: depresyjnością oraz uległością,

paleniem tytoniu a zachorowaniem na raka płuca.

0,46

Depresyjność

0,64

-0,23

0,23

Reaktywność

0,96

0,54

0,21

-0,30

Uległość

Rak płuca

-0,21

Aktywność

0,95

0,56

-0,24

Palenie

Ryc. 22. Związki między cechami temperamentu: reaktywnością emocjonalną

i aktywnością, cechami osobowości: depresyjnością oraz wrogością,

paleniem tytoniu a zachorowaniem na zawał serca.

0,45

Depresyjność

0,76

0,25

Reaktywność

0,82

0,83

0,51

-0,60

Palenie

Zawał serca

0,48

Aktywność

0,80

0,29

0,55

0,49

Wrogość

Podsumowanie

Korelacje cech osobowości z

diagnozą medyczną (stan zdrowia)
wynosiły ok. 0,20 dla raka płuca i
zawału serca. Zbliżone dane zostały
uzyskane w innych badaniach
(Zawadzki, 2001).

Podsumowanie

Mischel (1968) określił

współczynniki trafności skal
badających cechy osobowości z
kryteriami (stan zdrowia,
powodzenie zawodowe) mianem
„współczynników osobowości”,
które nie przekraczają wartości
0,30.

Cechy OCEAN a długość życia

Osobami badanymi byli uczestniczy

programu Termana dotyczącego
powodzenia życiowego osób
wybitnie zdolnych, które urodziły
się około 1910 roku i od początku
lat 20. uczestniczyły w programie
badawczym aż do roku 1986.
Analiza przeżywalności (po ponad
60 latach) wykazała, że efekt
sumienności z pewnym dodatkiem
ugodowości

Cechy OCEAN a długość życia

(niezawodność społeczna,

rozwaga, wolność od próżności-
egotyzmu, skrupulatność i
prawdomówność) - cechy badanej w
dzieciństwie na podstawie
szacowania przez rodziców oraz
nauczycieli (na podstawie szeregu
pytań, sklasyfikowanych w latach
80. jako - w głównej mierze -
wskaźniki sumienności)

Cechy OCEAN a długość życia

pozwala na przewidywanie

przeżywalności (Friedmann i in,
1993; 1995), także przy kontroli
efektu płci, przyczyny zgonu (np.
wypadki samochowe), czy
zachowań zdrowotnych (alkohol,
palenie, nadwaga).

Wykład 8

TRAFNOŚĆ TEORETYCZNA

POMIARU TESTEM

Trafność teoretyczna -

pojęcie

Trafność teoretyczna

- zgodność

treści mierzonej przez test z

konstruktem teoretycznym (trafność

zorientowana na konstrukt) -

określenie jaką treść psychologiczną

mierzy test.

Metody szacowania trafności

teoretycznej

1). Metody bazujące na analizie

związku pomiędzy konstruktem a

zachowaniem:

a). metoda zmian nieprzypadkowych,

b). metoda sprawdzania różnic

międzygrupowych,

c). metoda badania procesu

rozwiązywania testu;

Metody szacowania trafności

teoretycznej (c.d.)

2). Metody bazujące na analizie
macierzy korelacji pomiędzy testem,
a innymi testami przeznaczonymi do
badania danego konstruktu:

a). metoda badania wewnętrznej
struktury testu,

Metody szacowania trafności

teoretycznej (c.d.)

b). metoda analizy macierzy korelacji
i analizy czynnikowej (eksploracyjnej
i konfirmacyjnej) danego testu oraz
testów, badających ten sam
konstrukt;

c). badanie trafności
konwergencyjnej i dyskryminacyjnej
(zbieżnej i różnicowej) za pomocą
analizy macierzy Wielu Cech- Wielu
Metod wg Campbella i Fiskego

Analiza zmian

nieprzypadkowych

Zmiany rozwojowe – wyniki testów

zdolności powinny wykazywać
systematyczną tendencję
wzrostową wraz ze wzrostem wieku
w dzieciństwie oraz tendencję
regresywną w dorosłości. Wyniki
niektórych skal osobowości także
powinny wykazywać zmiany z
wiekiem – aktywność
temperamentalna powinna
systematycznie maleć wraz z
wiekiem, z uwagi na malejące
zasoby energii.

Ryc. 25. Wiek a aktywność, badana FCZ-KT (wyniki

standaryzowane 7 prób narodowych).

Analiza zmian

nieprzypadkowych

„Postulat lekowy” - metoda

opracowana w psychiatrii i
stosowana przez H. Eysencka.

Założenia:

• Ekstrawersja jest wyznaczana przez

poziom pobudzenia korowego
(ekstrawertycy wykazują niski
poziom pobudzenia);

Analiza zmian

nieprzypadkowych

• Niektóre leki zwiększają poziom

pobudzenia;

• Pod wpływem tych leków osoby

badane powinny ujawniać
introwertywny wzór zachowania
(jako efekt silnego pobudzenia).

Wniosek:

• Skala Ekstrawersji powinna

zarejestrować tę różnicę (między
pre-testem i post-testem po
podaniu leku

Analiza różnic

międzygrupowych

Celem tej metody jest ocena różnic

w wynikach testu, uzyskanych
przez różne grupy demograficzne,
wyodrębnione na podstawie
predykcji bazującej na analizie
konstruktu teoretycznego
(konfiguracja tych różnic jest
oczekiwana na podstawie teorii).

Analiza różnic

międzygrupowych

 Testy zdolności – analiza wyników

testu inteligencji w różnych
grupach zawodowych (wniosek: im
bardziej wymagający sprawności
intelektualnej jest dany zawód, tym
wyższy poziom inteligencji
wykazują pracownicy).

 Skale osobowości – przypadek

wrażliwości sensorycznej i
wytrzymałości (z FCZ-KT).

Różnice międzygrupowe we

wrażliwości i wytrzymałości

Hipotezy:

 Muzycy – wysoki poziom

wrażliwości sensorycznej (zdolność
specjalna), ale niski poziom
wytrzymałości;

 Sportowcy – wysoki poziom

wytrzymałości (zdolność specjalna),
ale niski wrażliwości sensorycznej;

Różnice międzygrupowe we

wrażliwości i wytrzymałości

Hipotezy:

 Przestępcy (mordercy) – wysoki

poziom wytrzymałości i niski
poziom wrażliwości sensorycznej
(zdolności specjalne?);

 Pytanie o nasilenie obu cech u

nauczycieli szkół podstawowych?

Tabela 9. Wrażliwość sensoryczna i wytrzymałość

w różnych grupach demograficznych.

Grupa

Wrażliwość

sensoryczna

Wytrzymałość

Przestępcy

13,39

11,18

Sportowcy

(zapaśnicy)

13,43

11,18

Artyści muzycy

15,68

8,76

Norma (mężczyźni)

15,00 (3,45)

10,26 (4,78)

Nauczycielki

16,67

12,57

Artystki (muzycy)

17,32

6,38

Norma - kobiety

16,23 (2,86)

8,04 (4,58)

Różnice międzygrupowe we

wrażliwości i wytrzymałości

Wnioski:

 Większość różnic jest zgodna z

przewidywaniami (zwłaszcza z
relacji do grupy normatywnej).

 Nieoczekiwane relacje: zbliżone

wyniki u przestępców oraz
zapaśników oraz najwyższe wyniki
u nauczycieli szkól podstawowych.

Wady metody

 Różne nasilenie tendencji do

symulowania albo dysymulowania
w badanych grupach
(nauczyciele?);

 Wyjaśnienie różnic

międzygrupowych: dwa procesy –
„naturalna” selekcja do zawodu
i/lub (?) adaptacja do wymagań
zawodu (zmiana nasilenia cech);

 Nieoczekiwane zależności są

typowe i trudne do wyjaśnienia.

Wady metody – badania

Nyborga

Nyborg (1995) prowadził badania

dotyczące związku między
poziomem hormonów a
wykonywaniem różnych zawodów.
Podstawowa hipoteza głosiła, że im
wyższy jest poziom męskich
hormonów, tym za bardziej
zmaskulinizowany uznawany jest
dany zawód, zaś im wyższy jest
poziom żeńskich hormonów, tym za
bardziej

Wady metody – badania

Nyborga

sfeminizowany uznawany jest dany

zawód. Pielęgniarstwo jest
typowym zawodem kobiecym i
pielęgniarki wykazują najwyższy
poziom żeńskich hormonów.
Oczekiwano zatem, że pielęgniarze
powinni wykazywać najniższy
poziom męskich hormonów,
podczas gdy w rzeczywistości
wykazywali najwyższy poziom ze
wszystkich grup zawodowych!

Analiza procesu

rozwiązywania testu

Testy zdolności – eksperymenty z

manipulowaniem złożonością
zadań, prezentacją zadań
cząstkowych lub podawaniem
wskazówek, które zmieniają
wymagania.

Skale osobowości – „analiza

protokołów” (instrukcja „głośnego
myślenia”) w celu identyfikacji
czynników wpływających na
udzielanie odpowiedzi na pozycje.

Analiza wewnętrznej

struktury testu

Dwie grupy metod:

 Analiza korelacji między pozycjami

(wskaźnik dyskryminacji lub
korelacji pozycja-skala oraz analiza
czynnikowa pozycji);

 Analiza korelacji między skalami

testu (korelacje skal i analiza
czynnikowa skal).

Analiza korelacji między

pozycjami

 Korelacja pozycja-skala (moc

dyskryminacyjna) – pozycja
powinna wysoko korelować z
wynikiem całej skali korelacja
(pozycja powinna mierzyć tę samą
treść psychologiczną co wszystkie
inne pozycje w tej skali).

Analiza korelacji między

pozycjami

 Analiza czynnikowa pozycji (testy

wieloskalowe) – pozycja powinna
wysoko korelować z własną skalą i
nisko z innymi skalami (pozycja
powinna mierzyć określoną treść
psychologiczną i jednocześnie nie
mierzyć innych treści).

Analiza czynnikowa

Analiza czynnikowa jest metodą

dekompozycji macierzy korelacji
pomiędzy zmiennymi, prowadzącej
do uzyskania wiązek zmiennych,
które reprezentują zbliżoną treść
psychologiczną (odnoszą się do
zbliżonych lub wręcz identycznych
konstruktów – cech
psychologicznych).

Analiza czynnikowa

Zmienne są grupowane w wiązki na

podstawie ich korelacji w taki
sposób, aby korelacje w obrębie
wiązki były jak najwyższe, zaś
między wiązkami jak najniższe. Idea
analizy czynnikowej bazuje na tzw.
„równaniu czwórkowym”
Spearmana.

Przykład

 Test A i test B – korelacja 0,70.
Wniosek – oba testy mierzą tę

samą cechę.

 Test A, B i C – korelacje 0,70.
Wniosek – wszystkie testy są

jednakowo dobrymi miarami tej
samej cechy.

 Test A, B i C – korelacja 0,70

pomiędzy testem A i B oraz
korelacja 0,50 pomiędzy testem C
oraz testami A i B.

Przykład

Wniosek – testy A i B są dobrymi

miarami cechy ogólnej, zaś test C
mierzy bardziej specyficzną treść i
jest gorszą miarą cechy ogólnej niż
testy A i B.

 Test A, B, C i D – korelacje 0,70

pomiędzy testem A i B oraz
pomiędzy C i D, a także korelacje
krzyżowe po 0,50 między testami A
i B oraz testami C i D.

Przykład

Wniosek – istnieje nie tylko cecha

ogólna (badana przez wszystkie
testy – każdy z nich jest dobrą
miarą tej cechy do wysokości
korelacji 0,50), ale przede
wszystkim istnieją dwie odmienne,
choć skorelowane cechy; jedna
wiązka (czynnik) mierzy pierwszą
cechę (testy A i B), zaś druga
wiązka bada drugą cechę (testy C i
D).

Analiza mocy

dyskryminacyjnej

Celem tej analizy jest ocena w

jakim stopniu wszystkie pozycje
mierzą tę samą treść; najczęściej
używany jest skorygowany
współczynnik pozycja-skala. Analiza
ta jest dokonywana dla pozycji
tworzących daną skalę oraz
oddzielnie dla każdej ze skal testów
wieloskalowych.

Analiza czynnikowa pozycji

Celem eksploracyjnej analizy

czynnikowej pozycji jest wykazanie,
że pozycje tworzące daną skalę
mają najwyższe korelacje (ładunki
czynnikowe) z odpowiadającymi im
czynnikami (odzwierciedlającymi
określoną treść psychologiczną)
oraz najniższe z innymi czynnikami
(tworzącymi inne wiązki pozycji).
Analiza jest przeprowadzana na
wszystkich pozycjach testu.

Skala /pozycja

SKPS Czynnik

Czynnik

E / pozycja 6

0,58

-0,72

0,07

-0,02

0,11

0,55

-0,72

0,09

-0,04

0,16

-24

0,51

0,62

-0,01

0,19

-0,02

0,55

-0,69

-0,17

0,07

-0,23

0,64

-0,74

-0,10

-0,00

-0,21

0,53

-0,71

0,03

0,06

N / pozycja 26

0,56

0,05

-0,03

0,71

-0,04

0,54

-0,15

0,03

0,72

0,07

0,53

0,07

-0,04

0,67

0,05

0,54

0,22

-0,03

0,65

0,03

0,49

0,08

0,03

0,63

-0,06

0,58

-0,14

0,01

0,76

0,06

Tabela 10. Współczynniki mocy dyskryminacyjnej i ładunki czynnikowe

pozycji EPQ-R(24).

Skala / pozycja

SKPS Czynnik

Czynnik

P / pozycja 7

0,23

0,06

0,14

0,08

0,56

-18

0,31

-0,03

-0,20

-0,01

0,48

0,30

-0,12

0,20

0,03

-0,45

-41

0,26

-0,17

0,01

0,08

0,58

0,26

-0,13

0,29

0,16

-0,36

-88

0,28

0,01

0,03

0,01

0,54

K / pozycja 44

0,37

0,01

0,56

-0,04

-0,10

-49

0,36

-0,08

0,64

-0,04

0,14

-53

0,35

0,08

0,65

-0,04

0,16

-66

0,36

-0,07

0,47

-0,05

-0,26

-71

0,42

-0,03

0,61

0,04

-0,11

0,30

-0,07

-0,49

-0,10

0,06

Tabela 10 – c.d.

Wnioski

Moc dyskryminacyjna:

 Skala E - zakres: 0,54 do 0,64

(pozycja nr 78 jest najlepszą miarą
E);

 Skala N - zakres: 0,49 to 0,58

(pozycja nr 83 jest najlepszą miarą
N);

 Skala P - zakres: 0,23 to 0,31

(pozycja nr 18 jest najlepszą miarą
P);

 Skala K - zakres: 0,35 to 0,42

(pozycja nr 71 jest najlepszą miarą
K).

Uwaga

Znak minus przed numerem pozycji

wskazuje, że odpowiedź negująca
jest zgodna z kluczem – wyniki tych
pozycji powinny zostać
zrekodowane. Zabieg ten jest
niezbędny dla obliczenia mocy
dyskryminacyjnej (wszystkie
korelacje muszą być pozytywne),
ale opcjonalne dla analizy
czynnikowej – ładunki mogą być
zarówno pozytywne, jak i
negatywne.

Wnioski

Eksploracyjna analiza czynnikowa:

wszystkie pozycje wykazały wyższe
korelacje z odpowiadającymi im
czynnikami. Najlepsze są skale E i
N, skale K, a zwłaszcza P są gorsze.

Optymalny wzór tych korelacji

powinien być „czarno-biały”. W
praktyce testów psychologicznych
nigdy się to nie zdarza.

Analiza korelacji pomiędzy

skalami testu

Dwie formy analizy:

 Korelacje między skalami testu;

 Analiza czynnikowa skal testu.

Analiza korelacji pomiędzy

skalami testu

 Korelacje między skalami - skala

wytrzymałości z FCZ-KT koreluje
dodatnio (ok. 0,20) ze skalą
aktywności (osoby aktywne są
bardziej wytrzymałe, co jest zgodne
z oczekiwaniami teoretycznymi).

 Analiza czynnikowa skal testu -

WAIS-R ujawnia dwa czynniki skal
testu: Werbalny i Niewerbalny
(czasami też trzeci czynnik,
określany mianem
Pamięci/Odporności na dystrakcję).

Analiza korelacji pomiędzy

testami

Dwie formy analizy:

 Analiza korelacji pomiędzy testem

oraz innymi testami (badającymi
ten sam i odmienne konstrukty);

 Analiza czynnikowa (eksploracyjna i

konfirmacyjna) danego testu oraz
innych testów (badających ten sam
i odmienne konstrukty).

Korelacje z innymi testami

Celem tej analizy jest ocena

wielkości wariancji dzielonej przez
test z innymi testami. Analiza ta
wymaga uwzględnienia skal
mierzących te same i odmienne
konstrukty w celu wykazania
trafności konwergencyjnej i
dyskryminacyjnej (oceniana skala
powinna korelować ze skalami
badającymi zbliżone konstrukty
oraz nie korelować ze skalami
mierzącymi odmienne konstrukty).

Przykład badań

walidacyjnych NEO-FFI

Hipotezy:

 Skale N i E z NEO-FFI i EPQ-R oraz

skale U i S z NEO-FFI i PAL
(identyczne konstrukty – bardzo
wysokie korelacje);

 Skale U i S z NEO-FFI i skale P i K z

EPQ-R oraz skale E i N z NEO-FFI i
skale P i D z PAL, a także skala O z
NEO-FFI i skala I z PAL (zbliżone
konstrukty – przeciętne korelacje);

Przykład badań

walidacyjnych NEO-FFI

Wszystkie te korelacje są

wskaźnikiem

trafności

konwergencyjnej (zbieżnej).

 Korelacje pomiędzy skalami,

badającymi odmienne kontrukty
powinny być bardzo niskie (zbliżone
do zera).

Wszystkie te korelacje są z kolei

wskaźnikiem

trafności

dyskryminacyjnej (różnicowej).

NEO-FFI, EPQ-R/PAC

NEU

EKS

OTW

UGD

SUM

Ekstrawersja

-0,25*

0,71*

0,18*

-0,11*

0,06*

Neurotyczność

0,73*

-0,19*

-0,00

-0,15*

-0,11*

Psychotyczność

0,00

0,09*

0,03

-0,47*

-0,37*

Skala Kłamstwa

-0,10*

-0,09*

0,39*

0,45*

Pobudliwość

0,40*

0,10*

0,06

-0,27*

-0,01

Dynamiczność

-0,27*

0,60*

0,22*

-0,01

0,38*

Intelekt

-0,29*

0,32*

0,40*

0,12*

0,31*

Ugodowość

0,01

0,28*

0,22*

0,35*

0,24*

Sumienność

-0,04

0,10*

0,04

0,18*

0,66*

Tabela 11. Korelacje pomiędzy skalami NEO-FFI oraz EPQ-R

i PAL (korelacje konwergencyjne są podkreślone).

Wnioski

 Wysokie korelacje skal N i E z NEO-

FFI i EPQ-R oraz skali S z NEO-FFI i
PAL potwierdzają trafność
konwergencyjną (korelacje skali A
są zbyt niskie);

 Przeciętne korelacje skal U i S z

NEO-FFI i skale P i K z EPQ-R oraz
skali N z NEO-FFI i P z PAL, a także
skali O z NEO-FFI i skali I z PAL
także potwierdzają trafność
konwergencyjną (korelacja
pomiędzy skalami E i D jest zbyt
wysoka);

Wnioski

 Korelacje zbieżne są wyższe niż

korelacje krzyżowe, co potwierdza
trafność dyskryminacyjną.

 Korelacje krzyżowe są wyższe w

przypadku PAL niż EPQ-R – niektóre
problemy słabej trafności zbieżnej i
różnicowej występują, gdy NEO-FFI
jest odnoszony do PAL (a nie EPQ-
R).

 PAL wykazuje niską trafność.

Analiza czynnikowa testów

Dwie formy analizy:

 Eksploracyjna analiza czynnikowa

(empiryczna klasyfikacja treści skal
różnych testów);

 Konfirmacyjna analiza czynnikowa

(porównanie modelu teoretycznego
do danych – analiza dobroci
dopasowania modelu do struktury
danych testowych).

Źródła wariancji w analizie

czynnikowej

(A) Systematyczna

wariancja wspólna
z innymi testami.

(B) Systematyczna

wariancja
specyficzna dla
danego testu.

(C) Wariancja błędu

(losowa).

(A1) Wariancja

wspólna
specyficzna dla
danej cechy.

(A2) Wariancja

wspólna
specyficzna dla
innych cech.

(B+C) Wariancja

unikatowa testu
(niewyjaśniona).

Źródła wariancji w analizie

czynnikowej

 (A1) = trafność konwergencyjna;
 (A2) = trafność dyskryminacyjna;
 (A1+A2) = wariancja wspólna

(communality, h

);

 1-h

= wariancja unikatowa (B+C).

Inne źródła zmienności:
 1-α = wariancja błędu (C).
 α-h

= wariancja systematyczna,

specyficzna dla testu (B).

Eksploracyjna analiza

czynnikowa

Celem tej analizy jest ocena

trafności konwergencyjnej i
dyskryminacyjnej testu (lub
testów), bazująca na empirycznej
strukturze danych.

Skala

Czynnik I Czynnik II Czynnik III Czynnik

Czynnik V

NEU

0,77

-0,20

-0,17

-0,03

-0,10

0,67

EKS

-0,15

0,85

0,13

0,04

-0,01

0,76

OTW

0,01

0,39

0,15

0,20

-0,39

0,37

UGD

-0,21

0,05

-0,06

0,79

0,04

0,68

SUM

-0,11

0,11

0,74

0,23

0,15

0,64

-0,10

0,85

0,11

-0,10

-0,05

0,77

0,85

-0,06

-0,02

-0,01

-0,14

0,74

-0,06

0,12

-0,06

-0,63

-0,23

0,48

-0,08

-0,16

0,38

0,47

0,23

0,45

POB-L

0,66

0,21

0,19

-0,26

-0,06

0,59

DYN-L

-0,08

0,61

0,52

-0,08

-0,11

0,67

INT-P

-0,15

0,34

0,48

0,18

-0,21

0,44

UGD-L

0,10

0,29

0,28

0,55

-0,05

0,47

SUM-L

0,06

-0,03

0,72

0,37

0,11

0,67

Tabela 12. Eksploracyjna analiza czynnikowa 38 skal osobowości.

Skala

Czynnik I Czynnik II Czynnik III Czynnik

Czynnik V

ŻW

-0,45

0,29

0,40

-0,04

-0,11

0,46

0,72

0,00

-0,12

0,13

-0,15

0,58

-0,06

0,12

0,19

0,26

-0,28

0,20

0,81

-0,24

-0,20

0,11

-0,01

0,76

-0,63

0,20

0,34

-0,11

-0,09

0,58

-0,06

0,78

0,01

-0,10

-0,08

0,63

-0,60

0,39

0,38

-0,17

-0,11

0,71

-0,58

-0,08

0,04

0,34

-0,15

0,48

-0,48

0,62

0,14

0,10

-0,12

0,66

Tabela 12 – c.d.

Skale

Czynnik I Czynnik II Czynnik III Czynnik

Czynnik V

TOW

-0,10

0,61

-0,10

0,15

0,13

0,43

AKT

0,13

0,63

0,37

-0,15

0,02

0,58

STR

0,73

-0,19

-0,12

0,14

0,02

0,60

NIE

0,82

-0,11

-0,03

-0,10

-0,00

0,69

GNW

0,76

0,08

0,09

-0,34

0,00

0,70

A-G

0,17

0,63

0,26

-0,11

0,08

0,51

A-S

0,17

0,11

-0,15

-0,03

-0,25

0,13

A-W

-0,36

0,69

0,16

0,10

-0,00

0,64

F-R

-0,54

0,32

-0,11

0,09

-0,26

0,48

-0,28

0,62

-0,13

0,10

-0,00

0,49

R-S

0,02

-0,01

0,12

0,17

0,65

0,47

R-E

-0,07

0,04

0,17

0,11

0,72

0,57

R-H

0,07

0,14

0,08

0,04

0,74

0,58

DIST

-0,16

0,09

0,58

-0,12

0,20

0,43

PERS

-0,12

0,14

0,62

0,01

0,15

0,44

Tabela 12 – c.d.

Skala Neurotyczności z NEO-

FFI

(A1) = 0,77

= 0,59 (wariancja

specyficzna dla neurotyczności)

(A2) = 0,08 (wariancja wspólna z

pozostałymi czterema cechami) = (-

0,20

;4%E)+(-0,17

;3%C)+(-0,03

;A)

+(-0,10

;1%O).

Wariancja wspólna (A1+A2=h

) =

0,59+0,08=0,67.

Wariancja unikatowa = 1-h

= 1-

0,67=0,33 (błąd pomiaru +

systematyczna wariancja

specyficzna dla skali N z NEO-FFI).

Skala Neurotyczności z EPQ-

(A1) = 0,85

= 0,72 (wariancja

specyficzna dla neurotyczności)

(A2) = 0,02 (wariancja wspólna z

pozostałymi czterema cechami) = (-

0,06

;E)+(-0,02

;C)+(-0,01

;A)+(-

0,14

;2%O).

Wariancja wspólna (A1+A2=h

) =

0,72+0,02=0,74.

Wariancja unikatowa = 1-h

= 1-

0,74=0,26 (błąd pomiaru +

systematyczna wariancja

specyficzna dla skali N z EPQ-R).

Wniosek

Skala

Neurotyczności z NEO-FFI

wykazuje gorszą trafność
konwergencyjną (59% w
porównaniu do 72%) oraz
dyskryminacyjną (8% w odniesieniu
do 2%) niż skala Neurotyczności z
EPQ-R (obie skale mają zbliżoną
zgodność wewnętrzną wynoszącą
około 0,85). Błąd pomiaru jest
równy 15%, unikatowa
systematyczna wariancja
specyficzna dla skali z NEO-FFI =
18% oraz EPQ-R = 11%).

Porównanie trafności skal

NEO-FFI

Skala Konwergencyjna

Dyskryminacyjna

72%

62%

59%

55%

14%

22%

Wniosek

Skala Otwartości wykazuje słabą

trafność konwergencyjną oraz
dyskryminacyjną. Inne skale
wykazują wysoką trafność
konwergencyjną, ale skala
Neurotyczności, Ugodowości i
Sumienności wykazuje także słabą
trafność dyskryminacyjną.
Najlepsza jest skala Ekstrawersji.

Trafność innych skal

 Siła Procesu Pobudzenia - 36%

neurotyczności, 15% ekstrawersji,
14% sumienności, 3% ugodowości
oraz 1% otwartości/rytmiczności–
wykazuje słabą trafność
dyskryminacyjną.

 Skala Aktywności we śnie (A-S) -

13% wspólnej wariancji z innymi
skalami (6% z czynnikiem
otwartości/rytmiczności) – brak
trafności konwergencyjnej, tylko
wariancja unikatowa.

Konfirmacyjna analiza

czynnikowa testów

Celem tej analizy jest ocena

trafności konwergencyjnej i
dyskryminacyjnej skal testu, przez
porównanie modelu teoretycznego i
empirycznej struktury skal.

Przykład Inwentarza

Struktury Temperamentu

(KST) Rusalova

Analiza konfirmacyjna skal KST –

analiza wewnętrznej struktury
testu (analiza konfirmacyjna
podobnie do analizy eksploracyjnej
może być zrealizowana na poziomie
pozycji, skal danego testu, jak i
całych testów).

Przykład Inwentarza

Struktury Temperamentu

(KST) Rusalova

Dwa czynniki wpływające na

temperament: geny i środowisko.
Wrodzona (pierwotna) struktura
temperamentu obejmuje:
ergiczność, plastyczność, tempo i
emocjonalność. Cechy te różnicują
się się pod wpływem czynników
środowiskowych na cechy
społeczne i przedmiotowe.

Przykład Inwentarza

Struktury Temperamentu

(KST) Rusalova

KST zawiera osiem skal:

 Ergiczność - społeczną

 Ergiczność - przedmiotową

 Plastyczność - społeczną

 Plastyczność - przedmiotową

 Tempo - społeczne

 Tempo - przedmiotowe

 Emocjonalność - społeczną

 Emocjonalność - przedmiotową

Hipotezy i modele

 Bez cechy ogólnej (skale są

nieskorelowane - model powinien
być odrzucony);

 Jedna cecha ogólna (brak specyfiki

skal - model powinien być
odrzucony);

 Dwie cechy („struktura wtórna”) -

model powinien być potwierdzony);

 Cztery cechy („struktura

pierwotna”) - model powinien być
potwierdzony);

 SOS model (ad hoc model trzech

cech).

ERP ERS

PLP PLS TEP

TES EMP

EMS

ERG

PLA

TEM

EMO

Rycina. 28. Model „struktury pierwotnej” temperamentu.

ERP PLP

TEP EMP ERS

PLS TES

EMS

PRZED.

SPOŁ.

Rycina. 29. Model „struktury wtórnej” temperamentu.

Wskaźniki „dobroci

dopasowania”

 Wartość testu chi

(brak istotności);

 Goodness of Fit Index (GFI; powyżej

0,95);

 Adjusted Goodness of Fit Index

(AGFI; powyżej 0,90);

 Normed Fit Index (NFI – wartość

przyrostowa dopasowania w
stosunku do „modelu zerowego”;
powyżej 0,90);

 Wartości indeksu Watkinsa chi

/df

(poniżej 5,0 – akceptowalne
dopasowanie; poniżej 3,0 –
znakomite dopasowanie).

Model

Opis modelu

chi2

GFI

AGFI

NFI

M0 Bez czynnika

ogólnego

417,36 28 0,000 0,60

0,60

M1 J eden czynnik

225,42 20 0,000 0,76

0,56

0,46

M2 Dwa czynniki

(struktura wtórna)

201,46 19 0,000 0,78

0,59

0,52

M3 Trzy czynniki

(emocjonalność,
aktywność
społeczna i
rzedmiotowa)

86,18 17 0,000 0,90

0,78

0,79

M4 Cztery czynniki

(struktura pierwotna)

104,69 14 0,000 0,88

0,69

0,75

Tabela 13. Wskaźniki dobroci dopasowania KAF dla skal KST.

Wnioski

 Żaden z analizowanych modeli nie

wykazał akceptowalnego
dopasowania – empiryczna
struktura korelacji skal KST jest
nieprzewidywalna na podstawie
oczekiwań teoretycznych;

 Teoria temperamentu jest fałszywa

lub KST powinien zostać
zmodyfikowany, bowiem wykazuje
niewystarczającą trafność.

Analiza macierzy Wielu Cech

– Wielu Metod

Macierz WC-WM (ang. MTMM

matrix) jest przygotowywana w
celu formalnej oceny trafności
konwergencyjnej i
dyskryminacyjnej pomiary testem.
Analiza ta wymaga wprowadzenia
przynajmniej dwóch metod oraz
dwóch cech.

Rodzaje korelacji w macierzy

WC-WM

 Pomiędzy skalami mierzącymi

różne cechy w obrębie tej samej
metody (różne cechy, ta sama
metoda);

 Pomiędzy skalami mierzącymi te

same cechy, ale za pomocą różnych
metod (te same cechy, różne
metody);

 Pomiędzy skalami mierzącymi

różne cechy za pomocą różnych
metod (różne cechy, różne metody).

Wymóg trafności

konwergencynej

 Trafność konwergencyjna (zbieżna):

korelacje pomiędzy skalami różnych
metod, ale badających te same
cechy (te same cechy, różne
metody) powinny być co najmniej
przeciętne (istotne statystycznie).

Wymóg trafności

dyskryminacyjnej

 Trafność dyskryminacyjna

(różnicowa): korelacje skal różnych
metod badających te same cechy
(te same cechy, różne metody)
powinny być wyższe niż:

 korelacje skal mierzących różne

cechy, za pomocą tej samej metody
(różne cechy, te same metody);

 korelacje skal mierzących różne

cechy, za pomocą różnych metod
(różne cechy, różne metody).

Macierz WC-WM dla

samoopisu i szacowania z

użyciem NEO-FFI

Kwestionariusz: NEO-FFI

Miary: samoopis (s) and

szacowanie (sz)

Korelacje:

 Pomiędzy NEO-FFI skalami

samopisu

 Pomiędzy NEO-FFI szacowania

 Pomiędzy samoopisem i

szacowaniem

Pomiar

NEU - s

EXT - s

OPE - s

AGR - s

SUM - s

NEU – sz

0,84 (0,81)

-0,35*

-0,07*

-0,26*

-0,30*

EXT – sz

-0,39*

0,78 (0,80)

0,22*

0,09*

0,27*

OPE – sz

-0,11*

0,17*

0,63 (0,66)

0,06*

0,02

AGR – sz

-0,33*

0,13*

0,20*

0,65 (0,77)

0,19*

CON – sz

-0,28*

0,18*

0,17*

0,34*

0,81 (0,87)

Measure

NEU - s

EXT - s

OPE - s

AGR - s

CON – s

NEU – sz

0,52*

-0,28*

-0,08*

-0,20*

-0,16*

EXT – sz

-0,22*

0,61*

0,14*

0,04

0,13*

OPE – sz

-0,08*

0,08*

0,51*

0,04

-0,07*

AGR – sz

-0,09*

-0,01

0,04

0,45*

0,03

CON – sz

-0,12*

0,03

0,01

0,16*

0,45*

Tabela 14. Macierz WC-WM dla samoopisu i szacowania NEO-FFI.

Wnioski

 Skale NEO-FFI wykazują

wystarczającą trafność
konwergencyjną (korelacje
podkreślone w tabeli);

 Skale NEO-FFI wykazują

akceptowalną trafność
dyskryminacyjną (korelacje
„zbieżne” są wyższe niż wszystkie
korelacje „różnicowe”).

Podsumowanie

Pojęcie trafności zbieżnej i

różnicowej jest kluczowe dla
zrozumienia trafności teoretycznej,
choć zazwyczaj jest ograniczane
tylko do analizy macierzy Wc-WM.
Test powinien mierzyć określoną
cechę i nie mierzyć innych cech (ani
jakichkolwiek innych
charakterystyk indywidualnych, a
zatem także stylów odpowiadania
czy stanów psychologicznych).

Podsumowanie

Pojęcie trafności konwergencyjnej i

dyskryminacyjnej może odnosić się
zarówno do trafności teoretycznej,
jak i kryterialnej. Test jest
nietrafny, jeśli niczego nie
przewiduje lub nie mierzy (brak
trafności konwergencyjnej). Test
jednak jest także nietrafny, jeśli
przewiduje lub mierzy wszystko
(brak trafności różnicowej).

Podsumowanie

Narzędzie, które diagnozuje

wszystko, nie mierzy

niczego w szczególności.

Wykład 9

STRATEGIE KONSTRUOWANIA

TESTÓW

Strategie konstruowania

testu

1). teoretyczna (dedukcyjna)

2). zewnętrzna (kryterialna)

3). wewnętrzna (indukcyjna)

4). sekwencyjne lub połączone

Strategie konstruowania

testu

1). teoretyczna (dedukcyjna) –
podstawa teoretyczna dla strategii
empirycznych, choć może też być
stosowana samodzielnie (do
diagnozy raczej cech).
2). zewnętrzna (kryterialna) – do
diagnozy typów (eksploracyjna lub
połączona z teoretyczną).
3). wewnętrzna (indukcyjna) – do
diagnozy cech (eksploracyjna lub
połączona z teoretyczną).

Strategie konstruowania

testu

Budowa skali w każdej strategii
poza kryterialną) jest podobna – te
same końcowe procedury techniczne,
ale nieco inny model
psychometryczny jest stosowany w
każdej strategii.

Strategie mają podobny plan
konstrukcji, poza strategiami
połączonymi - unikatowość planu
analizy i przebieg procesu
konstrukcji.

Porównanie strategii

konstrukcji testów

Aspekty opisu strategii:

a). dostępność teorii psychologicznej
w strategii: dedukcyjna ("teoria"),
kryterialna ("wiedza"), indukcyjna
("metodologia");

Porównanie strategii

konstrukcji testów (c.d.)

b). model psychometryczny
zastosowany do konstrukcji testu:
teoretyczna - analiza pozycji
(korelacja pozycja-skala, zewnętrzna
- analiza pozycji (korelacja pozycja-
kryterium), indukcyjna -
eksploracyjna analiza czynnikowa;

Porównanie strategii

konstrukcji testów (c.d.)

c). efekt finalny: w zakresie
psychologicznym, diagnostycznym i
psychometrycznym - każda strategia
ma swoje zalety i wady - zależnie od
typu problemu należy stosować różne
strategie.

Wykład 10

PROCEDURA (PROCES)

KONSTRUKCJI TESTU

Etap I

Etap I - wybór strategii (cel badań –
pytania badawcze, rodzaj badanego
konstruktu: cecha albo typ) oraz plan
budowy narzędzia (w tym także skale
kontrolne).

Niezbędna jest wiedza dotycząca
danego konstruktu oraz wiedza z
metodologii, psychometrii i
diagnostyki psychologicznej.

Etap II

Etap II - analiza podstaw
teoretycznych narzędzia: teorii,
wiedzy lub metodologii (trafność
treściowa lub prototypowość).

Hierarchiczna struktura konstruktu
- podwymiary lub składniki
definicyjne (pokrycie całego
konstruktu, łatwość generowania
wskaźników konstruktu).

Składniki definicyjne

Antonovsky (1995) przy tworzeniu Kwestionariusza
Poczucia Koherencji w postaci przestrzeni
Kartezjańskiej, zbudowanej poprzez wyodrębnienia
podwymiarów poczucia koherencji oraz fasad
reprezentujących różne aspekty reagowania na
bodźce. W ramach podwymiarów wyodrębnione
zostało poczucie zrozumiałości, zaradności i
sensowności (E1-3), zaś w obrębie fasad: modalność
bodźca (A1-3: instrumentalny, poznawczy i
afektywny), źródło bodźca (B1-3: wewnętrzne,
zewnętrzne i wewnętrzno- zewnętrzne), stawiany
jednostce wymóg (C1-3: konkretny, rozproszony i
abstrakcyjny) oraz czas reakcji (D1-3: przeszła,
teraźniejsza i przyszła). Określona kombinacja
złożona z elementów składowych każdej fasady oraz
podwymiaru stanowiła profil, ułatwiający
generowanie pozycji.

Składniki definicyjne

Przykładowo, pytanie „Nawet ludzie o silnym
charakterze czasami czują się przegrani w pewnych
sytuacjach. Jak często w przeszłości tak się czułeś?”
(Anotonovsky, 1995, s. 83) zostało zbudowane przez
operacjonalizację profilu: A3, B1, C3, D1 i E2
(bodziec afektywny, pochodzenia wewnętrznego, o
wymaganiach abstrakcyjnych, odnoszący się do
przeszłości i odwołujący się do poczucia
zaradności). Dla całego konstruktu dało to
możliwość stworzenia 243 pozycji, praktycznie
pokrywających cały zakres jego treści oraz
jednocześnie nie duplikujących się wzajemnie.

Etap II

Określenie specyfiki konstruktu (nie
tylko aspekt zbieżny ale i różnicowy),
także poprzez hipotezy dotyczące
relacji do innych konstruktów.
Procedura „mocnej walidacji” – inne
narzędzia lub kryteria wprowadzone
do badania i analizy danych, ale nie
tylko zbieżne, ale i zwłaszcza
różnicowe.

Etap III-IV

Etap III - generowanie wskaźników
będących deskrypcją cech
psychologicznych.
Etap IV - zapisywanie pozycji
testowych (rodzaj pozycji,
zachowania, format odpowiedzi) i
ocena ich własności formalnych.

Pozycja testowa - definicja

Pozycja testowa

to sformalizowany

wskaźnik danej cechy
psychologicznej, a więc zdanie
(twierdzenie lub pytanie) opisujące
określone zachowanie (lub zadanie
wyzwalające określone zachowanie)
oraz skala rejestrująca to zachowanie
(opcje odpowiedzi o określonym
formacie oraz reguła przekształcania
odpowiedzi w wynik liczbowy).

Tworzenie pozycji

Proces tworzenia pozycji:
Generowanie pozycji - poszukiwanie
takich zachowań i sytuacji, które występują
w życiu codziennym określonej grupy osób
badanych - wymaga wyrażenia wskaźników
teoretycznych w „języku” naturalnych
zachowań i sytuacji.
Zapisywanie pozycji - wymaga
przełożenia terminów psychologicznych na
język naturalny, a więc wyrażenia pozycji w
języku, którym posługują się osoby badane.

Decyzje wstępne

Decyzje wstępne:
Wybór procedury odpowiadania
oraz formy pozycji
kwestionariuszowych (wybieranie
dowolnej liczby pozycji lub
ograniczeniu wyboru do opcji
stwierdzenia albo opcji odpowiedzi).
Wybór rodzaju procedury: spiralna
albo piramidowa.

Generowanie pozycji

Źródła pozycji:
Zapożyczenia z innych narzędzi
(MMPI lub 16 PF, testy zdolności –
typowe dla strategii zewnętrznej).
Poszukiwanie „naturalnych”
banków pozycji (zasoby słownikowe -
listy przymiotnikowe, testy zdolności
– typowe dla strategii indukcyjnej).

Generowanie pozycji

Źródła pozycji:
Tworzenie nowych pozycji przez
profesjonalistów lub
nieprofesjonalistów (typowe dla
strategii teoretycznej lub połączonej
– teoretyczno-indukcyjnej czy
kryterialnej (ważna jest trafność
treściowa lub prototypowość).

Generowanie pozycji

Nowe pozycje:
Odpowiedniość do badanego
konstruktu (trafność treściowa);
Reprezentatywność dla zachowania
osób badanych (proces społeczny
generowania wskaźników – eliminacja
obciążenia demograficznego; analiza
prototypowości ujmuje oba aspekty).

Ocena trafności treściowej

lub typowości pozycji

Procedura analizy:
Tworzenie wskaźników;
Kwalifikowanie do konstruktów;
Ocena wskaźników na skalach ocen;
Analiza psychometryczna i
walidacja procedury (muszą być
możliwe do uzyskania korelacje ocen
ze wskaźnikami psychometrycznymi).

Zapisywanie pozycji

Wymagania:
Uwzględnianie reguł formalnych w
procesie zapisywania pozycji;
Sprawdzenie uzyskanego efektu w
tzw. analizach formalnych własności
pozycji (analizy itemmetryczne).

Zapisywanie pozycji

Konsekwencje:
Zakłócenie warunku standaryzacji –
zmienność inter- i intraindywidualna
interpretacji treści pozycji;
Uruchomienie stylu odpowiadania;
Udzielanie odpowiedzi
„niezgodnych” z intencjami
(niespójnych);
Pogorszenie charakterystyki
psychometrycznej pozycji.

Własności formalne pozycji

Model Angleitnera i wsp. (1986):
Zrozumiałość
Niejasność
Ogólność (abstrakcyjność)
Dostępność w osobistym
doświadczeniu (możliwość
odniesienia do „ja”)
Obciążenie czynnikami
zniekształcającymi, np. aprobatą
społeczną.

Zrozumiałość

Długość pozycji (liczba zdań, słów,
itd.), ale unikanie telegraficznej
skrótowości.
Złożoność gramatyczna (forma
gramatyczna pozycji, np. negacja,
strona bierna oraz komplikacja
pozycji w postaci zdań złożonych, ze
względu na tryb złożenia, np. w
zdaniach podrzędnie czy nadrzędnie
złożonych).

Zrozumiałość

Poprawność gramatyczna - błędy
językowe oraz prostota - dostępność
użytych pojęć.
Wyrażenie zdań w pierwszej osobie;
Respektowanie obyczajów
językowych oraz zasad językowych,
np. form obocznych dla płci, ale bez
żargonu.

Zalecenia

Zapisywanie pozycji zgodnie z
regułami.
Konsultacja językoznawcy.
Analizy itemmetryczne – ocena
„zrozumiałości” pozycji.

Niejasność – wieloznaczność

interpretacyjna

Niejasność – możliwość przypisania
wielu różnych znaczeń pozycji -
interpretowania jej treści na wiele
sposobów, z których każdy jest
poprawny językowo i dopuszczalny z
punktu widzenia formy gramatycznej.

Niejasność

Źródła:
zbyt duża ogólność i abstrakcyjność
użytych pojęć;
czynniki lingwistyczne, wynikające z
formy gramatycznej zdania, np.
negacji, jego złożoności
gramatycznej czy błędów, np.
interpunkcyjnych, a zwłaszcza
zapisanie pozycji w formie zadania
złożonego, którego zdania proste nie
tworzą koniunkcji i mogą wymagać
odrębnej odpowiedzi.

Zalecenia

Zapisywanie w formie pozycji
konkretnych.
Grupowa analiza znaczenia treści
twierdzeń oraz ustalanie na drodze
dyskusji ich ostatecznej i bardziej
jednoznacznej formy.
Analiza znaczenia afirmacji oraz
negacji treści pozycji dla możliwości
zbadania określonej cechy.
Analizy itemmetryczne.

Ogólność-abstrakcyjność

Ogólność wynika z abstrakcyjności
pojęć użytych do opisu zachowania,
sytuacji czy cech osobowych. Pozycja
ogólna zakłada konieczność
integracji informacji, uzupełniania jej
przez konkluzje, uogólniania
zachowań z różnych sytuacji czy
dokonania porównań z
niespecyficznymi standardami.

Dostępność w doświadczeniu

- zalecenia

Procedura analizy typowości (także
przy adaptacji kulturowej).
Proces społeczny tworzenia pozycji.
Odwołanie do „ja” – zdania w
pierwszej osobie.
Analizy itemmetryczne.

Analizy itemmetryczne

Identyfikacja pozycji źle
sformułowanych i ich poprawienie
albo usunięcie z puli.

Oceny na skalach ocen albo
wskazanie pozycji wadliwych.

Brak możliwości zbudowania pozycji
doskonałej, ale pozycje wadliwe
skutkują pogorszeniem
charakterystyki psychometrycznej.

Opcje odpowiedzi

Problem opcji centralnej w formie
„nie wiem” , (?), „tak i nie”.

- Słaby status opcji centralnej :

1). odpowiedź osoby badanej oznacza, że jej
zachowanie zależy od sytuacji;
2). odpowiedź osoby badanej wynika z trudności w
ocenie własnego zachowania;
3). odpowiedź osoby badanej wskazuje, że nie
potrafiła ona jednoznacznie rozkodować treści
pozycji (pozycja jest niejasna);

Opcje odpowiedzi

4). odpowiedź osoby badanej wskazuje, że
faktycznie ma przeciętne nasilenie cechy.

- Dwumodalne rozkłady odpowiedzi.

Format może być nieparzysty, ale
opcja pośrednia musi wskazywać na
umiarkowanie nasilenie cechy.

Opcje odpowiedzi

Szerokość formatu:
wielokategorialne - dwukategorialne.

- Wady formatów dwukategorialnych:

1). Zmuszają do udzielenia zdecydowanej
odpowiedzi.
2). Nie gwarantują odpowiedniego zróżnicowania
odpowiedzi.

- Wady formatów wielokategorialnych:
1). Są trudne poznawczo, zwłaszcza dla o.b. gorzej
wykształconych.
2). Pozorne zróżnicowanie – tendencje do zawężania
formatu.

Optymalna szerokość

formatu

„Magiczna” liczba Millera – górna
granica:
7 + 2 (5 – 9)

Ogółem: 4 - 7 opcji

Osoby badane o większych
zdolnościach:
5 – 7

Osoby badane o mniejszych
zdolnościach:
2 – 5

Inne aspekty formatu

Zakotwiczenie skali: niemalże
wielkie kwantyfikatory.

Kierunek zakotwiczenia:
negatywny-pozytywny.

Wartości liczbowe wtórne
(podstawowe określenia słowne).

Ujednolicone dla wszystkich pozycji
(także w skali kontrolnej).

Etap VI - ważenie pozycji lub

opcji odpowiedzi

Wagi zróżnicowane – krótkie
narzędzia, pozycje bardzo
zróżnicowane pod względem
charakterystyki psychometrycznej,
komplikacja obliczania wyniku
końcowego, wagi empiryczne, a nie -
teoretyczne.

Wagi pozycji równe oraz liniowo
rosnące wagi odpowiedzi
(zróżnicowanie wkładu pozycji do
wyniku końcowego).

Etap VII

Etap VII - przygotowanie testu do

badań: przyjęcie nazwy testu,

zaopatrzenie go w instrukcję oraz

wprowadzenie losowej kolejności

pozycji w inwentarzach lub

uporządkowania ich według stopnia

trudności (wybór procedury

badania);

Etap VIII – badania i analiza

psychometryczna

Cel - uzyskanie finalnej wersji

inwentarza: przeprowadzenie badań

listą pozycji i analiza

psychometryczna danych.

Przebieg badań – te same warunki i

to samo narzędzie co w badaniach

docelowych.

Badania

Dobór próby:

Maksymalne zróżnicowanie

demograficzne (płeć, wiek,

wykształcenie, zawód, miejsce

zamieszkania, itp.).

Duża liczebność grupy (mnożnik 5 -

10 osób badanych na jedną pozycję

testową -„psychometria nie toleruje

małych prób”) – minimum 400-500

o.b.

Podział na grupy losowe: walidacja

krzyżowa.

Przygotowanie do analizy

danych

Kodowanie danych – odpowiedzi

o.b.

Braki danych – bez korekty w fazie

wstępnej analizy psychometrycznej.

Braki danych - skale końcowe -

uzupełnianie przez średnią dla danej

osoby z pozostałych pozycji (inne:

średnia w skali lub losowe).

Dyskwalifikacja protokołów z

licznymi brakami danych – kryteria

(5%).

Analiza psychometryczna

Kierunek: od podwymiarów do skal.

Walidacja krzyżowa.

Walidacja demograficzna (uwaga:
niwelowanie różnic
demograficznych).

„Mocna walidacja” – korygowanie
składu pozycji w aspekcie zbieżnym
lub różnicowym.

Opracowanie wersji końcowej skal.

Analiza pozycji i pojęcie

mocy dyskryminacynej

Analiza pozycji - rodzaj analizy
psychometrycznej, który obejmuje
wskaźnik

trudności

pozycji,

moc

dyskryminacyjną

oraz

trafność

zewnętrzną

pozycji).

Moc dyskryminacyjna

- wskaźnik

stopnia, w jakim pozycja mierzy
cechę, którą mierzy cały test
(oceniana poprzez korelację pozycja-
skala).

Pojęcie trudności i trafności

zewnętrznej pozycji

Trudność

pozycji - proporcja

odpowiedzi zgodnych z kluczem
(średnia pozycji w relacji do
możliwego maksymalnie wysokiego
wyniku).

Trafność zewnętrzna

pozycji -

wskaźnik stopnia, w jakim pozycja
mierzy kryterium pozatestowe
(oceniana poprzez korelację pozycja-
kryterium).

Miary mocy

dyskryminacyjnej

Współczynnik korelacji dwuseryjnej
Współczynnik korelacji punktowo-
dwuseryjnej
Współczynnik korelacji punktowo-
czteropolowej
Skorygowany współczynnik
korelacji pozycja-skala

Współczynnik korelacji

dwuseryjnej

- M

)

---------------

bis

= -----------------------

(p q)

--------

Współczynnik korelacji

dwuseryjnej

gdzie M

- to średnia wyników w skali tych

osób, które odpowiedziały na daną pozycję
zgodnie z kluczem, M

- to średnia wyników

w skali tych osób, które odpowiedziały na
daną pozycję niezgodnie z kluczem, S -
odchylenie standardowe wyników w całym
teście, p - to proporcja tych osób, które
odpowiedziały na daną pozycję zgodnie z
kluczem, q - to proporcja tych osób, które
odpowiedziały na daną pozycję niezgodnie
z kluczem, zaś y - to rzędna rozkładu
normalnego odpowiadająca proporcji p.

Współczynnik korelacji

-punktowo dwuseryjnej

- M

)

----------------

p-bis

= -------------------

 (p q)

Współczynnik korelacji

punktowo-dwuseryjnej

gdzie M

- to średnia wyników w skali tych

osób, które odpowiedziały na daną pozycję
zgodnie z kluczem, M

- to średnia wyników

Współczynnik korelacji

punktowo-czteropolowej

(phi)

- f

phi = ------------
 (p q)

Współczynnik korelacji

punktowo-czteropolowej

gdzie f

- to proporcja osób w górnej

połowie próby, które odpowiedziały
na daną pozycję zgodnie z kluczem, f

- to proporcja osób w dolnej połowie
próby, które odpowiedziały na daną
pozycję zgodnie z kluczem, p - to
proporcja osób w całej próbie, które
odpowiedziały na daną pozycję
zgodnie z kluczem, q - to proporcja
tych osób, które odpowiedziały na
daną pozycję niezgodnie z kluczem.

Miary trafności zewnętrznej

pozycji oraz treści

czynnikowej

Trafność zewnętrzna - korelacja z
kryterium (r-Pearsona albo korelacje
stosowane do oceny mocy
dyskryminacyjnej)

Analiza czynnikowa pozycji - ładunek
czynnikowy (korelacja pozycji z
czynnikiem) oraz wskaźniki
różnicowe:

= F

- (F

+ F

+ ... + F

)

Miary trafności zewnętrznej

pozycji oraz treści

czynnikowej

gdzie W

- wynik różnicowy, F

ładunek na odpowiadającym pozycji
("własnym") czynniku, zaś F

, F

- ładunki na innych czynnikach (od

czynnika "A" do "Z").

Teoria odpowiadania na

pozycje testowe - założenia

Odpowiedzi osoby badanej są

zmiennymi obserwowalnymi,
uwarunkowanymi przez cechę -
zmienną latentną;

odpowiedzi na poszczególne pozycje są

statystycznie niezależnie - ich
skorelowanie wynika z cechy;

związek między rozwiązaniem pozycji a

cechą może być opisany przez „krzywą
charakterystyczną pozycji”

Parametry „krzywej

charakterystycznej”

Parametr „trudności”
Parametr mocy dyskryminacyjnej
Parametr „zgadywania”
Parametr „nieuważności”

Zwykle są stosowane model dwu-

parametryczne (wymagają

zastosowania nieliniowej regresji)

0,2

0,4

0,6

0,8

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Standaryzowany wynik w ca³ym teœcie (nasilenie mierzonej cechy)

i¹

Rycina 16. „Krzywa

charakterystyczna” pozycji

testowej

Rycina 17. Różne formy „krzywej

charakterystycznej” pozycji

testowej

0,2

0,4

0,6

0,8

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

Wynik w ca³ym teœcie

i¹

0,2

0,4

0,6

0,8

Standaryzowany wynik w całym teście (nasilenie mierzonej cechy)

ią

Rycina 17a. „Krzywa

charakterystyczna” pozycji testowej

nr 35 ze skali REM inwentarza FCZ-KT

0,2

0,4

0,6

0,8

Standaryzowany wynik w całym teście (nasilenie mierzonej cechy)

ią

Rycina 17b. „Krzywa

charakterystyczna” pozycji testowej
nr 102 ze skali REM inwentarza FCZ-

Etap IX

Etap IX – analizy weryfikacyjne
finalnej wersji inwentarza: rzetelność
i trafność (te same oraz inne
aspekty).

Weryfikacja – bo inna skala (długość,
kompozycja pozycji).

Analiza trafności i

rzetelności pomiaru

Zgodność wewnętrzna i stabilność
czasowa.

Różne aspekty trafności – zbieżna i
różnicowa.

Te same parametry w kilku grupach
– stabilność (niezmienniczość)
grupowa.

Etap X

Etap X – normalizacja wyników testu
(skale standardowe o rozkładzie
normalnym, skale rangowe, punkty
odsiewowe wraz z obszarem
niepewności diagnozy).

Etap X

Rodzaje norm:
(A) normy ogólne bez podziału ze względu na żadną
ze zmiennych demograficznych,
(B) normy dla danej kategorii zmiennej
demograficznej, ale bez podziału ze względu na inne
zmienne (np. dla wszystkich kobiet, bez podziału na
wiek),
(C) normy dla określonej kategorii kolejnej zmiennej
demograficznej, bez podziału na inne zmienne (np.
dla osób o danym wieku, bez podziału na płeć), itd.
(D) normy z zastosowaniem wszystkich zmiennych
demograficznych.

Kwestie specyficzne norm

Badania praktyczne a naukowe
(normy A).

Wyznaczenie SBP oraz PU dla
wyników znormalizowanych.

Aktualizacja norm – normy
kroczące.

Aktualizacja norm – najdalej po 10
latach.

Etap XI - XII

Etap XI - publikacja testu.

Etap XII - rewizja testu (po
maksimum 25 latach albo wcześniej
po stwierdzeniu ewidentnych wad
diagnostycznych).

Wykład 11

CZYNNIKI

ZNIEKSZTAŁCAJĄCE WYNIKI

TESTOWE

Czynniki zniekształcające

wyniki testowe

a). zgadywanie.
b). tendencja do udzielania
odpowiedzi społecznie aprobowanych
albo społecznie nie aprobowanych:
- tendencja do dysymulowania
(aprobata społeczna),

-tendencja do symulowania;
c). style odpowiadania

Style odpowiadania

Style odpowiadania - tendencja
osoby badanej do wybierania
określonej opcji odpowiedzi
niezależnie od treści pozycji
kwestionariuszowej: tendencja do
zgadzania się albo zaprzeczania,
udzielania odpowiedzi ekstremalnych
albo centralnych (pośrednich),
udzielania odpowiedzi nieuważnych
lub niekonsekwentnych,

Style odpowiadania

losowych (przypadkowych),
niezdecydowanych (opcje „?” lub
opuszczenia odpowiedzi),
produktywnych, impulsywnych,
pozornie oryginalnych,
konwencjonalnych oraz lateralizacji
(style graficzne).

Style odpowiadania

Konieczne jest rozróżnienie tendencji
ogólnej (podatność narzędzia lub
procedury badania) oraz różnic
indywidualnych w stosowaniu stylu –
skale kontrolne badają różnice
indywidualne, wyjątkowo mogą być
zastosowane do analizy sytuacji
badania.

Źródła stylów odpowiadania

Brak odpowiedniej motywacji osoby
badanej do wzięcia udziału w
badaniach lub poczucie zagrożenia
badaniem - styl odpowiadania wynika
z chęci ukrycia faktycznego obrazu
osobowości w „szumie
informacyjnym” odpowiedzi.
Własności pozycji oraz zastosowane
opcje odpowiedzi - niezrozumiałość
oraz niejasność pozycji oraz
nieadekwatność zastosowanego
formatu odpowiedzi.

Zalecenia

Odpowiednie sformułowanie
językowe pozycji oraz właściwy
format odpowiedzi (eliminowanie
odpowiedzi pośrednich,
dostosowanie formatu do preferencji
osób badanych).
Zrównoważenie skali pod względem
klucza odpowiedzi (niezbędne do
zbudowania skal kontrolnych).

Dysymulowanie

Dysymulowanie - tendencja osoby
badanej do przedstawiania się w
nieprawdziwie korzystnym świetle,
która wiązana jest ze zmienną
aprobaty społecznej (tendencją
osoby badanej do kierowania się
społecznym wartościowaniem
zachowania przy odpowiadaniu, co
prowadzi do zaprzeczania posiadania
cech społecznie niepożądanych oraz
przypisywania sobie cech społecznie
pożądanych).

Aprobata społeczna

Aprobata społeczna jako

styl

odpowiadania

(czy inaczej postawa

wobec badania) to tendencja
jednostki do kierowania się przy
odpowiadaniu nie tyle faktycznym
zachowaniem, czy treścią pytania,
ale społeczną oceną, jaką pociąga za
sobą dana odpowiedź.

Tendencja do dysymulowania

i aprobata społeczna c.d.

Aprobata jako

cecha

to tendencja

podmiotu do takiego modulowania

zachowania (każdego - testowego,

jak i realnego, pozatestowego), by

było ono zgodne ze społecznym

wartościowaniem - normami

społecznymi, akceptacją otoczenia.

Zalecenia – unikanie

obciążenia

1). Pozycje neutralne.
2). Pozycje subtelne pod względem
trafności fasadowej.
3). Specjalne formułowanie językowe
pozycji – tzw. zdania zmodalizowane,
unikanie dużych kwantyfikatorów
czasu.
4). Zmiana procedury badania -
komputeryzacja lub wykorzystanie
szacowania cech.

Zalecenia – identyfikacja

pozycji obciążonych

5). Aprobata społeczna jako zmienna
moderacyjna.
6). Analiza podatności pozycji przez
manipulowanie instrukcją („dobry”
profil).
7). Analizy itemmetryczne.
8). Korelacje pozycji ze skalami
mierzącymi aprobatę społeczną.
Identyfikacja pozycji obciążonych –
usunięcie albo przeformułowanie.

Metody kontroli

(eliminowania) wpływu

aprobaty

Na etapie stosowania

kwestionariusza:

8). Instrukcja "szczerości",
9). Zmiana procedury badania -
komputeryzacja testu,

Metody kontroli

(eliminowania) wpływu

aprobaty

10). Skala kontrolna aprobaty
społecznej, na podstawie której
odrzuca się respondentów o
wysokich wynikach lub koryguje
wyniki skal treściowych przez
doliczanie tzw. poprawek
korekcyjnych,
11). Wprowadzenie do diagnozy
psychologicznej szacowania cech.

Dysymulacja i symulacja

Konieczne jest rozróżnienie tendencji
ogólnej (podatność narzędzia lub
procedury badania) oraz różnic
indywidualnych w dysymulowaniu czy
symulowaniu – skale kontrolne
badają różnice indywidualne,
wyjątkowo mogą być zastosowane do
analizy sytuacji badania.

Symulowanie

Symulowanie – tendencja osoby
badanej do udzielania odpowiedzi,
bezpodstawnie przedstawiających
osobę badaną w niekorzystnym
świetle, np. wskazujących na
istnienie określonych zaburzeń
zachowania czy niepożądanych cech
osobowości.

Tendencja do symulowania

(c.d.)

Tendencja do symulowania jest
zarówno

postawą

wobec badania,

(styl odpowiadania, np."super-
szczerość"), jak trwałym syndromem

cech

osobowości, związanym z

tendencjami agrawacyjnymi,
obniżoną samooceną,
ekscentrycznością i zaburzeniami
psychicznymi. Kontrolowanie
tendencji do symulacji umożliwiają
specjalne skale kontrolne.

Symulowanie



Zagrożenie pozytywną oceną,

prowadzącą do wzbudzenia

motywacji do unikania i dążenia do

uzyskania diagnozy negatywnej.



Pytania o nietypowe myśli,

pragnienia, odczucia i wrażenia (wraz

ze swoistym przejaskrawieniem czy

udziwnieniem form zachowania) oraz

zachowania stanowiące

przekroczenie norm moralnych.

Zalecenia – unikanie

obciążenia



Unikanie pytań o zachowania

regulowane społecznymi normami.



Unikanie emfazy w formułowaniu

treści pozycji.

Zalecenia – identyfikacja

pozycji obciążonych

Tendencja do symulowania jako
zmienna moderacyjna.

Analiza podatności pozycji przez
manipulowanie instrukcją („zły”
profil).

Analizy itemmetryczne.

Korelacje pozycji ze skalami
mierzącymi tendencję do
dysymulowania.
Identyfikacja pozycji obciążonych –
usunięcie albo przeformułowanie.

Skale kontrolne

Funkcja skal kontrolnych polega na

diagnozowaniu indywidualnych
stylów odpowiadania na pozycje
kwestionariuszowe, które są
ekspresją postaw wobec badania
inwentarzem osobowości. Postawy
te nie wiążą się treściowo z
badanymi cechami osobowości, ale
powodują zniekształcenie
uzyskiwanych wyników skal.

Skale kontrolne

Czynniki te mogą być zatem

traktowane jako tzw. zmienne
„tłumiące” lub moderujące. Będą
one zatem prowadziły do obniżenia
wartości diagnostycznej inwentarza
- trafności pomiaru, a niekiedy
także i rzetelności pomiaru.

Skale kontrolne

Rodzaje skal kontrolnych:
 Dysymulacji, symulacji albo

dysymulacji-symulacji (cecha albo
styl albo cecha-styl, zależnie od
sytuacji) – specjalna motywacja
o.b.;

 Skale do badania stylu

odpowiadania – brak motywacji o.b.
(odpowiedzi losowe, potakujące,
itd.).

Skale kontrolne MMPI

Skala L była przeznaczona do diagnozowania

dysymulacji i została zbudowana z pozycji
opisujących zachowania społecznie pożądane, ale
występujące rzadko u przeciętnej osoby. Uważa
się, że diagnozuje ona tzw. naiwną tendencję do
dysymulowania. Skala K była przeznaczona do
diagnozowania tendencji do przedstawiania
„nadmiernie pozytywnego” obrazu siebie, ale
zbudowano ją kryterialnie, wyodrębniając pozycje
różnicujące grupę osób zdrowych oraz osób
chorych o „normalnym” profilu, które
podejrzewano zatem o dysymulację. Obu skalom
przypisywano funkcję zmiennych tłumiących, a
zatem prowadzących do uzyskania przez osobę
nieprawdziwie „normalnego” profilu.

Skale kontrolne MMPI

Skala F miała wykrywać tendencję do udzielania

odpowiedzi nieuważnych i nieprzemyślanych.
Wybrano do niej pozycje, które były bardzo
rzadko potwierdzane w próbie normalizacyjnej.
Pozycje te miały jednak charakter kliniczny i
opisywały niezwykłe zachowania, z których każde
stawiało osobę badaną w niekorzystnym świetle.
Faktycznie zatem skala nieuważności zaczęła
pełnić rolę skali symulacji. Ostatnia skala badała
tendencję do wybierania odpowiedzi pośrednich
(„?”, czyli odpowiedzi „nie potrafię powiedzieć”).
Jej wyniki obliczono jako liczbę odpowiedzi
pośrednich na wszystkie pozycje MMPI. Miała ona
diagnozować styl odpowiadania, wynikający z
nadmiernej ostrożności czy niezdecydowania, a
prowadzący do obniżenia wyników skal
klinicznych.

Skale kontrolne MMPI-II

II wersja MMPI zawiera aż 9 skal kontrolnych -

obok czterech tradycyjnych skal kontrolnych („?”,
L, F i K), wprowadzono aż pięć dalszych: VRIN,
TRIN, F(b), F(p) oraz S. Skala VRIN (Variable
Response Inconsistency) pozwala na ocenę
zmienności odpowiedzi na zbiór, opozycyjnych w
treści, par pozycji – wysoki wynik w tej skali,
oznaczający udzielenie tej samej odpowiedzi na
oba stwierdzenia z każdej pary, pozwala na ocenę
niekonsekwencji odpowiadania. Z kolei skala TRIN
(True Response Inconsistency) bazuje na liczbie
odpowiedzi konfirmacyjnych na oba stwierdzenia
pary i informuje o tendencji do zgadzania się,
podczas gdy liczba odpowiedzi negujących - o
tendencji do zaprzeczania.

Skale kontrolne MMPI-II

Skala F(b) (Inpatient Psychopathology Scale)

została zbudowana na końcowych pozycjach
inwentarza MMPI-2 i – jako wariant skali F -
pozwala na ocenę losowości odpowiedzi,
następującej w efekcie zmęczenia i utraty
motywacji, przy wypełnianiu tego długiego
inwentarza. Z kolei skala F(p) (Inpatient
Psychopathology Scale) bada tendencję do
symulowania u osób, wykazujących zaburzenia
psychiczne. Wreszcie skala S (Superlative Self-
Presentation Scale) pozwala na ocenę bardziej
wyrafinowanej formy dysymulowania niż
tradycyjnie stosowana skala K wraz z pięcioma
szczegółowymi komponentami tej tendencji.

Skale kontrolne 16 PF-V

W 5. edycji 16 PF wprowadzono trzy skale

kontrolne: aprobaty społecznej (w wersji skali do
badania „sprawiania wrażenia”), tendencji do
„zgadzania się” oraz tendencji do udzielania
„odpowiedzi przypadkowych” (ang. infrequency).
Tendencja do udzielania „odpowiedzi
przypadkowych” („strzelania”) jest diagnozowana
na podstawie wybierania przez osobę badaną
szczególnie rzadko zaznaczanych w całej próbie
opcji odpowiedzi (z trójstopniowej skali) na pulę
pozycji treściowych (zliczana jest suma
wybranych takich opcji w puli różnorodnych
pozycji). Tendencja do „zgadzania się” jest
oceniana na podstawie wybierania przez osobę
badaną odpowiedzi potwierdzających na pozycje
wybrane z różnych skal treściowych (zliczana jest
suma odpowiedzi potakujących na pulę
zróżnicowanych treściowo pozycji).

Skale kontrolne 16 PF-V

Skala aprobaty zawiera pozycje, które nie są

włączane do skal treściowych i diagnozuje
uogólnioną tendencję do kierowania się aprobatą
społeczną przy odpowiadaniu. Godnym uwagi jest
także fakt, że w 5. edycji 16PF zmieniono nieco
status skali rozumowania (B). Pozycje z tej skali
zamieszczone są na końcu inwentarza, a sama
skala staje się do pewnego stopnia skalą
kontrolną. Służy ona nadal do oceny zdolności i
jej wyniki są uwzględniane w profilu cech, tak jak
w wersji pierwotnej. Jednocześnie jednak -
poprzez badanie sprawności rozumowania na
końcu kwestionariusza - informuje o zasobach
uwagi, którymi dysponowała osoba badana po
męczącej i długotrwałej pracy, związanej z
wypełnieniem 16PF.

Zgadywanie - definicja

Zgadywanie

jest specyficznym

czynnikiem zniekształcającym wyniki
testów zdolności, związanym z
udzielaniem odpowiedzi losowych,
gdy badani nie znają właściwych
odpowiedzi

(„jak nie wiem, to będę

strzelał”)

Kontrolowanie zgadywania

a). poprzez instrukcję testową:
wyrównywanie tendencji do
zgadywania (zachęcanie do
zgadywania) lub eliminowanie
zgadywania (informacja o stosowaniu
korekty wyników);

Kontrolowanie zgadywania

b). zastosowanie statystycznej
poprawki na zgadywanie:

                 B
K = P -  ---------
              m - 1

gdzie K - liczba odpowiedzi bez
zgadywania, P - liczba poprawnych
odpowiedzi w teście, B - liczba błędnych
odpowiedzi, m - liczba opcji odpowiedzi w
zadaniach testowych.

Wykład 12

STRATEGIE KULTUROWEJ

ADAPTACJI TESTÓW

Kulturowa adaptacji testów

Kulturowa adaptacja testu

przystosowanie wersji oryginalnej

testu do innej specyfiki kulturowej.

Adaptacja testu oznacza konieczność

wprowadzenia specjalnych procedur

przystosowujących (decentrujących -

uniwersalizujących lub centrujących

na kulturze adaptacji), w przeciwnym

razie stosowanie takiego narzędzia

prowadzi nieuchronnie do

stronniczości lub faworyzacji

kulturowej.

Aspekty równoważności

kulturowo adaptowanych

testów

Aspekty równoważności kulturowej
testu:

a). równoważność teorii
psychologicznych,
b). równoważność wymiarów
psychologicznych
c). równoważność pojęć
psychologicznych,
d). równoważność wskaźników cech -
zachowań,
e). równoważność procedury
badania.

Kryteria równoważności

kulturowowo adaptowanych

testów

Kryteria równoważności testu:

a). równoważność fasadowa (forma
testu),
b). równoważność psychometryczna
(wskaźniki dobroci pomiaru),
c). równoważność funkcjonalna
(równoważność psychologiczna),
d). wierność tłumaczenia,
e). wierność rekonstrukcji.

Strategie kulturowej adaptacji

testów

Transkrypcja
Translacja
Trawestacja
Parafraza
Rekonstrukcja

Trankskrypcja

Transkrypcja

- maksymalnie wierne

tłumaczenie oryginalnych pozycji
(założenie, że zarówno konstrukty,
jak i zachowania są uniwersalne czy
inaczej równoważne kulturowo).
Celem adaptacji jest dochowanie
wierności tłumaczenia oraz wierności
fasadowej testu. Adaptacje
transkrypcyjne są "niezręczne"
językowo i wykazują szereg wad
psychometrycznych.

Translacja

- wierne tłumaczenie

finalnej puli oryginalnych pozycji, ale
z możliwością wprowadzenia
niezbędnych modyfikacji językowych
(założenie, że konstrukty, jak i
zachowania są uniwersalne
kulturowo, ale nie są uniwersalne
pojęcia używane w danej kulturze do
opisu zachowania).

Trawestacja

- swobodne tłumaczenie

oryginału z wprowadzaniem wielu
modyfikacji, sugerowanych
względami językowymi i
psychologicznymi: treściowymi lub
psychometrycznymi (założenie, że
konstrukty psychologiczne są
uniwersalne, ale nie są uniwersalne
pojęcia

Trawestacja (c.d.)

używane w danej kulturze do opisu
zachowania i nie zawsze uniwersalne
są same zachowania - część
zachowań ma charakter emikalny).
Trawestacja prowadzi do uzyskania
dostosowanych do danej kultury
formy testu, ale może się on różnić
od oryginału.

Parafraza

- opracowanie nowego

narzędzia, dla którego inspiracją jest
test oryginalny. Pozycje oryginalne
są wykorzystywane tylko częściowo,
większość pozycji jest generowana
na bazie pozycji oryginalnych
(założenie, że konstrukty
psychologiczne są uniwersalne
kulturowo, ale z reguły nie są
uniwersalne zachowania - tylko część
z nich

Parafraza (c.d.)

ma charakter etikalny, tj.
równoważny kulturowo.
Parafraza jest bardzo czasochłonna,
ale prowadzi do uzyskania w pełni
dostosowanych do danej kultury
adaptacji testu.

Rekonstrukcja

- opracowanie

całkowicie nowego narzędzia, dla
którego inspiracją jest oryginalny
model teoretyczny i strategia
konstrukcji (założenie, że zachowania
z reguły nie są uniwersalne
kulturowo, ale możliwe że nie są
uniwersalne również konstrukty
psychologiczne).

Rekonstrukcja (c.d.)

Rekonstrukcja może prowadzić do
uzyskania innej niż oryginalna wersji
testu i jest najbardziej czasochłonną
strategią adaptacji, ale prowadzi do
uzyskania całkowicie dostosowanych
kulturowo wersji testu.

Adaptacja demograficzna

testów

Adaptacja demograficzna

przystosowanie testu
przeznaczonego do badania
określonej grupy do stosowania w
innej grupie demograficznej.
Adaptacja demograficzna testu, tak
jak adaptacja kulturowa, oznacza
konieczność wprowadzenia
specjalnych procedur
przystosowujących

Adaptacja demograficzna

testów

(decentrujących - uniwersalizujących
lub centrujących na kulturze danej
grupy), w przeciwnym razie
stosowanie testu prowadzi
nieuchronnie do stronniczości lub
faworyzacji demograficznej (np.
seksizmu).

Aspekty adaptacji

demograficznej testów

Płeć
Wiek
Niepełnosprawność
Rasa
Klasa społeczna (status społeczno-
ekonomiczny)?
Środowisko
Podkultura?

Wykład 13

NORMALIZACJA WYNIKÓW TESTU

Normy

Normy testowe są niezbędne dla

poprawnej interpretacji wyników
testu. Wynik surowy jest
nieinterpretowalny bez informacji o
wynikach, otrzymanych przez osoby
badane z odpowiedniej grupy
odniesienia. Są dwa rodzaje norm:
wyniki progowe (pomiędzy grupami
kontrastowymi) oraz normy
bazujące na rozkładzie wyników
testu (w grupie odniesienia –
normalizacyjnej).

Wyniki progowe

Wyniki progowe (punkty

odsiewowe) są stosowane w
podejściu zorientowanym na
trafność kryterialną. Celem tych
norm jest uzyskanie diagnozy
jakościowej – klasyfikacji osób
badanych do jednej z dwóch (czy
kilku) grup, skontrastowanych ze
względu na określone kryterium.
Punkty odsiewowe służą jako
norma dla wyników testu –
wskazują co oznacza wysoki i niski
wynik testu.

Ryc. 33. Grupy kontrastowe

oraz punkty odsiewowe

Punkt odsiewowy

Wynik progowy

Wynik progowy jest zazwyczaj

wyrażany w formie, przykładowo

„10/11” (najwyższy wynik w jednej

grupie/najniższy wynik w drugiej

grupie). Wynik progowy jest

uzyskiwany poprzez krzywoliniową

regresję jako punkt pozwalający na

najlepsze zróżnicowanie obu grup:

poniżej tego wyniku osoba badana

ma mniej niż 50% szans, że należy

do jednej grupy, zaś powyżej, że ma

powyżej 50% szans na

przynależność do drugiej grupy.

Ryc. 34. Krzywoliniowa relacja między wynikami

testu a prawdopodobieństwem przynależności do

danej „grupy kontrastowej”.

Wynik

progow

Wskaźniki trafności diagnozy

na podstawie progów

odsiewowych

Diagnoza bazująca na progach

odsiewowych powinna także być

poddana walidacji: odsetek

trafnych i błędnych diagnoz

powinien być obliczony oraz szereg

wskaźników trafności diagnozy

(wrażliwość, specyficzność,

pozytywna i negatywna wartość

predykcyjna oraz ogólny wskaźnik

błędnych klasyfikacji).

Rodzaje diagnoz

Wskaźniki te wylicza się na

podstawie liczby diagnoz

„prawdziwie negatywnych” (osoby

zdrowe zdiagnozowane jako

zdrowe), „prawdziwie

pozytywnych” (osoby chore

zdiagnozowane jako chore),

„fałszywie pozytywnych” (osoby

zdrowe zdiagnozowane jako chore)

oraz „fałszywie negatywnych”

(osoby chore zdiagnozowane jako

zdrowe).

Tabela 17. Rodzaje diagnoz kryterialnych

Diagnoza medyczna

„Zdrowy”

„Chory”

Wynik

Poniżej

progu

„A”

(diagnoza

fałszywie

pozytywna)

„B”

(diagnoza

prawdziwie

pozytywna)

testu

Powyżej

progu

„C”

(diagnoza

prawdziwie

negatywna)

„D”

(diagnoza

fałszywie

negatywna)

Rodzaje wskaźników

 Ogólny wskaźnik błędnych

klasyfikacji: liczba diagnoz

fałszywych w stosunku do ogólnej

liczby osób badanych (czyli

A+D/A+B+C+D);

Rodzaje wskaźników

 Wskaźnik specyficzności czy inaczej

swoistości: proporcja osób z

„dolnej” grupy kontrastowej

poprawnie zakwalifikowanych na

postawie wyników inwentarza do

ogółu osób z tej grupy, np. liczba

osób zdrowych trafnie ocenionych

jako zdrowe w stosunku do ogólnej

liczby zdrowych (czyli C/A+C);

Rodzaje wskaźników

 Wskaźnik wrażliwości czy inaczej

czułości: proporcja osób z „górnej”

grupy kontrastowej poprawnie

zakwalifikowanych na postawie

wyników inwentarza do ogółu osób

z tej grupy kontrastowej, np. liczba

osób chorych trafnie ocenionych

jako chore w stosunku do ogólnej

liczby osób chorych (czyli B/B+D);

Rodzaje wskaźników

 Wskaźnik pozytywnej wartości

predykcyjnej: proporcja osób z

„górnej” grupy kontrastowej

poprawnie zakwalifikowanych na

postawie wyników inwentarza do

ogółu osób zakwalifikowanych do

tej grupy na podstawie inwentarza,

np. liczba osób chorych trafnie

ocenionych jako chore w stosunku

do ogólnej liczby osób ocenionych

jako chore na podstawie inwentarza

(czyli B/A+B).

Rodzaje wskaźników

 Wskaźnik negatywnej wartości

predykcyjnej: proporcja osób z

„dolnej” grupy kontrastowej

poprawnie zakwalifikowanych na

postawie wyników inwentarza w

stosunku do ogółu osób

zakwalifikowanych do tej grupy na

podstawie inwentarza, np. liczba

osób zdrowych trafnie ocenionych

jako zdrowe w stosunku do ogólnej

liczby osób ocenionych jako zdrowe

na podstawie inwentarza (czyli

C/C+D).

Ocena wskaźników

Wskaźniki te wskazują w jakim

obszarze diagnozy test wykazuje

obniżoną trafność, np. może dobrze

diagnozować osoby zdrowe o

niskich wynikach, ale „mylić” się w

obszarze wyników wysokich,

typowych dla osób chorych (ale

uzyskiwanych często także przez

osoby zdrowe). Efekty te zależą od

charakterystyki rozkładu wyników

w obu grupach kryterialnych.

Ryc. 34. Odmienny rozkład

wyników w grupach

kontrastowych

0,25

0,5

-3 -2,5 -2 -1,5 -1 -0,5 0

0,5

1,5

2,5

Punkt odsiewowy

Konsekwencje zmiany progu

W celu poprawy danego wskaźnika

wyniki progowe można przesuwać

w stronę wysokich wyników testu

(obniżenie liczby diagnoz fałszywie

pozytywnych) lub w stronę

wyników niskich (obniżenie liczby

diagnoz fałszywie negatywnych).

Podjęcie takiej decyzji zależy od

konsekwencji błędu danego

rodzaju. Należy jednak pamiętać, że

w każdym wypadku pogarsza się

wtedy wskaźnik odwrotny.

Normy bazujące na

rozkładzie wyników testu

Celem norm opartych na rozkładzie

wyników w grupie normalizacyjnej

jest uzyskanie diagnozy ilościowej –

ocena intensywności mierzonej

cechy (jako własności różnicowej w

grupie odniesienia). Istnieją dwa

rodzaje norm: normy rangowe

(porządkowa skala pomiarowa) oraz

skale standaryzowane

(przedziałowa skala pomiarowa).

Normy rangowe: skala

centylowa

Skala centylowa jest wybierana,

gdy rozkład wyników testu znacznie

odbiega od rozkładu normalnego

(rozkład jest asymetryczny, ma

nieprawidłową gęstość i nie może

być przetransformowany w rozkład

normalny). Punktem odniesienia

(standardem wykonania testu) jest

mediana – centyle wskazują na

częstość uzyskania danego wyniku

w grupie normalizacyjnej.

Charakterystyka skali

centylowej

Rozkład po transformacji wyników surowych =
prostokątny („uskokowniony”)
Mediana = 50
Liczba jednostek skali = 101 centyli
Zakres = od 0 do 100 centyla
Skok skali = 1 centyl (1% wyników, poza centylami
krańcowymi - 0 oraz 100, które obejmują po 0,5%
obserwacji)

Zalety i wady skali

centylowej

Zaleta:

 Łatwość zrozumienia znaczenia

wyniku, zwłaszcza dla osób
badanych.

Wada:

 Centyle prowadzą do

nadszacowania różnic
interindywidualnych w obszarze
blisko średniej oraz
niedoszacowania zmienności na
krańcach rozkładu (zaburzają ocenę
faktycznej zmienności).

Skale standardowe bazujące

na rozkładzie normalnym

Normy wyników testu bazujące na

rozkładzie normalnym wymagają
transformacji wyników surowych na
skale standardowe. Skale te
umożliwiają osiągnięcie
zasadniczego celu pomiaru
psychologicznego: ilościowej oceny
na skali przedziałowej (wiele
kategorii wyników oraz równe
różnice między nimi dla całego
wymiaru).

Cel transformacji wyników

surowych na skale

standardowe

 Poprawna interpretacja wyniku

indywidualnego (ocena
intensywności cechy);

 Porównania różnic

intraindywidualnych w wynikach
testu (intensywność różnych cech u
jednej osoby badanej);

 Porównania różnic

interindywidualnych w wynikach
testu (intensywność danej cechy u
różnych osób badanych).

Rodzaje skal standardowych

a). Znormalizowana skala ciągła – jednostki
"z",
b). znormalizowane skale uskokowione:
     dzielące rozkład wg średniej
     (-) skala stenowa
     obejmujące wartość średniej
     (-) skala staninowa
     (-) skala tetronowa
     (-) skala wyników przeliczonych (WAIS-
R)
     (-) skala tenowa
     (-) skala dewiacyjnego ilorazu
inteligencji

Skala jednostek

znormalizowanych „z”

Rozkład po transformacji wyników surowych =
normalny („ciągły”)
Średnia = 0,0
Odchylenie standardowe = 1,0
Skok skali = praktycznie 0,01
Różnicowanie = dowolny zakres
Przeznaczenie = skala podstawowa, stanowiąca
punkt wyjścia do transformacji wyników surowych
na inne skale znormalizowane

Formuła transformacyjna

y = zS

+ M

gdzie y - wynik w znormalizowanej
skali standardowej, z -
znormalizowany wynik standardowy,
S

- odchylenie standardowe danej

skali standardowej, M

- średnia

wyników danej skali standardowej)

Skala stenowa

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 5,5 (między 5 a 6 stenem)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 10 stenów
Zakres = od 1 do 10 stena
Skok skali = 1 sten (0,5 odchylenia standardowego
jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2 do +2 jednostek
znormalizowanych „z” (steny krańcowe powyżej 2
S)
Przeznaczenie = różnicowanie w obrębie „normy”

Skala staninowa

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 5,0 (obejmuje średnią)
Odchylenie standardowe = 2,0
Liczba jednostek skali = 9 stanin
Zakres = od 1 do 9 stanina
Skok skali = 1 stanin (0,5 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -1,75 do +1,75
jednostek znormalizowanych „z” (staniny krańcowe
powyżej 1,75 S)
Przeznaczenie = różnicowanie w obrębie „normy”

Skala tetronowa

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 10,0 (obejmuje średnią)
Odchylenie standardowe = 4,0
Liczba jednostek skali = 21 tetronów
Zakres = od 0 do 20 tetrona
Skok skali = 1 tetron (0,25 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości od -2,325 do +2,325
jednostek znormalizowanych „z” (tetrony krańcowe
powyżej 2,325 S)
Przeznaczenie = różnicowanie w obrębie „normy” i
„patologii”

Skala tenowa

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 50 (obejmuje średnią)
Odchylenie standardowe = 10,0
Liczba jednostek skali = 100 tenów
Zakres = od 1 do 100 tena
Skok skali = 1 ten (0,1 odchylenia standardowego
jednostek znormalizowanych „z”)
Różnicowanie = wartości od -5 do +5 jednostek
znormalizowanych „z” (teny krańcowe powyżej 5 S)
Przeznaczenie = różnicowanie w obrębie „normy’ i
„patologii”

Skala dewiacyjnego ilorazu

inteligencji

Rozkład po transformacji wyników surowych =
normalny („uskokowiony”)
Średnia = 100,0 (obejmuje średnią)
Odchylenie standardowe = 15,0
Liczba jednostek skali = 200 jednostek II
Zakres = od 0 do 200 jednostek II
Skok skali = jednostka II (1/15 odchylenia
standardowego jednostek znormalizowanych „z”)
Różnicowanie = wartości praktycznie od -6 do +6
jednostek znormalizowanych „z” (jednostki
krańcowe powyżej 6 S)
Przeznaczenie = różnicowanie w obrębie „normy” i
„patologii”

Kryteria wyboru danej skali

normalizacyjnej

Kształt rozkładu wyników surowych
(reguła: rozkłady skośne - skale
prostokątne)
Liczba stopni skali w stosunku do zakresu
rozkładu wyników surowych (reguła: 1 do 2
lub 3)
Rzetelność pomiaru i wielkość
standardowego błędu pomiaru (reguła: gdy
SBP duże - raczej skala o mniejszej liczbie
wartości);
Przeznaczenie - różnicowanie w obrębie
„normy” czy „patologii” (reguła:
różnicowanie w obrębie „patologii” - skala
o większym zakresie)

Wynik
su-
rowy

Frek-

wencja

Frek-

wencja

skumiulo

wana

Frekwencja

skumulowana z

wiersza poniżej

+ 1/2 frekwencji

z danego

wiersza

Propor-

cja (p)

J ed-

nostka

“z”

2z + M

(M=5.0)

Wynik

sta-

ninowy

2,5

0,003

-2,801

-0,602

7,5

0,009

-2,385

0,230

14,0

0,017

-2,136

0,728

27,5

0,033

-1,845

1,310

48,5

0,058

-1,574

1,852

72,5

0,087

-1,363

2,274

110

98,0

0,118

-1,190

2,620

141

126,0

0,151

-1,034

2,932

178

160,0

0,192

-0,873

3,254

Tabela 18. Normy staninowe dla skali Reaktywności emocjonalnej

Inwentarza FCZ-KT (kobiety w wieku 15-19 lat; N=834).

216

197,5

0,237

-0,718

3,564

285

251,0

0,301

-0,523

3,954

341

313,5

0,376

-0,318

4,364

413

377,5

0,453

-0,121

4,758

483

448,5

0,538

0,093

5,186

560

522,0

0,626

0,319

5,638

541

601,0

0,721

0,583

6,166

698

670,0

0,803

0,851

6,702

754

726,5

0,871

1,128

7,256

799

776,5

0,931

1,483

7,966

821

810,5

0,972

1,897

8,794

834

828,0

0,993

2,412

9,824

Tabela 19 – c.d.

Wynik surowy

Stanin

0-3

4-5

6-8

9-11

12-13

14-15

16-17

19-20

Tabela 20. Tabela norm staninowych dla kobiet w wieku 15-19 lat.

Interpretacja nasilenia cechy

bazująca na staninach

 Staniny od 4 do 6 (przeciętne

nasilenie – wynik w normie);

 Staniny od 2 do 3 (niskie nasilenie)

oraz od 7 do 8 (wysokie nasilenie);

 Stanin 1 (bardzo niskie nasilenie)

oraz stanin 9 (bardzo wysokie
nasilenie).

Interpretacja wyników

różnicowych testu

Nasilenie cechy, wyrażonej w

wynikach testu jest proporcjonalne
do wielkości odbiegania go od
średniej (punktu odniesienia, czy
inaczej standardu wykonania) oraz
częstości (wynik częsty = typowy,
wynik rzadki = ekstremalny). Im
bardziej odchylony i rzadko
spotykany jest dany wynik, tym
większe (lub mniejsze) nasilenie
badanej cechy.

Kwestie specjalne norm

Normy generalne czy lokalne

(poradnictwo i dobór);

Aktualizacja norm i normy

„kroczące” (liczebność grupy
normalizacyjnej, trendy
uzyskiwanych wyników);

Normy dla wszystkich i odrębne

normy dla grup demograficznych
(kryteria – analiza demograficznej
stronniczości wyników testu).

Zagadnienie specjalne -

normy aktuarialne

Normy aktuarialne

normy, w które zostały
wbudowane dane
trafnościowe

Wykład 14

INTERPRETACJA WYNIKÓW

TESTOWYCH I ZASADY

KORZYSTANIA Z

PODRĘCZNIKÓW TESTOWYCH

Interpretacja wyników testu

 Interpretacja oznacza, że na

podstawie wyników testu
formułowane są wnioski
psychologiczne – wynikom testu
przypisywany jest sens
psychologiczny.

 Interpretacja wyników testu jest

ściśle związana z trafnością
pomiaru – odnosi się do trafności
teoretycznej i/lub trafności
kryterialnej.

Interpretacja wyników testu

 Interpretacja może dotyczyć opisu

zachowania osoby badanej
(struktury cech osobowości czy
zdolności intelektualnych) i/lub
przewidywania zachowania w
warunkach pozatestowych
(funkcjonowania w realnych
warunakch życiowych). Wszystkie
te wnioski (interpretacje) bazują na
danych otrzymanych w procesie
walidacji testu.

Interpretacja wyników testu

 Interpretacja może być trafna

jedynie jeśli nasilenie cechy zostało
prawidłowo oszacowane – oznacza
to, że punktem wyjścia diagnozy
psychologicznej jest ocena wyniku
prawdziwego osoby badanej
poprzez wyznaczenie
odpowiedniego przedziału ufności.

Rodzaje interpretacji

wyników testowych

Interpretacja kliniczna

Interpretacja statystyczna

Interpretacja kliniczna

Zakłada interpretację profilu

testowego na podstawie treści

psychologicznej poszczególnych skal i

agregację tej treści poprzez ustalenie

sensu danej konfiguracji cech.

Interpretacja kliniczna wiąże się z

idiograficznym podejściem do

diagnostyki psychologicznej i w jej

efekcie formułowane są wnioski raczej

jakościowe niż ilościowe, a jeśli

ilościowe - to są one mało precyzyjne.

Interpretacja statystyczna

Zakłada raczej mechaniczne łączenie

skal, poprzez tworzenie agregatów nie

tyle psychologicznych, ile

statystycznych, np. poprzez tworzenie

baterii testów predykcyjnych

określonego kryterium (stanu zdrowia

psychicznego, powodzenia zawodowego,

itp.). Dla każdego z tych wskaźników

możliwe jest określenie pewności

wnioskowania czy dokładności diagnozy.

Interpretacja statystyczna

wymaga sformalizowania procesu

wnioskowania na podstawie

uzyskanych danych. Wiąże się ona z

nomotetycznym podejściem do

diagnostyki psychologicznej i

dostarcza przede wszystkim

wyników ilościowych.

Interpretacja kliniczna a

interpretacja statystyczna

Predykcja zachowania jednostki jest

bardziej trafna przy podejściu
statystycznym niż klinicznym.
Podejście statystyczne jest jednak
krytykowane za mechaniczność
analizy danych i sprowadzenie udziału
psychologa w diagnozie do roli
“technika” rozdzielającego testy,
obliczającego ich

Interpretacja kliniczna a

interpretacja statystyczna

wyniki i odczytującego ich

znaczenie z tabel aktuarialnych. Z
tych względów postuluje się
łączenie obu podejść albo
akcentuje się konieczność
wypracowania nowych modeli
diagnostycznych.

Struktura podręcznika

testowego

prezentacja teoretycznych podstaw

testu;

opis procedury konstrukcji
dane, ilustrujące rzetelność i trafność

pomiaru (wraz z charakterystyką orób);

procedura praktycznego stosowania

testu i obliczania wyników;

procedura interpretacji wyników testu;
tabele normalizacyjne.

Co musi zawierać podręcznik

testowy?

Podręcznik musi zawierać precyzyjny

opis testu: jego przeznaczenie,

wskazówki dotyczące procedury

badania testem i obliczania wyników,

pełne dane ilustrujące charakterystykę

psychometryczną, opis procedury

normalizacji oraz normy, precyzować

zasady interpretacji oraz zawierać

informację o możliwej stronniczości

czy ograniczeniach stosowania testu.

Document Outline

Slide 1
Slide 2
Slide 3
Slide 4
Slide 5
Slide 6
Slide 7
Slide 8
Slide 9
Slide 10
Slide 11
Slide 12
Slide 13
Slide 14
Slide 15
Slide 16
Slide 17
Slide 18
Slide 19
Slide 20
Slide 21
Slide 22
Slide 23
Slide 24
Slide 25
Slide 26
Slide 27
Slide 28
Slide 29
Slide 30
Slide 31
Slide 32
Slide 33
Slide 34
Slide 35
Slide 36
Slide 37
Slide 38
Slide 39
Slide 40
Slide 41
Slide 42
Slide 43
Slide 44
Slide 45
Slide 46
Slide 47
Slide 48
Slide 49
Slide 50
Slide 51
Slide 52
Slide 53
Slide 54
Slide 55
Slide 56
Slide 57
Slide 58
Slide 59
Slide 60
Slide 61
Slide 62
Slide 63
Slide 64
Slide 65
Slide 66
Slide 67
Slide 68
Slide 69
Slide 70
Slide 71
Slide 72
Slide 73
Slide 74
Slide 75
Slide 76
Slide 77
Slide 78
Slide 79
Slide 80
Slide 81
Slide 82
Slide 83
Slide 84
Slide 85
Slide 86
Slide 87
Slide 88
Slide 89
Slide 90
Slide 91
Slide 92
Slide 93
Slide 94
Slide 95
Slide 96
Slide 97
Slide 98
Slide 99
Slide 100
Slide 101
Slide 102
Slide 103
Slide 104
Slide 105
Slide 106
Slide 107
Slide 108
Slide 109
Slide 110
Slide 111
Slide 112
Slide 113
Slide 114
Slide 115
Slide 116
Slide 117
Slide 118
Slide 119
Slide 120
Slide 121
Slide 122
Slide 123
Slide 124
Slide 125
Slide 126
Slide 127
Slide 128
Slide 129
Slide 130
Slide 131
Slide 132
Slide 133
Slide 134
Slide 135
Slide 136
Slide 137
Slide 138
Slide 139
Slide 140
Slide 141
Slide 142
Slide 143
Slide 144
Slide 145
Slide 146
Slide 147
Slide 148
Slide 149
Slide 150
Slide 151
Slide 152
Slide 153
Slide 154
Slide 155
Slide 156
Slide 157
Slide 158
Slide 159
Slide 160
Slide 161
Slide 162
Slide 163
Slide 164
Slide 165
Slide 166
Slide 167
Slide 168
Slide 169
Slide 170
Slide 171
Slide 172
Slide 173
Slide 174
Slide 175
Slide 176
Slide 177
Slide 178
Slide 179
Slide 180
Slide 181
Slide 182
Slide 183
Slide 184
Slide 185
Slide 186
Slide 187
Slide 188
Slide 189
Slide 190
Slide 191
Slide 192
Slide 193
Slide 194
Slide 195
Slide 196
Slide 197
Slide 198
Slide 199
Slide 200
Slide 201
Slide 202
Slide 203
Slide 204
Slide 205
Slide 206
Slide 207
Slide 208
Slide 209
Slide 210
Slide 211
Slide 212
Slide 213
Slide 214
Slide 215
Slide 216
Slide 217
Slide 218
Slide 219
Slide 220
Slide 221
Slide 222
Slide 223
Slide 224
Slide 225
Slide 226
Slide 227
Slide 228
Slide 229
Slide 230
Slide 231
Slide 232
Slide 233
Slide 234
Slide 235
Slide 236
Slide 237
Slide 238
Slide 239
Slide 240
Slide 241
Slide 242
Slide 243
Slide 244
Slide 245
Slide 246
Slide 247
Slide 248
Slide 249
Slide 250
Slide 251
Slide 252
Slide 253
Slide 254
Slide 255
Slide 256
Slide 257
Slide 258
Slide 259
Slide 260
Slide 261
Slide 262
Slide 263
Slide 264
Slide 265
Slide 266
Slide 267
Slide 268
Slide 269
Slide 270
Slide 271
Slide 272
Slide 273
Slide 274
Slide 275