background image

dr Adam Sobolewski
Psychometria, metoda testów

Strategie konstrukcji testów,

metody analizy właściwości pozycji testowych

background image

Strategie konstrukcji testów

Strategie konstrukcji testów a analizy itemmetryczne

Wraz z rozwojem psychometrii wypracowano trzy odmienne strategie konstrukcji 
testów. W ramach każdej z nich stosuje się inne techniki analizy danych zorientowane 
na badanie własności pozycji (pytań, zadań testowych), tzw. analizy itemmetryczne
(od ang. item). Naturalnym jest zatem omawianie statystyk służących analizom 
itemmetrycznym równolegle do omówienia strategii konstrukcji. Test nigdy nie 
powstaje poprzez napisanie „od razu” finalnego zestawu pytań. Badacze tworzą tzw. 
„pule matki” itemów, które są oceniane przez ekspertów np. ze względu na trafność
treściową itemów. Pytania, które mają najwyższe oceny ekspertów służą budowie tzw. 
eksperymentalnych wersji narzędzi diagnostycznych za pomocą których prowadzi się
badania stanowiące źródło danych do wspomnianych analiz itemmmetrycznych. 
W wyniku takich analiz wybiera się pytania o najlepszych charakterystykach 
pomiarowych i tworzy finalne wersje testów.

background image

Strategie konstrukcji testów

– to sformalizowany wskaźnik danej cechy psychologicznej, 
a więc zdanie (twierdzenie lub pytanie) opisujące określone 
zachowanie (lub zdanie wyzwalające określone zachowanie) 
oraz skala rejestrująca to zachowanie (zawierająca określone 
opcje odpowiedzi o danym formacie) oraz reguła 
przekształcania odpowiedzi w wynik liczbowy.

Ważne jest tu, że pozycje testową tworzy nie tylko treść pytania (zadania), ale 
także format odpowiedzi – wielkość zestawu opcji lub wersji odpowiedzi, liczba 
kategorii odpowiedzi oferowanych osobie badanej do wyboru.

Pozycja testowa, ang. item

background image

Strategie konstrukcji testów – rys historyczny

Strategie konstrukcji testów

Wspomniane strategie konstrukcji rozwijały się w charakterystyczny sposób. 
Warto o tym wspomnieć, gdyż ów rys historyczny pozwala łatwiej zrozumieć różnice 
między strategiami konstrukcji.
Jako pierwszą wypracowano strategię teoretyczną (dedukcyjną). W strategii tej z góry 
(z mocy teorii) zdefiniowane jest jakie zmienne będzie mierzył test. Wobec tak 
tworzonych narzędzi formułowano krytykę, która ogniskowała się wokół dwu 
problemów. Problemem pierwszym był efekt tzw. redundancji pomiarowej. Narzędzia 
budowane dedukcyjnie, jeśli miały wiele skal, charakteryzowały się silnymi korelacjami 
między nimi, co z perspektywy „ekonomii” pomiaru jest zjawiskiem negatywnym.
Rozwiązaniem tego problemu była strategia indukcyjna i budowa narzędzi ściśle 
w oparciu o empirię a także zastosowanie analizy czynnikowej do analizy danych.
Problemem drugim było to, że narzędzia budowane dedukcyjnie rzadko miały 
zadowalającą trafność diagnostyczną; mierzyły zmienne, ale nie zawsze pozwalały na 
budowanie użytecznych wniosków podczas diagnozy.
Odpowiedzią i rozwiązaniem było tu także odrzucenie teorii i oparcie się na empirii, 
przy czym dane zbierano na specyficznych (np. klinicznych) grupach szukając 
wskaźników pozwalających na różnicowanie między specyficznymi grupami (np. zdrowi 
vs. chorzy).
Współcześnie często stosuje się tzw. strategie kombinowane, które z każdego z trzech 
klasycznych podejść biorą to co najlepsze. Z powodów dydaktycznych trzy klasyczne 
strategie konstruowania i związane z nimi techniki analizy właściwości pozycji 
testowych zostaną w tej prezentacji omówione jako odrębne.

background image

Strategie konstrukcji testów

Strategia teoretyczna (dedukcyjna)

– opiera się na teorii psychologicznej, celem konstrukcji jest 
pomiar cech postulowanych przez teorię.

Kluczowym etapem konstrukcji jest tu analiza definicji cech, na podstawie których 
generuje się propozycje itemów do puli matki.
Strategia ta odwołuje się do danych z prób reprezentatywnych, jako że 
poszukujemy wskaźników cech, które mają występować w różnym stopniu 
u różnych osób w całej populacji.
Klasycznie, kryterium włączania pozycji do skali mogą być: 
trudność pozycji lub moc dyskryminacyjna.
Powstałe w wyniku zastosowania tej strategii narzędzia diagnostyczne cechuje 
wysoka trafność teoretyczna i często wysoka trafność kryterialna.
Wadą tak budowanych testów jest wzajemne skorelowanie skal (redundancja 
pomiarowa).
Najlepszym polskim przykładem narzędzia zbudowanego za pomocą tej strategii 
jest pawłowowski kwestionariusz PTS Strelaua i Zawadzkiego.

background image

Strategie konstrukcji testów

– to stosunek liczby osób, które udzieliły prawidłowej 
(zgodnej z kluczem i\lub diagnostycznej) odpowiedzi na 
pytanie, do ogółem przebadanej liczby osób.

Zazwyczaj wyrażany jest jako odsetek osób, które znały prawidłową
(diagnostyczną) odpowiedź na pytanie; przyjmuje „paradoksalne”
wartości – wysoka wartość wskazuje na łatwe pytania. 
Jest stosowany zazwyczaj w przypadku testów wiedzy. 
Najlepiej różnicującymi pytaniami są pytania o przeciętnym stopniu 
trudności – pozwalają na dokonanie największej liczby porównań
między osobami w próbie wskazującymi na różnice między tymi 
osobami.

%

100

%

n

n

T

p

Trudność pozycji

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST ĆWICZENIE NR 1

background image

Strategie konstrukcji testów

Moc dyskryminacyjna

– informuje w jakim stopniu pytanie/zadanie różnicuje daną
populację, ze względu na mierzoną cechę.

W rozumieniu operacyjnym jest to korelacja między pozycją a skalą; obliczanie 
takich korelacji wymaga spełnienia specyficznych założeń – jedna z korelowanych 
zmiennych jest mierzona na skali nominalnej, druga na przedziałowej.
Wartości mocy dyskryminacyjnych maksymalizują się dla pytań o przeciętnej 
trudności. Innymi słowy, moc dyskryminacyjna niesie tę samą informację co 
wskaźnik trudności (o stopniu różnicowania) nadto różnicowanie to jest „badane”
w kontekście zmiennej mierzonej przez całą skalę.
Moce dyskryminacyjne oblicza się uprzednio rekodując pytania z inwersją.
Jeżeli pomimo rekodowania pytań z inwersją dostajemy ujemne wartości mocy 
dyskryminacyjnych to znaczy, że osoby badane udzielają paradoksalnych odpowiedzi
(np. ekstrawertycy odpowiadają jak introwertycy, introwertycy jak ekstrawertycy)
Wartość ujemna zatem wskazuje na to, że badacz pomylił się ustalając klucz –
można to traktować jako dyskwalifikację pozycji mimo znaczącej wartości 
bezwzględnej mocy dyskryminacyjnej.
Przyjmuje się, że moc dyskryminacyjna musi mieć wartość > 0,20, aby pozycja była 
włączana do skali (około 5% wspólnej wariancji ze skalą).

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 1

background image

Strategie konstrukcji testów

Metody obliczania mocy dyskryminacyjnych (1)

W psychometrii wypracowano różne formuły obliczania mocy dyskryminacyjnej np. 
współczynniki korelacji: biseryjnej, punktowo-dwuseryjnej, punktowo-czteropolowej.
Tu zaprezentowany zostanie ostatni z nich jako wymagający najsłabszych założeń
i zarazem najprostszy obliczeniowo.

Współczynnik korelacji punktowo-czteropolowej

pq

f

f

d

g

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST ĆWICZENIE NR 2

gdzie: 

p= f

g

+ f

d

p + q = 1

f

g

– proporcja osób odpowiadających zgodnie z kluczem w „górnej” połowie próby

f

d

– proporcja osób odpowiadających zgodnie z kluczem w „dolnej” połowie próby

– proporcja osób odpowiadających zgodnie z kluczem
– proporcja osób odpowiadających niezgodnie z kluczem

background image

Strategie konstrukcji testów

Pakiety statystyczne obliczają skorygowane korelacje pozycja-skala (corrected
item-total correlation
), korekta polega na wyłączeniu z sumy wyniku ogólnego 
pytania, dla którego obliczana jest moc dyskryminacyjna. Takiego postępowania 
unikano w czasach „przedkomputerowych”, bowiem wymaga zliczania 
specyficznych wyników ogólnych dla każdej osoby badanej podczas obliczania 
mocy dyskryminacyjnej dla każdego z pytań tworzących skalę. W efekcie 
obliczane bez tej ważnej korekty wartości mocy dyskryminacyjnych były 
nieznacznie przeszacowane bowiem po części korelowano odpowiedzi na pytania 
same ze sobą (jako występujące w sumie stanowiącej wynik ogólny).
Obliczane przez pakiety statystyczne wartości mocy dyskryminacyjnych mocy 
dyskryminacyjnej są bardziej surowe i zarazem obiektywne.

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 1

Metody obliczania mocy dyskryminacyjnych (2)

background image

Strategie konstrukcji testów

– jest strategią, która opiera się na metodologii, a nie na 
wiedzy i teorii. Celem badań jest nie tylko konstrukcja nowego 
narzędzia diagnostycznego, ale także identyfikacja 
podstawowych wymiarów zachowania za pomocą
eksploracyjnej analizy czynnikowej.

Analiza czynnikowa jest metodą analizy danych, której istota polega na 
identyfikacji mniejszej liczby wymiarów, skupień, czy też czynników w większym 
zbiorze skorelowanych zmiennych niezależnych lub też pozycji w narzędziu 
testowym. 
Podobnie jak w przypadku strategii dedukcyjnej przedmiotem pomiaru są cechy, 
zatem badania prowadzi się na próbach reprezentatywnych dla populacji.
Kluczowym etapem konstrukcji jest empiryczny dobór wskaźników za pomocą
analizy czynnikowej, a kryterium włączania pytania dla skali jest wartość
ładunku czynnikowego (ściśle – wartości konfiguracji ładunków)
Powstałe w wyniku zastosowania tej strategii skale są oszczędne (krótkie) 
i trafne teoretycznie, ich wadą jest ich nadmierna jednorodność i ogólność.
Najlepszym polskim przykładem budowy kwestionariusza zgodnie ze strategią
indukcyjną jest Polska Lista Przymiotnikowa (PLP) Szaroty.

Strategia wewnętrzna (indukcyjna)

background image

Strategie konstrukcji testów

Ładunek czynnikowy

– wskazuje na korelacyjny związek między pytaniem 
a czynnikiem.

Dla oceny siły związku kluczowa jest wartość ładunku czynnikowego, natomiast 
znak ładunku („-”) wskazuje na pytania „nie wprost” wymagające rekodowania.
Przyjmuję się, że warunkiem włączania pytania do skali jest wartość
ładunku > 0,30 (oznacza to około 10% wspólnej wariancji).
Zazwyczaj włączane do skali są pytania mające wysokie ładunki 
jednego z czynników i niskie pozostałych – mierzące określoną a nie inne treści 
psychologiczne.

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 2

background image

Strategie konstrukcji testów

– opiera się na wiedzy (np. klinicznej) a nie na teorii
psychologicznej. Celem konstrukcji jest pomiar „syndromów 
zachowania”, np. syndromów klinicznych.

Kluczowym etapem konstrukcji jest empiryczny dobór wskaźników. Analiza 
odwołuje się do danych z prób dobieranych celowo (np. chorzy vs. zdrowi). 
Kryterium włączania pozycji do skali jest korelacja pozycji z zewnętrznym 
kryterium.
Powstałe narzędzia cechuje wysoka trafność kryterialna, często takie testy 
są nisko rzetelne i nadmiernie długie.
W strategii tej rezygnuje się z założenia o pomiarze cechy. W efekcie 
korelacje między pytaniami nie są oczekiwane. Poszukuje się pytań, opisujących 
zachowania różnicujące dwie grupy osób (np. objawy kliniczne, vs. brak 
objawów).
Najlepszym polskim przykładem narzędzia budowanego w tej strategii jest 
Lista Objawowa Aleksandrowicza i współpracowników.

Strategia zewnętrzna (kryterialna)

background image

Inne miary dobroci pozycji

W przypadku narzędzi tworzonych zgodnie ze strategią kryterialną – miarą dobroci 
pozycji jest jej korelacja z zewnętrznym kryterium. Konsekwencją takiego podejścia 
(i zastosowanej strategii analizy danych) jest tworzenie skal mniej homogenicznych, 
mniej rzetelnych, jednak bardziej trafnych kryterialnie i treściowo.

W zależności od przyjętych założeń dotyczących kryterium stosuje się:

model wielokrotnej regresji liniowej,

analizę dyskryminacyjną.

Strategie konstrukcji testów