plik

Strategie konstrukcji testów

Strategie konstrukcji testów a analizy itemmetryczne

Wraz z rozwojem psychometrii wypracowano trzy odmienne strategie konstrukcji
testów. W ramach każdej z nich stosuje się inne techniki analizy danych zorientowane
na badanie własności pozycji (pytań, zadań testowych), tzw. analizy itemmetryczne
(od ang. item). Naturalnym jest zatem omawianie statystyk służących analizom
itemmetrycznym równolegle do omówienia strategii konstrukcji. Test nigdy nie
powstaje poprzez napisanie „od razu” finalnego zestawu pytań. Badacze tworzą tzw.
„pule matki” itemów, które są oceniane przez ekspertów np. ze względu na trafność
treściową itemów. Pytania, które mają najwyższe oceny ekspertów służą budowie tzw.
eksperymentalnych wersji narzędzi diagnostycznych za pomocą których prowadzi się
badania stanowiące źródło danych do wspomnianych analiz itemmmetrycznych.
W wyniku takich analiz wybiera się pytania o najlepszych charakterystykach
pomiarowych i tworzy finalne wersje testów.

Strategie konstrukcji testów

– to sformalizowany wskaźnik danej cechy psychologicznej,
a więc zdanie (twierdzenie lub pytanie) opisujące określone
zachowanie (lub zdanie wyzwalające określone zachowanie)
oraz skala rejestrująca to zachowanie (zawierająca określone
opcje odpowiedzi o danym formacie) oraz reguła
przekształcania odpowiedzi w wynik liczbowy.

Ważne jest tu, że pozycje testową tworzy nie tylko treść pytania (zadania), ale
także format odpowiedzi – wielkość zestawu opcji lub wersji odpowiedzi, liczba
kategorii odpowiedzi oferowanych osobie badanej do wyboru.

Pozycja testowa, ang. item

Strategie konstrukcji testów – rys historyczny

Strategie konstrukcji testów

Wspomniane strategie konstrukcji rozwijały się w charakterystyczny sposób.
Warto o tym wspomnieć, gdyż ów rys historyczny pozwala łatwiej zrozumieć różnice
między strategiami konstrukcji.
Jako pierwszą wypracowano strategię teoretyczną (dedukcyjną). W strategii tej z góry
(z mocy teorii) zdefiniowane jest jakie zmienne będzie mierzył test. Wobec tak
tworzonych narzędzi formułowano krytykę, która ogniskowała się wokół dwu
problemów. Problemem pierwszym był efekt tzw. redundancji pomiarowej. Narzędzia
budowane dedukcyjnie, jeśli miały wiele skal, charakteryzowały się silnymi korelacjami
między nimi, co z perspektywy „ekonomii” pomiaru jest zjawiskiem negatywnym.
Rozwiązaniem tego problemu była strategia indukcyjna i budowa narzędzi ściśle
w oparciu o empirię a także zastosowanie analizy czynnikowej do analizy danych.
Problemem drugim było to, że narzędzia budowane dedukcyjnie rzadko miały
zadowalającą trafność diagnostyczną; mierzyły zmienne, ale nie zawsze pozwalały na
budowanie użytecznych wniosków podczas diagnozy.
Odpowiedzią i rozwiązaniem było tu także odrzucenie teorii i oparcie się na empirii,
przy czym dane zbierano na specyficznych (np. klinicznych) grupach szukając
wskaźników pozwalających na różnicowanie między specyficznymi grupami (np. zdrowi
vs. chorzy).
Współcześnie często stosuje się tzw. strategie kombinowane, które z każdego z trzech
klasycznych podejść biorą to co najlepsze. Z powodów dydaktycznych trzy klasyczne
strategie konstruowania i związane z nimi techniki analizy właściwości pozycji
testowych zostaną w tej prezentacji omówione jako odrębne.

Strategie konstrukcji testów

Strategia teoretyczna (dedukcyjna)

– opiera się na teorii psychologicznej, celem konstrukcji jest
pomiar cech postulowanych przez teorię.

Kluczowym etapem konstrukcji jest tu analiza definicji cech, na podstawie których
generuje się propozycje itemów do puli matki.
Strategia ta odwołuje się do danych z prób reprezentatywnych, jako że
poszukujemy wskaźników cech, które mają występować w różnym stopniu
u różnych osób w całej populacji.
Klasycznie, kryterium włączania pozycji do skali mogą być:
trudność pozycji lub moc dyskryminacyjna.
Powstałe w wyniku zastosowania tej strategii narzędzia diagnostyczne cechuje
wysoka trafność teoretyczna i często wysoka trafność kryterialna.
Wadą tak budowanych testów jest wzajemne skorelowanie skal (redundancja
pomiarowa).
Najlepszym polskim przykładem narzędzia zbudowanego za pomocą tej strategii
jest pawłowowski kwestionariusz PTS Strelaua i Zawadzkiego.

Strategie konstrukcji testów

– to stosunek liczby osób, które udzieliły prawidłowej
(zgodnej z kluczem i\lub diagnostycznej) odpowiedzi na
pytanie, do ogółem przebadanej liczby osób.

Zazwyczaj wyrażany jest jako odsetek osób, które znały prawidłową
(diagnostyczną) odpowiedź na pytanie; przyjmuje „paradoksalne”
wartości – wysoka wartość wskazuje na łatwe pytania.
Jest stosowany zazwyczaj w przypadku testów wiedzy.
Najlepiej różnicującymi pytaniami są pytania o przeciętnym stopniu
trudności – pozwalają na dokonanie największej liczby porównań
między osobami w próbie wskazującymi na różnice między tymi
osobami.

100





Trudność pozycji

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST ĆWICZENIE NR 1

Strategie konstrukcji testów

Moc dyskryminacyjna

– informuje w jakim stopniu pytanie/zadanie różnicuje daną
populację, ze względu na mierzoną cechę.

W rozumieniu operacyjnym jest to korelacja między pozycją a skalą; obliczanie
takich korelacji wymaga spełnienia specyficznych założeń – jedna z korelowanych
zmiennych jest mierzona na skali nominalnej, druga na przedziałowej.
Wartości mocy dyskryminacyjnych maksymalizują się dla pytań o przeciętnej
trudności. Innymi słowy, moc dyskryminacyjna niesie tę samą informację co
wskaźnik trudności (o stopniu różnicowania) nadto różnicowanie to jest „badane”
w kontekście zmiennej mierzonej przez całą skalę.
Moce dyskryminacyjne oblicza się uprzednio rekodując pytania z inwersją.
Jeżeli pomimo rekodowania pytań z inwersją dostajemy ujemne wartości mocy
dyskryminacyjnych to znaczy, że osoby badane udzielają paradoksalnych odpowiedzi
(np. ekstrawertycy odpowiadają jak introwertycy, introwertycy jak ekstrawertycy)
Wartość ujemna zatem wskazuje na to, że badacz pomylił się ustalając klucz –
można to traktować jako dyskwalifikację pozycji mimo znaczącej wartości
bezwzględnej mocy dyskryminacyjnej.
Przyjmuje się, że moc dyskryminacyjna musi mieć wartość > 0,20, aby pozycja była
włączana do skali (około 5% wspólnej wariancji ze skalą).

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 1

Strategie konstrukcji testów

Metody obliczania mocy dyskryminacyjnych (1)

W psychometrii wypracowano różne formuły obliczania mocy dyskryminacyjnej np.
współczynniki korelacji: biseryjnej, punktowo-dwuseryjnej, punktowo-czteropolowej.
Tu zaprezentowany zostanie ostatni z nich jako wymagający najsłabszych założeń
i zarazem najprostszy obliczeniowo.

Współczynnik korelacji punktowo-czteropolowej







UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST ĆWICZENIE NR 2

gdzie:

p= f

+ f

p + q = 1

– proporcja osób odpowiadających zgodnie z kluczem w „górnej” połowie próby

– proporcja osób odpowiadających zgodnie z kluczem w „dolnej” połowie próby

p – proporcja osób odpowiadających zgodnie z kluczem
q – proporcja osób odpowiadających niezgodnie z kluczem

Strategie konstrukcji testów

Pakiety statystyczne obliczają skorygowane korelacje pozycja-skala (corrected
item-total correlation), korekta polega na wyłączeniu z sumy wyniku ogólnego
pytania, dla którego obliczana jest moc dyskryminacyjna. Takiego postępowania
unikano w czasach „przedkomputerowych”, bowiem wymaga zliczania
specyficznych wyników ogólnych dla każdej osoby badanej podczas obliczania
mocy dyskryminacyjnej dla każdego z pytań tworzących skalę. W efekcie
obliczane bez tej ważnej korekty wartości mocy dyskryminacyjnych były
nieznacznie przeszacowane bowiem po części korelowano odpowiedzi na pytania
same ze sobą (jako występujące w sumie stanowiącej wynik ogólny).
Obliczane przez pakiety statystyczne wartości mocy dyskryminacyjnych mocy
dyskryminacyjnej są bardziej surowe i zarazem obiektywne.

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 1

Metody obliczania mocy dyskryminacyjnych (2)

Strategie konstrukcji testów

– jest strategią, która opiera się na metodologii, a nie na
wiedzy i teorii. Celem badań jest nie tylko konstrukcja nowego
narzędzia diagnostycznego, ale także identyfikacja
podstawowych wymiarów zachowania za pomocą
eksploracyjnej analizy czynnikowej.

Analiza czynnikowa jest metodą analizy danych, której istota polega na
identyfikacji mniejszej liczby wymiarów, skupień, czy też czynników w większym
zbiorze skorelowanych zmiennych niezależnych lub też pozycji w narzędziu
testowym.
Podobnie jak w przypadku strategii dedukcyjnej przedmiotem pomiaru są cechy,
zatem badania prowadzi się na próbach reprezentatywnych dla populacji.
Kluczowym etapem konstrukcji jest empiryczny dobór wskaźników za pomocą
analizy czynnikowej, a kryterium włączania pytania dla skali jest wartość
ładunku czynnikowego (ściśle – wartości konfiguracji ładunków)
Powstałe w wyniku zastosowania tej strategii skale są oszczędne (krótkie)
i trafne teoretycznie, ich wadą jest ich nadmierna jednorodność i ogólność.
Najlepszym polskim przykładem budowy kwestionariusza zgodnie ze strategią
indukcyjną jest Polska Lista Przymiotnikowa (PLP) Szaroty.

Strategia wewnętrzna (indukcyjna)

Strategie konstrukcji testów

Ładunek czynnikowy

– wskazuje na korelacyjny związek między pytaniem
a czynnikiem.

Dla oceny siły związku kluczowa jest wartość ładunku czynnikowego, natomiast
znak ładunku („-”) wskazuje na pytania „nie wprost” wymagające rekodowania.
Przyjmuję się, że warunkiem włączania pytania do skali jest wartość
ładunku > 0,30 (oznacza to około 10% wspólnej wariancji).
Zazwyczaj włączane do skali są pytania mające wysokie ładunki
jednego z czynników i niskie pozostałych – mierzące określoną a nie inne treści
psychologiczne.

UWAGA: ILUSTRACJĄ TEGO ZAGADNIENIA JEST SAMOUCZEK ANALIZY ITEMMETRYCZNEJ NR 2

Strategie konstrukcji testów

– opiera się na wiedzy (np. klinicznej) a nie na teorii
psychologicznej. Celem konstrukcji jest pomiar „syndromów
zachowania”, np. syndromów klinicznych.

Kluczowym etapem konstrukcji jest empiryczny dobór wskaźników. Analiza
odwołuje się do danych z prób dobieranych celowo (np. chorzy vs. zdrowi).
Kryterium włączania pozycji do skali jest korelacja pozycji z zewnętrznym
kryterium.
Powstałe narzędzia cechuje wysoka trafność kryterialna, często takie testy
są nisko rzetelne i nadmiernie długie.
W strategii tej rezygnuje się z założenia o pomiarze cechy. W efekcie
korelacje między pytaniami nie są oczekiwane. Poszukuje się pytań, opisujących
zachowania różnicujące dwie grupy osób (np. objawy kliniczne, vs. brak
objawów).
Najlepszym polskim przykładem narzędzia budowanego w tej strategii jest
Lista Objawowa Aleksandrowicza i współpracowników.

Strategia zewnętrzna (kryterialna)

Inne miary dobroci pozycji

W przypadku narzędzi tworzonych zgodnie ze strategią kryterialną – miarą dobroci
pozycji jest jej korelacja z zewnętrznym kryterium. Konsekwencją takiego podejścia
(i zastosowanej strategii analizy danych) jest tworzenie skal mniej homogenicznych,
mniej rzetelnych, jednak bardziej trafnych kryterialnie i treściowo.

W zależności od przyjętych założeń dotyczących kryterium stosuje się:
•

model wielokrotnej regresji liniowej,

•

analizę dyskryminacyjną.

Strategie konstrukcji testów