Slajdy, Wyklad 3[1][1] Klasyczna teoria testu

background image

Klasyczna teoria testu

background image

Whatever exists, exists in some

amount."

E. L. Thorndike.

background image

Założenia klasycznej teorii testu

(Gulliksen, 1950)

• do psychologii można zaadaptować model pomiaru

pochodzący z fizyki

• podobnie jak każdy obiekt fizyczny ma określone

wartości swoich cech fizycznych, niezależne od aktu

pomiaru i natury narzędzia badawczego, tak każdy

człowiek ma nieznane prawdziwe wartości cech

psychologicznych

• podczas pomiaru obserwujemy wartości prawdziwe

mierzonej cechy, zakłócone błędem równym różnicy

miedzy obserwowaną wartością wyniku pomiaru a

nieobserwowalną wartością prawdziwą mierzonej

cechy

background image

Rzetelność

• Klasyczna teoria testu (Gulliksen, 1950)

– „psychometryczne opracowanie
problemu rzetelności i błędu pomiaru”

• Rzetelność jest miarą dokładności

pomiaru

background image

X

t

= X

+ X

e

,

gdzie:

X

t

: wynik otrzymany

X

: wynik prawdziwy

X

e

: składnik błędu

background image

2

2

e

tt

s

s

r

gdzie:

r

tt

- rzetelność

s

2

- wariancja wyników

prawdziwych

s

2

e

- wariancja wyników

otrzymanych

var

t

= var

+ var

e

background image

Wynik prawdziwy

(Gulliksen, 1950)

• Wynik prawdziwy to granica, do

jakiej zmierza przeciętna wyników
i-tej osoby w danej liczbie testów
równoległych, jeśli ta liczba
wzrasta nieograniczenie

background image

Wynik prawdziwy

(Guilford, 1954)

• średnia z nieskończenie wielu

badań tym samym testem

• wynik danej osoby otrzymany w

idealnych warunkach idealnym
narzędziem pomiarowym

background image

Składnik błędu (Guilford,

1954)

• różnica między wynikiem

prawdziwym a wynikiem
otrzymanym

• wartość dodatnia lub ujemna

będąca funkcją warunków
testowania konkretnej osoby w
konkretnym badaniu

background image

Założenia klasycznej teorii

testów

• Średnia arytmetyczna błędów

wynosi zero

• Korelacja wyniku prawdziwego i

składnika błędu jest zerowa

• Korelacja składników błędu dwóch

testów równoległych (czyli dwóch
kolejnych pomiarów) jest zerowa

background image

• Błedy systematyczne

(skorelowane)

• Błedy losowe (nieskorelowane)

– Klasyczna teoria testu i wskaźniki

rzetelności dotyczą wyłącznie błędów
losowych

background image

Szacowanie składnika

błędu

• Z założenia o istnieniu wyniku prawdziwego,

niezależnego od aktu pomiaru, oraz z

założenia o losowości błędów, wynika, że:

– idealne narzędzie badawcze powinno w dwóch

kolejnych pomiarach przynieść takie same wyniki

– różnice między wynikami dwóch kolejnych

pomiarów są odbiciem błędów pomiaru i mogą

służyć do jego szacowania

– (podobnie zachowają się wersje idealnie

równoległe)

background image

• Rzetelność jest zatem równa teoretycznej

wartości współczynnika korelacji w dwóch

kolejnych badaniach (twierdzenie przydatne

empirycznie)

• Rzetelność jest też równa kwadratowi

korelacji między wynikiem prawdziwym a

wynikiem otrzymanym (twierdzenie mniej

przydatne empirycznie)

• Najprościej mówiąc, test rzetelny to taki,

którego wyniki korelują wysoko z sobą przy

powtórzeniu badania

background image

Długość testu a jego

rzetelność

• Im dłuższy test (im więcej pozycji

zawiera) tym jest rzetelniejszy, to jest,
tym mniejszym jest obciążony błędem

Im więcej składowych znajduje się w

teście, tym bliższy jest on wynikowi
prawdziwemu na mocy definicji
stwierdzającej, że wynik prawdziwy to
średnia z nieskończenie wielu testów
równoległych

background image

• Rzetelność a wskaźniki rzetelności
• Bezpośrednie badanie rzetelności:

– kalibracja
– seria pomiarów

(w psychologii ani jedno, ani drugie nie jest

możliwe)

Pośrednie badanie rzetelności:

wskaźniki rzetelności

background image

• Rzetelność odnosi się do:

– stabilności
– równoważności
– spójności

wyników testowych.

background image

Metody empirycznej

estymacji rzetelności

• wskaźnik rzetelności retestowej

(stabilność)

• formy równoległe (równoważność)
• wskaźnik rzetelności

międzypołówkowej (spójność)

• wskaźnik rzetelności wewnętrznej

(spójność)

• ocena sędziów kompetentnych

background image

Krytyka aksjomatyki

Gulliksena

• Thorndike (1964): ponieważ wyniki

prawdziwe nie są mierzalne bezpośrednio,
są one mitem i nie mogą mieć znaczenia
teoretycznego

– przyjęcie tego poglądu odrzucałoby całą

statystykę inferencyjną, która dotyczy głównie
szacowania nieobserwowalnych parametrów

– wyniki prawdziwe nie są mierzalne

bezpośrednio, ale są szacowalne, z błędem nie
wykluczającym teoretycznej ani praktycznej
użyteczności

background image

Krytyka aksjomatyki

Gulliksena

• Poważniejszy zarzut (Lord i Novick,

1968): nieweryfikowalność założenia
o losowości błędu pomiaru, czyli
postulatu, że średni błąd wynosi
zero. Stopień prawdziwości tego
założenia nie jest szacowalny (w
przeciwieństwie do
nieobserwowalnych parametrów)

background image

Nowsza wersja klasycznej

teorii testu (Lord i Novick,

1968)

• Wynik prawdziwy definiowany nie jako

wartość absolutna, tylko oczekiwana z

pewnego rozkładu normalnego

wyników testowych

• Defiincja błędu pomiaru oparta na

pojęciu średnia wartość odchyleń od

średniej

• Podejście Lorda i Novicka nie

absolutyzuje wyniku prawdziwego i

składnika błędu, ale pozwala zachować

zasadnicze zręby teorii Gulliksena

background image

• Najnowsze ujęcie teorii testu:

Teoria odpowiedzi na pytania
testowe (Item Response Theory,
IRT
)

background image

Rzetelność – właściwość

testu

czy zbioru wyników?

• Rzetelność jest właściwością zbioru

wyników uzyskanego na konkretnej

populacji, a nie testu

• Stwierdzenie: „rzetelność testu X

wynosi 0,87” jest skrótem myślowym

• Oszacowanie rzetelności testu może

się różnić w różnych populacjach, np.

IQ szacowane w próbie pobranej z

populacji generalnej i z populacji

studentów

background image

Wskaźnik rzetelności

retestowej

• dwa rodzaje

– wiarygodność testu (rzadko stosowany)
– stabilność bezwzględna (stosowany)

• spotykane odstępy: od 1 tygodnia do

6 miesięcy

– wyjątkowo dziesiątki lat (kiedy badana

jest nie tyle stabilność testu, co raczej
mierzonej przez niego cechy)

background image

Obliczanie wskaźnika

rzetelności retestowej

• Współczynnik korelacji liniowej r-

Pearsona

background image

Problemy ze wskaźnikiem

rzetelności retestowej

• pamięć poprzedniego badania
• uczenie się, wprawa
• wyobrażenia badanych na temat

celu powtórzenia badania

Zalecenie APA: "nie wolno ograniczać

się do stosowania wskaźników
retestowych"

background image

Formy równoległe -

wymogi

• równość średnich
• równość odchyleń standardowych
• równość interkorelacji pozycji
• równość korelacji z kryterium

zewnętrznym

background image

Obliczanie rzetelności

form równoległych

• Współczynnik korelacji liniowej r-

Pearsona

• Formy równoległe jako wskaźnik:

– Stabilności bezwględnej
– Wiarygodności

• Rzetelność szacowana metodą form

równoległych daje zwykle
oszacowania najniższe z możliwych

background image

Wskaźnik rzetelności

międzypołówkowej

• korelacja między połówkami testu,

zazwyczaj pozycjami parzystymi i
nieparzystymi

• bywa zaliczany do wskaźników

rzetelności wewnętrznej

background image

Obliczanie rzetelności

międzypołówkowej –

korekta Spearmana-Browna

hh

hh

tt

r

r

r

1

2

gdzie:

r

tt

- rzetelność skorygowana

r

hh

- korelacja między połówkami

background image

Wskaźnik rzetelności

wewnętrznej

(zgodności wewnętrznej)

• "j.t. miara tego, w jakim stopniu test

jest czystą miarą mierzonej zmiennej i
w jakim stopniu odpowiedzi na
poszczególne pytania mierzą to samo
co wynik w całym teście”
(Choynowski, 1971)

background image

Zgodność wewnętrzna jest tym wyższa,

im:

• wyższe są korelacje między pozycjami

testu

• wyższa jest wariancja pozycji testu
• mniejsze są różnice w trudności

poszczególnych zadań

• większa jest liczba pozycji w teście

background image

• Wzory Kudera-Richardsona:

format pozycji dychotomiczny

• Alfa Cronbacha: dowolny format

odpowiedzi

Alfa Cronbacha - najpopularniejszy

obecnie wskaźnik rzetelności

background image

Obliczanie alfy Cronbacha

gdzie:

SD

t

: wariancja całego testu

SD

i

: wariancja i-tej pozycji

2

1

2

2

)

(

1

t

SD

SD

SD

n

n

r

n

i

i

t

tt

background image

Zgodność sędziów

kompetentnych

• stosowana w wypadku procedur,

które wymagają subiektywnej
oceny

• W Kendalla – „korelacja” między

więcej niż dwiema zmiennymi
(sędziami)

background image

Testy szybkości a

wskaźniki rzetelności

W wypadku testów szybkości:
• wykluczone są:

– wskaźniki rz. międzypołówkowej
– wskaźniki rz. wewnętrznej

• dopuszczalne: wskaźniki retestowe i

formy równoległe

background image

Interpretacja wskaźników

rzetelności

• przyjmują wartości z przedziału od 0 do

1

• reprezentują estymowaną proporcję

składnika prawdziwego i składnika błedu

– np. 0,85 - 85% udziału wyniku prawdziwego;

15% - składnika błędu

• UWAGA - korelację retestową oraz

międzypołówkową należy podnieść do
kwadratu w celu uzyskania tej proporcji

background image

Pożądane wartości

współczynników

rzetelności

• Wymogi wobec rzetelności są wyższe w

wypadku badań indywidualnych (pożądane
0,90) niż eksperymentów grupowych

• Orientacyjna interpretacja:

– 0,90 i więcej - rzetelność znakomita (w

psychologii raczej rzadko spotykana)

– 0,80-0,90 - rzetelność dobra (często spotykana

w psychologii

– poniżej 0,50 - rzetelność nie do zaakceptowania

background image

Przykłady rzetelności

testów

(Alfa Cronbacha)
• FCZ-KT (Strelau, 1995)

– od 0,77 (Żwawość) do 0,85

(Wytrzymałość)

• EPQ-R (Brzozowski i Drwal, 1995)

– Neurotyzm: 0,84
– Ekstra-introwersja: 0,83
– Psychotyzm: 0,67
– Skala kłamstwa: 0,75

background image

• WAIS-R (Brzeziński i Hornowska,

1993)

– od 0,68 (Układanki) do 0,96

(Słownik)

• NEO-FFI (Zawadzki i in., 1995)

– Ekstrawersja: 0,74-0,84
– Neurotyczność: 0,77-0,83
– Sumienność: 0,76-0,84
– Otwartość: 0,59-0,70
– Ugodowość: 0,57-0,73

background image

Błąd standardowy

pomiaru (SEM)

• ponieważ testy zawierają błąd,

użyteczne jest obliczanie zakresu, w
jakim mieści się wynik prawdziwy

• służy do tego SEM

tt

t

r

SD

SEM

1

background image

• SEM j.t. odchylenie standardowe

różnic między wynikiem
prawdziwym a uzyskanym

• gdyby u kogoś powtórzyć pomiar

100 razy, to uzyskana średnia
byłaby oszacowaniem wyniku
prawdziwego, a odchylenie
standardowe uzyskanego rozkładu
- błędem standardowym pomiaru

background image

Przedział ufności (95%)

X

p

<X

t

- 1,96 (SEM); X

t

+ 1,96

(SEM)>

background image

• Współczynniki rzetelności, jak

wszystkie miary oparte na
korelacji, są wrażliwe na wielkość
wariancji w próbie

• Mogą być generalizowane tylko na

tę populację, z której pobrano
próbę

background image

YIELD1 vs. YIELD2

Wsp. korelacji = ,74

YIELD1

Y

IE

LD

2

-2

0

2

4

6

8

10

12

14

-2

0

2

4

6

8

10

12

14

background image

Analiza pozycji testowych

• Moc dyskryminacyjna pytania
• Alfa przy wykluczeniu pozycji
• Skorygowany współczynnik

korelacji item-skala (SKIS)

background image

Moc dyskryminacyjna

• = zdolność do różnicowania

populacji pod względem danej
cechy

• mierzona jako skorygowana

korelacja między pozycją a
wynikiem ogólnym

– SKIS - skorygowana korelacja item-

skala

background image

Alfa Cronbacha: ,57

SKIS

Alfa przy

wykluczeniu

Opadanie głowy

,17

,57

Zamykanie oczu

,27

,54

Opadanie ręki

,11

,58

Unieruchomienie ręki

,46

,50

Splecenie palców

,25

,55

Uszytwnienie ręki

,40

,51

Przyciąganie rąk

,09

,58

Zahamowanie komunikacji niewerbalnej

,35

,53

Halucynacja (mucha)

,16

,57

Katalepsja powiek

,53

,48

Sugestia pohipnotyczna (dotknięcie kostki lewej nogi) -,11

,62

Niepamięć pohipnotyczna

,15

,57


Document Outline


Wyszukiwarka

Podobne podstrony:
Psychometria 2009, Wykład 2, Klasyczna teoria testu
Psychometria 2010, Wykład 2, Klasyczna teoria testu p
rozwojowka slajdy, Wyklad 5 Srednia doroslosc teoria czasowa
rozwojowka slajdy, Wyklad 5 Srednia doroslosc teoria czasowa
rozwojowka slajdy, Wyklad 3 srednia doroslosc
Psychologia osobowości dr Kofta wykład 9 Poznawcza teoria Ja
Wybrane slajdy z wykładów
wykład 2 cz.1, Teoria i analiza rynku- semestr V
geneza Ekohydrologii slajdy wykład
TiF- wyklady pos, Teoria i filozofia prawa TIF
2 Klasyczna teoria finansów a finanse?hawioralne
Klasyczna teoria psychoanalityczna Sigmunda Freuda
Klasyczna teoria prawdy1, Filozofia, Materiały do zajęć, Różne z innych zajęć
s 1, Klasyczna teoria organizacji
Oświetlenie slajdy z wykładu

więcej podobnych podstron