I

Państwo i Rynek – numer 2 / 2004

www.pir.org.pl

Ewaluacja w epoce wskaźników

Wyzwania dla zarządzania sektorem publicznym

CAROL TAYLOR FITZ-GIBBON

University of Durham

Wstęp

Nieuchronny rozwój systemów wskaźników

wspomaganych komputerowo wpływa na zmianę zarówno

ewaluacji, jak i zarządzania sektorem publicznym. W

niniejszym artykule twierdzę, że – jako przedstawiciele

nauk społecznych – musimy przyjąć podejście naukowe,

za którym gorąco orędują Leeuw i inni:

Po pierwsze, analiza ewaluacyjna może

zostać scharakteryzowana jako

przestrzeganie metodologicznych

standardów solidności, zasadności oraz

wiarygodności, i wynikającą z tego

nieodpartą siłę prawdy... A po drugie, ten

rodzaj badania polityki społecznej może

być związany z potrzebą uzasadnienia

publicznego obowiązku ingerowania w

życie społeczne.

Musimy opracować metodologicznie poprawne, złożone

systemy nadzoru i ewaluacji, szczególnie w sektorze

publicznym, który jest odpowiedzialny za „ingerowanie w

życie społeczne”. W poniższym omówieniu poszukuję

pewnych przydatnych zasad przewodnich, które mogą

pomóc w projektowaniu efektywnych systemów

zarządzania sektorem publicznym.

Analizuję również skutki stosowania systemów

wskaźników dla przeprowadzania ewaluacji.

Czego projektanci złożonych systemów nauczyli się z

doświadczenia?

Gene Glass, w przenikliwym artykule pt. „Paradoks

znakomitych szkół i ludzi do nich należących”, twierdził, że

występuje konflikt między naszym przekonaniem, że ludzie

działają najefektywniej w otoczeniu, które ich bardzo

wspiera i docenia, a koncepcją odpowiedzialności, oceny

skuteczności oraz wydawania opinii na jej temat, być może

ze szkodą dla osiąganych przez nich wyników.

iii

W innym

nowatorskim artykule pt. „Sposób na nieprzewidywalność”

zaproponował pewne ogólne zasady postępowania w

przypadku nieprzewidywalnych systemów.

Takie systemy muszą być starannie

nadzorowane; aktorzy w nich działający

muszą pozostawać uniwersalni i

elastyczni, a usługi muszą być w dużym

stopniu zdecentralizowane. Ludzie muszą

mieć możliwość wyboru, a nie wieczne

prawdy. W oświacie ten styl postępowania

byłby dokładnym przeciwieństwem

odgórnego planowania nakazowego i

polityki, którą my, badacze, w swoim

mniemaniu odkrywamy.

Informacja zwrotna na temat rezultatów „starannego

nadzoru” musi być przekazywana jednostkom, które są w

stanie zinterpretować dane, a w razie potrzeby na ich

podstawie podjąć działania. Z tego względu zapewnienie

„informacji zwrotnej” (feedback) być może jest

zdecydowanie najważniejszą rolą systemów wskaźników.

Niektórzy twierdzą, że bezcelowe jest przekazywanie

informacji zwrotnej na temat wyników uczniów, którzy

zakończyli naukę; że jest to przestarzałe podejście.

Potrzebne są natomiast prognozy, przewidywania i cele do

osiągnięcia, ukierunkowane na przyszłość. Dotychczas nie

przeprowadzono jeszcze żadnych eksperymentów na

poparcie tych poglądów. Istnieją jednak argumenty

przemawiające przeciwko stosowaniu konkretnych celów

do osiągnięcia oraz skupianiu się na prognozach. Dobre

dane z przeszłości są przynajmniej wiarygodne; są one

dokładniejsze niż jakiekolwiek zakładane cele. Jak

twierdził znakomity amerykański metodolog, Donald T.

Campbell:

Państwo i Rynek – numer 2 / 2004

www.pir.org.pl

Tajemnicą racjonalnej innowacji jest

selekcja z perspektywy czasu, a nie

przewidywane zmiany.

Co więcej, Karl Popper twierdził, że w gruncie rzeczy

przyszłość jest nieprzewidywalna. Jego biograf, Magee,

napisał:

Wraz z upadkiem koncepcji, że przyszłość

można naukowo przewidzieć, załamuje się

również idea całkowicie zaplanowanego

społeczeństwa.

„Naukowe” podejście Poppera, obejmujące systemy

oparte na współudziale i współdziałaniu, demokratyczne,

organiczne oraz uznanie, że przyszłość jest

nieprzewidywalna, możemy przeciwstawić „całkowicie

zaplanowanemu”, „menedżerskiemu” społeczeństwu, w

którym procedury są narzucone i określone przez systemy

hierarchiczne. Wydaje się prawdopodobne, że między tymi

podejściami istnieją dwie zasadnicze różnice: 1)

przekonanie, że przyszłość można kontrolować i

przewidywać, oraz 2) brak zaufania i szacunku dla

najbardziej zainteresowanych – dla „ludzi”. W Anglii

najlepszy przykład systemu opartego na autorytarnym

menedżeryzmie stanowi OFSTED, Urząd Standardów

Edukacji (Office for Standards in Education).

vii

W Tabeli 1 podaję przykładowe kontrasty między

podejściem naukowym, badawczym, a kontrolnym

menedżeryzmem, który wiąże się z ustalaniem

konkretnych celów do osiągnięcia i wskazywaniem

winnych niepowodzenia. Wskaźniki mogą pojawić się w

obu metodach.

Tabela 1. Dwa przeciwstawne podejścia do projektowania

systemów (np. zarządzania sektorem publicznym)

Etos Bierna

obserwacja

Czynna

ingerencja

Demokratyczny/profesjonaln

Naukowy

Informacja

zwrotna

Oparta na

wskaźnikac

Eksperyment

„Badania

rozproszone”

Rozwój

praktyki

„opartej na

dowodach”

Hierarchiczny/kontrolny

menedżerski

Opinie

Oparte na

władzy

Publikowane

wyniki

zakładanymi

celami,

nagrodami i

karami

W odniesieniu do wartości i potrzeby „ingerowania w

społeczeństwo”, Popper reprezentował ciekawy punkt

widzenia. Twierdził, że podstawową wartością nie jest

umożliwianie ludziom poszukiwania szczęścia, lecz

„minimalizowanie cierpienia, którego można uniknąć”.

viii

Wynika z tego, że musimy wyszukiwać cierpienie (tj.

identyfikować problemy) i podejmować kroki mające na

celu poprawę systemu i usunięcie tych problemów.

Na opisanie tego podejścia Popper przewrotnie

wybrał trzy niepopularne słowa: „fragmentaryczna

inżynieria społeczna” (piecemeal social engineering).

Ostrzegał on, że próby planowania przyszłości – zamiast

rozwiązywania bieżących problemów – nie będą skuteczne

i doprowadzą do poszukiwania winnych, zrzucania

odpowiedzialności i stosowania przemocy.

Psycholog, ekonomista i informatyk, Herbert A.

Simon (laureat Nagrody Nobla za teorię

„satysfakcjonującego” wyboru w ekonomii) wyraził taki sam

pogląd.

Utrzymywał, że nawet systemy komputerowe

wymagają „fragmentarycznej inżynierii społecznej”.

Systemy komputerowe są stosunkowo proste w

porównaniu z żywymi, wzajemnie na siebie oddziałującymi

systemami istot ludzkich, jednak Simon, pracując nad

rozwojem systemów podziału czasu w komputerach,

zauważył, że:

Państwo i Rynek – numer 2 / 2004

www.pir.org.pl

Były one tworzone, modyfikowane i

udoskonalane w kolejnych etapach. Być

może teoria mogła przewidzieć wyniki tych

eksperymentów i wyeliminować potrzebę

ich prowadzenia. W rzeczywistości tak się

nie stało i nie znam żadnego znawcy tych

niezmiernie złożonych systemów, który

umiałby konkretnie powiedzieć, jak można

było tego dokonać. Aby zrozumieć

działanie tych systemów, należało je

utworzyć i obserwować ich

funkcjonowanie.

Pracując z podobnie skomplikowanymi systemami w

produkcji i przemyśle maszynowym, statystyk, który został

głównym guru w dziedzinie kontroli jakości, W. Edwards

Deming, tak jak Popper podkreślał znaczenie identyfikacji

problemu, uznając ją za najważniejszy obowiązek

kierownictwa.

Ponadto, zachęcał do „wypędzenia strachu”

i poszukiwania „radości w pracy”. Cenił zapewnianie

ludziom ważnych stanowisk pracy i uważał, że celem

prowadzenia przedsiębiorstwa powinno być utrzymywanie

miejsc pracy oraz dostarczanie dóbr i usług, a taki etos z

pewnością jest wskazany w zarządzaniu sektorem

publicznym. Jego przekonanie o potrzebie wypędzenia

strachu i poszukiwania radości w pracy opierało się na

realistycznej obserwacji sytuacji, w których wszystko

działało, a wręcz ulegało poprawie, w porównaniu z

efektami etosu strachu, który prowadził do podupadania

produkcji i pogarszania się jakości.

Inny przykład stanowią osoby dążące do

sprawowania kontroli nad gospodarką w Europie

Wschodniej za czasów komunizmu; z upodobaniem

ustalały one konkretne cele. Przeważnie cele te były

osiągane – według danych liczbowych – nawet jeśli nie

mały sensu. (Dla zilustrowania tej sytuacji Perrin przytoczył

przykład Polski, która miała najcięższe meble w Europie,

ponieważ produkcję mierzono na podstawie wagi.)

xii

Sprawozdania, dane, słowa lub opisy należą do

metod relacjonowania sytuacji. Lecz przed etapem

relacjonowania należy ustalić, wszelkimi możliwymi

sposobami, wykaz potrzeb i problemów stanowiących

nieodłączną część systemu, ponieważ zaspokajanie tych

potrzeb i rozwiązywanie tych problemów prowadzi do

udoskonalania systemu. Z tego względu, powszechnie

znany „Cykl ewaluacji” Alkina, który w latach 70. stanowił

podstawę prac Centrum Badań nad Ewaluacją (Center for

the Study of Evaluation) University of California w Los

Angeles (UCLA), rozpoczyna się od oceny potrzeb.

Następnie omawiane są planowanie programu, ewaluacja

kształtująca i ewaluacja sumująca.

xiii

Odpowiada to

podejściu Poppera w odniesieniu do identyfikacji

problemów, testowania rozwiązania, a następnie

sprawdzania, czy odniosło skutek –jego „fragmentarycznej

inżynierii społecznej”.

Glass przeciwstawiał również systemy „elastyczne i

zdecentralizowane” „odgórnemu planowaniu

nakazowemu”. Rozwijając tę dychotomię, przeciwstawne

systemy można określić jako

„demokratyczne/profesjonalne” w odróżnieniu od

„hierarchicznych/kontrolnych”, bądź „wychodzące z

ewaluacją do ludzi” w przeciwieństwie do „służących

ewaluacji ludzi”.

Czasami uważa się, że rozróżnienia przedstawione w

Tabeli 1 reprezentują samczą bezwzględność typową dla

dynamicznych przedsiębiorstw w odróżnieniu od

łagodnego, nastawionego na współpracę podejścia w

sektorze publicznym. Jednak zarówno w biznesie, jak i w

służbie publicznej można przyjąć dowolny z tych stylów.

Moglibyśmy przejść do pojęć bardzo ogólnych, i mówić o

„miękkim sercu” i „bezwzględności”, lecz byłoby to mylące.

Miękkie serce odnosi się do wartości – ceni się

bezpieczeństwo ludzi, posiadanie przez nich środków

utrzymania, ich zdrowie i szczęście. Jednak popieranie

wysokiej jakości życia nie ma większego sensu bez

„bezwzględnego” podejścia do kwestii sposobu jej

osiągnięcia i udostępnienia wszystkim; w tym zakresie

ważną rolę odgrywa nauka. Do skutecznej implementacji

miękkie serce wymaga bezwzględnej nauki. A dowody

naukowe dotyczące zarządzania złożonymi systemami nie

przemawiają za centralizacją i dirigisme (kierowaniem

gospodarką).

Deming bardzo mądrze zauważył, że „(...) tam, gdzie

jest strach, pojawią się błędne dane”.

xiv

Czternaście lat

później James Popham twierdził, że naciski na szkoły,

połączone z bodźcami finansowymi i sankcjami, prowadzą

do zafałszowania wyników egzaminów.

Zawsze tak było.

Podobne obawy wyrażano w Anglii, szczególnie w

odniesieniu do sprawdzianów w szkołach podstawowych.

Znaną praktyką nauczycieli było otwieranie zestawów

egzaminacyjnych, aby przygotować do nich uczniów. Inne

zniekształcenia w zachowaniu wynikają z publikowania

surowych wyników egzaminacyjnych – tzw. „tabeli

ligowych” (League Tables) – kolejnego źródła strachu. Po

wprowadzeniu tabel liczba uczniów wydalonych ze szkół

wzrosła o 600%. Z tego względu dane przestały być

porównywalne, ponieważ niektóre szkoły usuwały uczniów

szybciej, a inne wolniej.

Państwo i Rynek – numer 2 / 2004

www.pir.org.pl

Projektowanie systemów wskaźników

Wskaźniki mają na celu kontrolę działania systemu za

pomocą regularnych pomiarów. Bez wątpienia wiążą się z

nimi zarówno wielkie możliwości, jak i poważne

niebezpieczeństwa.

xvi

Ile wskaźników powinno się stosować? W warunkach

efektywnej rejestracji i wymiany danych można

przetwarzać tysiące wskaźników. Lecz interpretacja

pomiaru wymaga czasu i wysiłku, więc może to nakładać

pewne ograniczenie na liczbę wskaźników, które powinno

się gromadzić. Jednak wskaźniki w formie informacji

zwrotnej należy przekazywać każdej osobie, na której

spoczywa pewna odpowiedzialność w systemie, więc

mogą być potrzebne setki wskaźników i rzeczywiście taka

ilość jest wykorzystywana w szkołach.

Jak odbywa się selekcja wskaźników? Należy:

1. zbadać, które wyniki mają znaczenie;

2. przejrzeć dane w celu zidentyfikowania

istotnych zmiennych, które wpływają na te

wyniki („współczynników losowych”), a

następnie

3. korygować te robocze zestawienia w ciągłej

dyskusji z osobami, których praca jest

nadzorowana - które najlepiej znają

system.

Tabela 2. Typologia

wskaźników w systemach

edukacyjnych

serce

Emocjonalne

(Affective)

np. postawy,

ambicje, jakość

życia

ciało

Behawioralne

(Behavioural)

np. umiejętności,

współpraca,

zachowania

zdrowotne

Cele

/Wyniki

umysł

Poznawcze

(Cognitive)

np. osiągnięcia,

przekonania

Grupy

Kategorie

demograficzne

(Demographic

descriptors)

np. płeć, wiek,

status społeczno-

ekonomiczny

Wydatki

(Expenditures)

np. zasoby, czas,

pieniądze

Strategie

Przepływ (Flow)

np. KTO CZEGO

jest uczony, JAK i

JAK DŁUGO?:

zrównoważony

program nauczania,

zapamiętywanie,

metody, czas

Uwaga: W każdej dziedzinie można opracować wskaźniki

dla zmiennych SEKWENCJI: zmiennych nakładów,

procesu, wyników pośrednich i długookresowych, a także

dla różnych JEDNOSTEK pomiaru: ucznia, klasy,

nauczyciela, wydziału, szkoły, kuratorium oświaty, kraju

itp.

Procesy te stanowiły podstawę opracowania

systemów wskaźników, które odniosły bezprecedensowy –

i jak dotychczas niedościgniony – sukces, a zastosowała je

dobrowolnie prawie jedna trzecia szkół w Anglii.

xvii

Tabela 2 może pomóc w wyborze wskaźników do

systemów kształcenia. Przedstawia typologię wskaźników,

którą łatwo zapamiętać mnemotechnicznie (ABCDEF) i

Państwo i Rynek – numer 2 / 2004

www.pir.org.pl

która ma na celu „pomiar rzeczy ważnych” w sposób dość

wyczerpujący.

Ze względu na słaby związek między procesami a

wynikami najważniejsze są wskaźniki wyników. W Tabeli 2

w wierszach dotyczących Celów/Wyników są one nazwane

podobnie jak w przypadku „Taksonomii celów

edukacyjnych” Blooma.

xviii

Do określenia wzajemnie na

siebie oddziałujących wskaźników dotyczących uczniów,

programu, sposobów i czasu nauczania, czyli trudnych do

opracowania wskaźników procesu, przyjęłam termin

OECD „przepływ”.

xix

Jednak, niestety, Tabela 2

przedstawia typologię idealną, która dotychczas nie

została zastosowana w żadnym systemie.

Wpływ systemów wskaźników na działania

ewaluacyjne

Wskaźniki stały się codziennością i szybko się rozwijają.

Zapewniają rodzaj nieustannej ewaluacji.

Czy ewaluatorzy mogą jeszcze odegrać jakąś rolę?

Tak, ale rola ta będzie się zmieniać w miarę wchodzenia w

erę ciągłej ewaluacji opartej na danych. Gdy ewaluator

pracuje z organizacją, w której funkcjonuje system

wskaźników, przestaje być potrzebne ustalenie kryteriów i

opracowanie systemów zbierania danych. W takiej sytuacji

ewaluatorzy mogą rozważyć następujące kwestie.

Podstawowe uzasadnienie (ewaluacja projektu) Należy

zadać poniższe pytania; niektóre mogą wydawać się

proste, lecz czasami odpowiedzi ujawniają naszą

niewiedzę. Czy mierzymy sprawy ważne, czy raczej

sprawdzamy, dla kogo są one ważne? Czy ten system

„nadzoru i informacji zwrotnej” wspiera nadrzędne cele

społeczeństwa obywatelskiego? Czy chcemy

zaproponować dodatkowe wskaźniki, czy zrezygnować z

niektórych istniejących? Czy pytania o rasizm są

korzystne, czy szkodliwe? Czy pytania o zażywanie

narkotyków zwiększają skalę tego zjawiska?

Jakość danych Czy procedury zbierania danych są

adekwatne? Czy np. zapewniają poufność, aby

respondenci mogli „wypowiadać się” bez obaw? (Prostym

sposobem na zwiększenie poufności mogą być plastikowe

koperty na kwestionariusze, ponieważ plastiku nie można

otworzyć, a następnie powtórnie zamknąć bez widocznego

uszkodzenia.) Czym można wyjaśnić brak danych? Czy

występują naciski na fałszowanie danych (np. czy w

szkołach niektórym dzieciom nakazuje się pozostać w

domu w dniu ważnych egzaminów oraz czy kadra ma

wcześniej dostęp do materiałów egzaminacyjnych)?

Wykorzystanie informacji zwrotnej Należy sprawdzić, w

jaki sposób wszystkie strony, np. osoby bezpośrednio

zainteresowane, kierownicy i personel, korzystają z

informacji zwrotnej. Czy występują zniekształcenia, np.

sugerowanie, że korelacje można interpretować jako

wskazanie przyczyn? Jeśli stosuje się standardy, to czy są

one sprawiedliwe (np. kryteria wartości dodanej na

jednego ucznia), czy rażąco niesprawiedliwe (np.

porównywanie szkół na podstawie jakiegoś prostego

wskaźnika statusu społeczno-ekonomicznego)? Czy

występują jakieś szczególne czynniki, które mogłyby

wyjaśniać pewne tendencje w danych dotyczących

konkretnej jednostki? Jest to niebezpieczne pytanie, lecz

bardzo interesujące (patrz „Hipotezy wysuwane na

podstawie danych” poniżej). Istotny problem w

interpretowaniu danych stanowią zmiany roczne

spowodowane nieodłącznym zróżnicowaniem różnych

prób ludzi. Zróżnicowanie jest nieuniknione. Ponadto, po

obliczeniu średniej mniej więcej połowa obserwacji

znajduje się poniżej średniej. Niestety, zwykle politycy

krytykują jednostki osiągające wyniki poniżej przeciętnej,

chociaż z konieczności w połowie z nich musi tak być.

Należy temu przeciwdziałać, aby chronić morale.

Identyfikacja problemu Ponieważ systemy udoskonala

się poprzez korygowanie błędów, należy identyfikować

problemy, aby dążyć do stałego ulepszania. Wymaga to

taktownej ewaluacji, opartej na współudziale badanych,

mającej na celu zajęcie się problemem, a nie

poszukiwanie winnych.

Hipotezy wysuwane na podstawie danych Czy można

wysuwać użyteczne hipotezy na podstawie rozwijających

się tendencji widocznej w danych oraz pojawiających się

prawidłowości w konkretnych instytucjach? Zbyt często

interpretacje prawidłowości w danych traktuje się jako

teorie, kiedy w rzeczywistości stanowią one jedynie

nieudowodnione hipotezy.

Sprawdzanie hipotez na podstawie kontrolowanych

eksperymentów na małą skalę Pojedyncza organizacja

może wprowadzić zmiany i obserwować wskaźniki, lecz

większość wskaźników wyników będzie się zmieniać z

roku na rok i jest to nieuniknione. Z tego względu

organizacja mogłaby potrzebować wielu lat na

sprawdzenie skuteczności nowej procedury. Jeśli jednak

pojedyncza organizacja połączy wysiłki z dwudziestoma

innymi organizacjami i systematyczne zmienią one swoje

postępowanie, aby zbadać wpływ na wskaźniki wyników,

Państwo i Rynek – numer 2 / 2004

www.pir.org.pl

wówczas w ciągu roku organizacja otrzyma rezultaty

równoważne zbieraniu danych z dwudziestu lat. W ten

sposób dobry projekt eksperymentów przyspiesza proces

zdobywania wiedzy o skutecznych metodach.

Często właśnie ostatni etap, sprawdzanie hipotez,

stanowi największy wkład ewaluatora. Przypomina

ewaluację kształtującą, działania mające na celu

doskonalenie programu, lecz w dużym stopniu jest

wspomagany przez nieprzerwany strumień danych

dotyczących wskaźników (zmodyfikowanych dla

konkretnych programów, patrz „Podstawowe uzasadnienie

(ewaluacja projektu)” powyżej) oraz na podstawie

szeregów czasowych danych z lat poprzednich.

Ewaluatorzy mogą uważać,

że nie warto

przeprowadzać sporadycznych eksperymentów na małą

skalę, mimo że są wykonalne, lecz w rzeczywistości każdy

kontrolowany eksperyment staje się istotny w czasach, gdy

metaanaliza odgrywa znaczącą rolę. Na przykład, Hedges

przedstawił niepowtarzalną syntezę trzech rodzajów

danych dotyczących skutków jednej zmiennej polityki –

zmniejszenia liczby uczniów w klasie.

Były to następujące

rodzaje danych: wyniki badań ankietowych (tj. wskaźniki),

eksperymenty na małą skalę (np. podejmowane przez

profesjonalistów) oraz jeden duży eksperyment. Hedges

wykazał, że siła wpływu zmierza do wartości

współczynnika wynoszącego około 0.15 (the effect size)..

Eksperymenty na małą skalę warto przeprowadzać nie

tylko ze względu na wnioski z badania Hedgesa

sugerujące, że mogą one dać nam rezultaty zbliżone do

wyników, które można by otrzymać wskutek dużego

randomizowanego, kontrolowanego badania, lecz także

dlatego, że są one źródłem instytucjonalnej wiedzy o

wysokiej wiarygodności zewnętrznej dla danej instytucji.

Uczestnicy będą mieli poczucie, że jeśli eksperyment udał

się „na ich oczach”, wówczas w przyszłości również mogą

być pewni sukcesu. Boruch podaje przykłady roli

eksperymentowania w wielu dyscyplinach nauk

społecznych.

xxi

Oczywiście, z systemami wskaźników wiążą się

osobne problemy. Na przykład, kto powinien kontrolować

dostęp do danych (wskaźników) powstających w systemie

nadzorowania organizacji? Jeśli Ustawa o wolności

informacji, która niedługo ma nabrać mocy obowiązującej

w Anglii, wymaga pewnych danych, ile danych powinno się

publikować i w jakiej formie? Takie problemy nadal czekają

na rozwiązanie i, jak zawsze, „diabeł tkwi w szczegółach”.

Problem ten będzie przedmiotem rozważań (i sporów) w

każdej organizacji i w każdym systemie politycznym. Na

przykład, jako część dwuletniego kontraktu na

zaprojektowanie krajowego systemu wskaźników wartości

dodanej dla szkół, zalecano równowagę między

profesjonalną swobodą decyzji poszczególnych

nauczycieli a pragnieniem uzyskania informacji o

skuteczności szkół ze strony rodziców i państwa.

xxii

Rozwiązanie stanowił wybór wskaźników zagregowanych

na poziomie grupy przedmiotów nauczania (np.

„matematyka i nauki ścisłe”, „nauki humanistyczne” lub

„sztuka i projektowanie”). Zapewniał ogólnie akceptowalną

równowagę między prawem społeczeństwa do informacji a

prawem nauczycieli do profesjonalnego traktowania i

„uczciwego procesu”.

Zakończenie

Ewaluatorzy mogą z zadowoleniem przyjmować systemy

wskaźników i współpracować zarówno z osobami

zlecającymi ich opracowanie (najlepiej z profesjonalistami),

jak i z ich autorami. Jeśli nie istnieje system wskaźników,

ewaluatorzy mogą także rozważyć pomysł jego utworzenia

w ramach ewaluacji. Wówczas zostawią po sobie

możliwość ciągłej samooceny.

Państwo i Rynek – numer 2 / 2004

www.pir.org.pl

Bibliografia

Alkin, M. C. i C. T. Fitz-Gibbon (1975) ‘Methods and

Theories of Evaluating Programmes’, Journal of Research

and Development in Education 8(3): s. 2-15.

Bloom, B. E. (1956) Taxonomy of Educational Objectives.

Ann Arbor, MI: Longmans.

Boruch, R. (1997) Randomised Experiments for Planning

and Evaluation: A Practical Guide. Thousand Oaks, CA:

Sage.

Campbell, D. T. (1977) ‘Comment on Robert J. Richard’s

“The Natural Selection Model of Conceptual Evolution” ’,

Philosophy of Science 44: s. 502-507.

Deming, W. E. (1994) Out of Crisis: Quality, Productivity

and Competitive Position. Cambridge, MA: Cambridge

University Press.

Fitz-Gibbon, C. T. (1996a) Monitoring Education:

Indicators, Quality and Effectiveness. London and New

York: Cassell.

Fitz-Gibbon, C. T. (1996b) ‘Official Indicator Systems in the

UK: Examinations and Inspections’, International Journal

of Educational Research 25(3): s. 239-247.

Fitz-Gibbon, C. T. (1997) The Value Added National

Project: Final Report Feasibility Studies for a National

System of Value Added Indicators. London: School

Curriculum and Assessment Authority. (dokument w

formacie pdf dostępny na witrynie internetowej

www.cem.dur.ac.uk)

Glass, G. V. (1975) ‘A Paradox about Excellence of

Schools and the People in Them’, Educational Researcher

4(3): s. 9-13.

Glass, G. V. (1979) ‘Policy for the Unpredictable

(Uncertainty Research and Policy)’, Educational

Researcher 8(9): s. 12-14.

Hedges, L. V. (2000) ‘Using Converging Evidence in Policy

Formation: the Case of Class Size Research’, Evaluation

and Research in Education 14(3-4): s. 193-205.

Herman, J. L., L. L. Morris i C. T. Fitz-Gibbon (1987)

Evaluator’s Handbook. Newbury Park, CA: Sage.

Kogan, M. (1999) The Ofsted System of School Inspection:

an Independent Evaluation, A report of a study by The

Centre for the Evaluation of Public Policy and Practice and

Helix Consulting Group. London: CEPPP, Brunel

University.

Leeuw, F. L., R. C. Rist i R. Sonnichsen (red.) (1994) Can

Governments Learn? Comparative Perspectives on

Evaluation and Organizational Learning. New Brunswick,

NJ: Transaction Publishers.

Magee, B. (1976) Popper. Glasgow: Fontana/Collins.

OECD (1995) Education at a Glance: OECD Indicators.

Paris: Organization for Economic Co-operation and

Development.

OECD (1998) Education at a Glance: OECD Indicators.

Paris: Organization for Economic Co-operation and

Development.

Perrin, B. (2000) Personal Communication.

Popham, J. (2000) ‘The Coming Scandal in American

Education’, Paper presented at American Educational

Research Association annual meeting, New Orleans, April

s. 24-28.

Simon, H. A. (1988) The Sciences of the Artificial.

Cambridge, MA: The MIT Press.

Smith, P. (1995) ‘On the Unintended Consequences of

Publishing Performance Data in the Public Sector’,

International Journal of Public Administration 18(2-3): s.

277-310.

Tymms, P. (1999) Baseline Assessment and Monitoring in

Primary Schools: Achievements, Attitudes and Value-

added Indicators. London: David Fulton Publishers.

Tłumaczył: Dariusz Sielski.

Redakcja „Państwa i rynku“ dziękuje Autorce za zgodę na tłumaczenie tekstu na język polski.

Leeuw, F. L., R. C. Rist i R. Sonnichsen (red.) (1994) Can Governments Learn? Comparative Perspectives on Evaluation and Organizational

Learning. New Brunswick, NJ: Transaction Publishers, s. 4-5.

iii

Glass, G. V. (1975) ‘A Paradox about Excellence of Schools and the People in Them’, Educational Researcher 4(3): s. 9–13.

Glass, G. V. (1979) ‘Policy for the Unpredictable (Uncertainty Research and Policy)’, Educational Researcher 8(9): s. 14.

Campbell, D. T. (1977) ‘Comment on Robert J. Richard’s “The Natural Selection Model of Conceptual Evolution” ’, Philosophy of Science 44: s.

506.

Magee, B. (1976) Popper. Glasgow: Fontana/Collins, s. 100.

vii

Patrz np. Kogan, M. (1999) The Ofsted System of School Inspection: an Independent Evaluation, A report of a study by The Centre for the

Evaluation of Public Policy and Practice and Helix Consulting Group. London: CEPPP, Brunel University; Fitz-Gibbon, C. T. (1996b) ‘Official
Indicator Systems in the UK: Examinations and Inspections’, International Journal of Educational Research 25(3): s. 239-247.

viii

Magee, B. (1976) Popper. Glasgow: Fontana/Collins, s. 84.

Simon, H. A. (1988) The Sciences of the Artificial. Cambridge, MA: The MIT Press.

Simon, H. A. (1988) The Sciences of the Artificial. Cambridge, MA: The MIT Press, s. 25.

Deming, W. E. (1994) Out of Crisis: Quality, Productivity and Competitive Position. Cambridge, MA: Cambridge University Press.

xii

Perrin, B. (2000) Personal Communication.

Państwo i Rynek – numer 2 / 2004

www.pir.org.pl

xiii

Np. Alkin, M. C. i C. T. Fitz-Gibbon (1975) ‘Methods and Theories of Evaluating Programmes’, Journal of Research and Development in

Education 8(3): s. 2-15; Herman, J. L., L. L. Morris i C. T. Fitz-Gibbon (1987) Evaluator’s Handbook. Newbury Park, CA: Sage.

xiv

Deming, W. E. (1994) Out of Crisis: Quality, Productivity and Competitive Position. Cambridge, MA: Cambridge University Press.

Popham, J. (2000) ‘The Coming Scandal in American Education’, artykuł przedstawiony na dorocznym spotkaniu Amerykańskiego Towarzystwa

Badań Edukacyjnych w kwietniu w Nowym Orleanie, s. 24-28.

xvi

Smith, P. (1995) ‘On the Unintended Consequences of Publishing Performance Data in the Public Sector’, International Journal of Public

Administration 18(2–3): s. 277-310; Fitz-Gibbon, C. T. (1996a) Monitoring Education: Indicators, Quality and Effectiveness. London and New York:
Cassell; Tymms, P. (1999) Baseline Assessment and Monitoring in Primary Schools: Achievements, Attitudes and Value-added Indicators.
London: David Fulton Publishers.

xvii

Patrz www.cem.dur.ac.uk.

xviii

Bloom, B. E. (1956) Taxonomy of Educational Objectives. Ann Arbor, MI: Longmans.

xix

OECD (1995) Education at a Glance: OECD Indicators. Paris: Organization for Economic Co-operation and Development. OECD (1998)

Education at a Glance: OECD Indicators. Paris: Organization for Economic Co-operation and Development.

Hedges, L. V. (2000) ‘Using Converging Evidence in Policy Formation: the Case of Class Size Research’, Evaluation and Research in Education

14 (3-4): s. 193-205.

xxi

Boruch, R. (1997) Randomised Experiments for Planning and Evaluation: A Practical Guide. Thousand Oaks, CA: Sage.

xxii

Fitz-Gibbon, C. T. (1997) The Value Added National Project: Final Report Feasibility Studies for a National System of Value Added Indicators.

London: School Curriculum and Assessment Authority. (na witrynie internetowej www.cem.dur.ac.uk)