Informační možnosti testu

V sekci o vývoji testu jsme požadovali definovat cíl testování, abychom mohli zvolit adekvátní způsob sestavení a vyhodnocení testu. Různé metody vyhodnocení testu totiž poskytují různé informace, a tedy umožňují využívat testy k různým účelům. Způsob sestavení testu má vliv zejména na přesnost měření a na zasazení výsledků testu do širšího kontextu, jako je například srovnání s jinými testy nebo, v případě testování ve vzdělávání, velmi žádoucí srovnání s nějakým objektivním standardem (CEFRL, RVP/ŠVP apod.).

Jednotlivý test

Nejsnazší je sestavit jeden samostatný test a vyhodnotit jej prostým bodováním. Tedy pouze seřadíme vytvořené úlohy vhodným způsobem za sebe. Žák potom dostane tolik bodů, kolik úloh vyřešil správně. Takovýto samostatný test s jednoduchým způsobem vyhodnocení poskytuje pouze omezené informace. Základní nevýhodou je, že nelze s určitostí odhadnout, jaká je skutečná obtížnost testu. I pokud vytvoříme test například pro žáky šestých tříd a zařadíme do něho pouze příslušné učivo, dva různé testy budou vždy různě obtížné. V řeči čísel to znamená, že stejný žák získá obecně v každém testu jiný počet bodů. Bohužel tato vlastnost je principiální a dokud zůstáváme u jednoduchého sestavení testu, nelze se jí nikdy zcela vyhnout. Důsledků je několik.

Nesrovnatelnost testů

V první řadě jsou dva různé testy navzájem nesrovnatelné. Dostane-li žák A v testu I 54 bodů, nelze říct, zda je lepší či horší než žák B, který v testu II získal 39 bodů.

Naměřené dovednosti

Není zřejmé, jaké dovednosti žák vlastně má, pokud dosáhl určitý počet bodů. Ze samotného bodového údaje nelze vyvodit, jaké úlohy žák dokázal vyřešit a jaké ne. Mohlo se stát, že žák vyřešil pouze úlohy z některé specifické oblasti, kterou ovládá, avšak jinou část testu vůbec nezvládl. Případně vyřešil jen velké množství relativně snadných úloh, avšak nezvládl úlohy obtížnější. Nebo naopak zvládl obtížné úlohy, ale na jednodušší mu již nezbyl čas, proto má bodů málo.

Srovnání žáků

Jediným spolehlivým výsledkem, který jsme tímto způsobem schopni získat, se tak stává srovnání všech žáků, kteří tento stejný test řešili, navzájem mezi sebou. Podle bodů, které žáci získali, je seřadíme sestupně a získáme jejich pořadí, které odpovídá relativní míře měřené vlastnosti. Toto pořadí se potom obvykle uvádí jako tzv. percentil – procentuální vyjádření počtu žáků, kteří dopadli stejně nebo hůře než příslušný žák. Pomocí statistického zpracování dat lze postoupit od porovnávání žáků k porovnávání různých skupin žáků (tříd, škol apod.). Vše však za podmínky, že všichni žáci vyplnili stejný test.

Srovnání testů

V mnoha případech je žádoucí, abychom byli schopni porovnat výsledky žáků v různých testech. Týká se to například udržení stejné úrovně mezi jednotlivými roky (třeba u státní maturity) nebo u různých variant testů (různé termíny, varianty A/B omezující možnost opisování) apod. Abychom srovnatelnosti mezi testy dosáhli, musíme test skládat sofistikovaněji. Existují v zásadě dva základní způsoby zajištění srovnatelnosti testů, které je možno kombinovat a řetězit.

Srovnání pomocí obsahu

První možností je srovnat testy prostřednictvím jejich obsahu. V praxi je obvykle nejjednodušší sestavit dva testy, které chceme srovnat, tak, aby část úloh byla společná – vyskytovala se v obou testech. Konkrétní počet úloh, který je třeba vložit do obou testů, závisí na vyhodnocovací metodě a specifikaci testu. Obvykle komplikovanějším způsobem než srovnání pomocí obsahu je srovnání pomocí standardu. Jestliže existuje nějaký objektivní standard, který chceme testem měřit (např. CEFR pro jazyky), pak sjednotíme-li dva zcela nezávislé testy vůči tomuto standardu, jsou v jeho intencích navzájem srovnatelné.

Srovnání přes testované

Druhou možností srovnání testů je využít samotných žáků. Můžeme porovnávat výsledky stejných žáků v různých testech a na základě toho tyto testy porovnat. Tato metoda má v praxi mnoho variant a často je při ní využívána pilotáž. Organizačně nejjednodušší je obvykle sestavit pilotní test, který necháme vyřešit skupinou žáků. Pilotní test potom rozdělíme do požadovaného počtu ostrých testů, které patřičně doplníme dalšími úlohami. Ostré testy jsou potom na základě výsledků žáků z pilotáže srovnatelné. Tento postup lze použít také, máme-li k dispozici skupinu žáků, jejichž schopnosti známe (například z nějakých externích informací, certifikátů apod.). Když jim dáme vyřešit svůj test, jsme schopni srovnat výsledky každého dalšího žáka v tomto testu se schopnostmi původní skupiny.

Ověřování schopností

Často proklamovaným cílem testování bývá ověřování schopností (dovedností, znalostí, ...) žáků. Ověřit skutečné schopnosti však není jednoduché. Je třeba dále zdokonalit sestavování i vyhodnocování testu. Hlavním problémem ověřování schopností pomocí testu je zařídit, že vyřešení testu skutečně prokazuje žákovy schopnosti. V první řadě je nutné vytvořit nějaký standard – detailní soupis schopností, které žák má mít. Tento standard je potom východiskem pro autory testu i ty, kdož pracují s jeho výsledky. Dále můžeme postupovat dvěma základními způsoby.

Expertní tvorba testu

Dodnes je velmi často při tvorbě ověřovacího testu využívána výhradně expertní metoda, která je založena na zkušenostech a práci odborníků na testovanou doménu. Na základě standardu sepíší odborníci seznam typizovaných úloh, které dle jejich názoru odpovídají schopnostem ve standardu popsaným. Má se za to, že z dohody dostatečného množství expertů vzejde ideální množina úloh, které mají být v testu zařazeny. Autoři úloh potom tvoří dle tohoto expertního vzoru. Získané úlohy se sestaví do testu. Test je potom vyhodnocen obvykle tradičním způsobem bodování a je, opět expertně, určena hranice minimálního počtu bodů, který dokazuje dostatečné schopnosti žáka.

Empirická tvorba testu

Empirický přístup k tvorbě ověřovacího testu pracuje s myšlenkou, že test ke standardu vztáhneme empiricky – změříme jej. Empirický přístup nabízí různě detailní výsledky, podle čehož se také liší konkrétní postup. Možné výsledky jsou trojí: ptáme se, zda žák dosáhl alespoň dané minimální míry schopnosti (maturita, profesní zkoušky – tzv. pass/fail testy), druhou možností je zařadit žáka do kategorie, která jeho schopnostem odpovídá (CEFRL), a třetí možností je přímo vyjmenovat žákovy dílčí schopnosti (namísto „(ne)umí matematiku“ řekneme například „základní operace zvládne, rovnice mu dělají problémy, slovní úlohy nezvládá“).

Kalibrace

Každý ze zmíněných tří přístupů musí řešit nejdůležitější krok empirické tvorby ověřovacího testu, kterým je kalibrace úloh a samotného testu. Kalibrací rozumíme vypočtení parametrů úloh a parametrů celého testu, které nám potom při vyhodnocování přesně určí žákovy schopnosti (kategorii, překročení minima). Kalibraci úloh si lze představit jako zjištění, kolik bodů je třeba dát za kterou úlohu (úlohy jsou různě těžké a různě dobře měří ověřované schopnosti). Kalibrací testu by bylo například nalezení optimálního počtu bodů, který tvoří hranici mezi těmi, kteří minimální schopnosti nesplňují, a těmi, kteří je splňují. Při expertní tvorbě jsou parametry úloh i bodové hranice stanoveny experty, naopak u empirického přístupu jsou změřeny. Kalibrace se obvykle provádí podobně jako srovnání testů (v podstatě jde o totéž), konkrétně srovnáním přes testované. Detailnější popis lze najít u jednotlivých metod v Odborné části.