Reliabilita
Každé testování je vlastně měřením výkonu žáka či studenta. A jako každé měření i toto může být přesnější nebo méně přesné. Z tradičních důvodů se pro přesnost tohoto měření užívá tzv. reliabilita. Teoreticky jde o korelaci mezi dvěma po sobě následujícími provedeními téže zkoušky u stejné skupiny testovaných za týchž podmínek (to znamená, že při druhém testování zkoušení zapomněli na první testování). Ve skutečnosti se ovšem zpravidla velikost reliability odhaduje na základě jediné zkoušky. Velmi zjednodušeně se to udělá tak, že jako jedna zkouška slouží liché úlohy a jako druhá sudé, a pak se provede oprava na to, že jsme takto zkoušku zkrátili na polovinu. Ve skutečnosti je to o něco sofistikovanější.
Reliabilita se nejčastěji počítá jako tzv. Cronbachovo alfa: alfa =
, kde Var je rozptyl výsledků zkoušky, k je počet úloh ve zkoušce a Vari je rozptyl výsledků i-té úlohy. Rozptyl výsledků zkoušky Var =
, kde xi jsou výsledky zkoušky jednotlivých uchazečů,
je průměrný výsledek a n je počet účastníků zkoušky. Analogicky se pro každou úlohu vypočet Vari. Vlastní vzoreček však není to hlavní.
Reliabilita je teoreticky číslo mezi minus nekonečnem a 1, v praxi bývá mezi 0 a 1. Čím je reliabilita vyšší, tím menší vliv na výsledek má náhoda. Při reliabilitě 0 by šlo o výsledky zcela náhodné, při reliabilitě 1 by naopak šlo o zcela přesné výsledky. Protože však měříme intelektuální dovednosti, přesnosti 1 a ani jí blízké se nikdy nedosahuje. Zpravidla se reliabilita pohybuje mezi 0,5 a 0,95. Všeobecně uznávané hranice reliability jsou:
- test s reliabilitou nad 0,95 je pokládán za vynikající,
- reliabilita nad 0,85 někdy nad 0,90 se pokládá za dostatečnou k tomu, aby na základě jedné zkoušky bylo možné činit rozhodnutí,
- nad 0,65 lze zkoušku použít jako jeden z podkladů pro rozhodnutí,
- pod 0,65 již nelze zkoušku pokládat za spolehlivý ukazatel a nelze ji užít k rozhodování. To ovšem neznamená, že testy s reliabilitou nižší než 0,65 jsou k ničemu, mohou dobře posloužit v pedagogickém procesu k motivaci, k diagnostikování konkrétních nedostatků apod. pouze by neměly být užity například pro klasifikaci a rozhodně ne jako přijímací zkouška na jakékoliv úrovni.
Viz též www.testscoring.vt.edu/memo08.html.
Kdybychom například ze 150 žáků měli testem vybrat 90:
Při reliabilitě 0,95 přijmeme (pravděpodobně) 85 správných (tj. těch, které máme přijmout), 5 nesprávných a žádného úplně nesprávného (za úplně nesprávné pokládáme 30 nejhorších žáků).
Při reliabilitě 0,85 přijmeme (pravděpodobně) 81 správných, 8,5 nesprávných a půlku úplně nesprávného. (Půlka znamená, že v závislosti na našem štěstí v polovině případů žádného úplně nesprávného a v polovině jednoho.)
Při reliabilitě 0,75 přijmeme (pravděpodobně) 78 správných, 10 nesprávných a 2 úplně nesprávné.
Při reliabilitě 0,65 přijmeme (pravděpodobně) 75 správných, 12 nesprávných a 3 úplně nesprávné.
Při reliabilitě 0,50 (Test typu Právnická fakulta Praha) přijmeme (pravděpodobně) 71 správných, 13 nesprávných a 5 úplně nesprávných.
Pokud bychom žáky losovali (reliabilita 0,00), přijali bychom (pravděpodobně) 54 žáků správných a 36 žáků nesprávných a mezi nimi 18 úplně nesprávných.
Pro zajímavost uvádíme, jakou reliabilitu měly testy užité v Sondě Maturant 99:
|
Reliabilita |
||
|
Mutace A |
Mutace B |
|
|
Angličtina (Scio) |
0,950 |
0,942 |
|
Český jazyk (Scio) |
0,892 |
0,881 |
|
Francouzština (Scio) |
0,962 |
0,964 |
|
Matematika úlohy 1 až 20 reduk. (VÚP) |
0,482 |
0,462 |
|
Matematika úlohy 1 až 30 (VÚP) |
0,869 |
0,859 |
|
Němčina (VÚP) |
0,935 |
0,938 |
V Sondě Maturant 98:
|
všechny testy Scio |
Reliabilita |
|
Angličtina |
0,97 |
|
Český jazyk |
0,84 |
|
Matematika pro maturující z Ma - 33 úloh |
0,87 |
|
Matematika pro nematurující z Ma - 16 úloh |
0,74 |
|
Němčina |
0,95 |
|
Obecné studijní předpoklady |
0,91 |


