Klasická teorie testů předpokládá, že pro každého testovaného existuje u každé položky testu a v celém testu tzv. true skóre, které vyjadřuje, jakého výsledku by v položce a v testu měl dosáhnout – jaký odpovídá jeho znalostem či dovednostem. Reálný výsledek testovaného v položce se potom vyjadřuje jako součet jeho true skóre a náhodné odchylky:
$ V_i = T_i + E_i $
Náhodné odchylky mohou mít pro různé respondenty a různé položky obecně různé rozptyly. Některé modely klasické teorie testů ovšem předpokládají rovnost rozptylů (pro různé respondenty i pro různé položky), a dokonce i rovnost jednotlivých true skóre.
Základní rozdělení modelů klasické teorie testů spočívá v tom, zda:
Pokud se jedná o srovnávací test, posuzuje se, jak moc se do pozorovaných výsledků respondentů promítají jejich true skóre a náhodné odchylky. Velký vliv true skóre na pozorované výsledky znamená, že se na výsledky dá spolehnout (odrážejí ve velké míře skutečnou úroveň dovedností). Podíl variability true skóre z variability pozorovaných výsledků je reliabilita testu a její pomocí lze vyčíslit nepřesnost testového měření.
Klasická teorie testů připouští, že dva různé testy mohou zjišťovat stejnou dovednost, avšak výsledky mezi nimi se musejí vzájemně přepočítávat (každý test má vlastní hodnoticí škálu). Z toho důvodu jsou v klasické testové teorii důležité standardizované testy.
Výpočty hodnocení klasické teorie testů jsou technicky jednoduché, neboť se zpravidla opírají o hodnocení respondenta v jednotlivých položkách testu.
Obvykle se skóre v testu počítá jako součet skóre v jednotlivých položkách. Nejjednodušší typ skóre je hrubé skóre (raw score), kdy u dichotomických položek za každou úspěšně řešenou položku dostane respondent jeden bod, za neúspěšně řešenou nebo vynechanou položku nedostane nic; u polytomických položek dostává respondent tolik bodů, kolik odpovídá jeho odpovědi. Hrubé skóre u dichotomických položek je tedy rovno počtu správně vyřešených položek v testu, bez ohledu na počet nesprávně vyřešených a vynechaných položek.
Pokud chceme redukovat možnost vyřešit uzavřenou úlohu náhodným tipováním, lze stanovit, že za nesprávnou odpověď se odečítá část bodu (např. u úloh se čtyřmi možnostmi v nabídce se odečte třetina bodu), aby střední hodnota bodového zisku při náhodném tipování byla rovna nule. Teoreticky pak může být skóre i záporné.
Jednotlivým položkám mohou být místo jednoho bodu přiřazeny různé počty bodů. Pak se jedná o vážené skóre. Váhy (počty bodů) lze přiřazovat podle různých kritérií, např. podle obtížnosti, podle časové náročnosti, podle obsahu atd.
Lze také stanovit, že se skóre přiřazuje podle odpovědí respondenta ve více položkách najednou, např. bod se dává jen za správné řešení celé trojice položek.
Pro lepší porovnatelnost se hrubé skóre transformuje na některou standardní škálu. Lze k tomu použít některou lineární transformaci (např. na z-skór nebo T-skór) anebo převést skóre na pořadí a vyjádřit jako percentil respondenta v testu.
Reliabilita je statistická charakteristika, která nepřímo vyjadřuje nepřesnost testového měření. Má význam především v klasické teorii testů, naopak při použití item-response theory je vhodnější vyjádřit nepřesnost měření přímo pomocí standardní chyby odhadu.
Modely klasické teorie testů předpokládají, že výsledek v testu V je pro každého respondenta možné rozložit na jeho true skóre T a náhodnou chybu E:
V = T + E, přičemž T a E jsou nezávislé
Výsledek v testu je tedy odhadem pro true skóre a náhodná odchylka je chybou tohoto odhadu.
Rozptyl výsledků všech respondentů v testu je pak součtem rozptylů jejich true skóre a rozptylů chyb odhadu:
$ var V = var T + var E $
Reliabilita je definována jako podíl rozptylu true skóre a rozptylu zjištěných výsledků:
\( \rho = \frac{\mathrm{var}(T)}{\mathrm{var}(V)} \)
Z toho plyne také
\( \rho = 1 - \left( \frac{\mathrm{var}(E)}{\mathrm{var}(V)} \right) \)
Jelikož rozptyly náhodných veličin jsou za obvyklých okolností kladné, je reliabilita číslo mezi 0 a 1. Hodnoty blízké 1 znamenají, že variabilita zjištěných výsledků je téměř celá vysvětlitelná pomocí true skóre respondentů, a tedy podíl chyby odhadu je minimální. Naopak nízké hodnoty reliability znamenají, že výsledek v testu je ve velké míře zatížen chybou odhadu.
Reliabilita je v klasické testové teorii vázána na konkrétní testování. V případě testu s paralelními, tau-ekvivalentními a v podstatě tau-ekvivalentními položkami ji lze spočítat, v ostatních případech lze pro ni zjistit dolní mez.
Při odhadu se používá jeden ze dvou principů:
Split-half
Split-half je metoda výpočtu realibility založená na korelaci výsledků žáků ve dvou polovinách testu. Je třeba, aby každá z polovin reprezentovala celý test, proto mezi nejpoužívanější způsoby dělení patří rozdělení testu na sudé a liché úlohy. Zjištěná korelace mezi polovinami se poté koriguje pomocí Spearman-Brownova vzorce:
\( \rho = \frac{2r_{\text{half}}}{1 + r_{\text{half}}} \)
kde \( r_{\text{half}} \) je korelace mezi dvěma polovinami testu
Platí, že metoda split-half počítá reliabilitu správně, pokud jsou poloviny testů vůči sobě aspoň v podstatě tau-ekvivalentní.
Cronbachovo alfa
Cronbachovo alfa je metoda výpočtu reliability založená na analýze vnitřní konsistence testu. V současné době je standardní používanou metodou, přestože existují přesnější odhady.
\( \alpha = \frac{n}{n - 1} \left( 1 - \frac{\sum_{i=1}^{n} \sigma^2_{Y_i}}{\sigma^2_X} \right) \)
kde n je počet položek, $ σ_X^2 $ rozptyl celkového skóre respondentů a $ σ_(Y_i)^2 $ rozptyl skóre respondentů v i-té položce.
Platí, že Cronbachovo alfa pro testy s paralelními, tau-ekvivalentními a v podstatě tau-ekvivalentními položkami odpovídá reliabilitě, v ostatních případech je menší nebo rovné reliabilitě.
...je jeden ze tří vzorců pro výpočet reliability navržený Louisem Guttmanem. Podobně jako Cronbachovo alfa je to metoda odhadu reliability založená na analýze vnitřní konsistence testu.
\( L_2 = 1 - \frac{\sum_{i=1}^{n} \sigma^2_{Y_i}}{\sigma^2_X} + \frac{\sqrt{\sum_{i=1}^{n} \sum_{\substack{j=1 \\ i \ne j}}^{n} \sigma^2_{Y_iY_j}}}{\sigma^2_X} \)
kde n je počet položek, $ σ_X^2 $ rozptyl celkového skóre respondentů, $ σ_(Y_i)^2 $ rozptyl skóre respondentů v i-té položce a $ σ_(Y_iY_j)^2 $ kovariance skóre respondentů v i-té a j-té položce.
Platí $ L_2 ≥ α $. Dále platí, že koeficient pro testy s paralelními, tau-ekvivalentními a v podstatě tau-ekvivalentními položkami odpovídá reliabilitě, v ostatních případech je menší nebo rovný reliabilitě.
Z definice reliability lze odvodit rozptyl chyby odhadu:
\( \mathrm{var}(E) = \mathrm{var}(V) \left( 1 - \rho \right) \)
Nepřesnost testu pak vyjadřujeme jako standardní chybu (směrodatnou odchylku) odhadu, tedy \( \sqrt{\mathrm{var}(E)} \)
Standardní chyba odhadu je pak odmocnina rozptylu chyby odhadu:
\( SE = SD \cdot \sqrt{1 - \rho} \)
kde SD je směrodatná odchylka zjištěných výsledků v testu
Jelikož ze zjištěných výsledků v testu lze směrodatnou odchylku vypočítat snadno, dokážeme při znalosti reliability určit standardní chybu odhadu a tím vyčíslit nepřesnost testu. Takto zjištěná standardní chyba odhadu je ovšem jen průměrem chyb za všechny respondenty a na individuální úrovni má jen orientační použití. Každý respondent může mít standardní chybu odhadu jinou.
Příklad
Pokud Adam získá v testu 20 bodů, test má reliabilitu 0,91 a směrodatná odchylka skóre všech účastníků je 10, je obecná standardní chyba odhadu 3 body. Orientačně můžeme říct, že true skóre Adama se od jeho výsledku liší s nadpoloviční pravděpodobností nejvýše o 3 body (je tedy mezi 17 a 23 body); skoro jistě se liší nejvýše o 6 bodů (mezi 14 a 26 body).
Jelikož se reliabilita často odhaduje analýzou vnitřní konsistence testu, interpretuje se jako měřítko této konsistence – tedy nakolik test zjišťuje jen jednu dovednost či vlastnost.
Dále se podle hodnoty reliability někdy usuzuje, nakolik se dá test použít jako podklad pro rozhodování.
Pro rozhodování o větších skupinách jsou na reliabilitu kladeny mnohem menší nároky (tzn. např. na úrovni tříd a škol dosahujeme přesnějších výsledků než na úrovni jednotlivce), daleko důležitější je spolehlivost dosažených výsledků (zamezení opisování a napovídání, dodržení zásad administrace testu atd.).
Příklad
Je třeba ze 150 uchazečů pomocí testu vybrat 90 nejvhodnějších.
Cílem položkové analýzy je zjistit, zda všechny položky použité v testu přispívají ke splnění jeho účelu, a identifikovat položky, které tomu mohou nějak bránit.
Položková analýza v klasické teorii testů pracuje obvykle s těmito charakteristikami:
Díky takto změřeným vlastnostem pak můžeme dobře posuzovat kvalitu jednotlivých položek testu.
Aby bylo možné porovnat výsledky různých respondentů v různých testech, je nutné, aby existovala nějaká vazba mezi skupinami účastníků nebo mezi položkami různých verzí testů.
Porovnání výsledků v různých testech je možné některou z níže popsaných metod.
Lineární metoda je založena na lineární transformaci skóre v různých verzích testu na stejnou škálu. Základním typem transformace je z-transformace:
z-skór = (skóre – průměrné skóre skupiny) / směr. odchylka skóre skupiny
Z-skór vyjadřuje polohu skóre účastníka vůči průměru jeho skupiny, a to v počtu směrodatných odchylek. Obvykle se pohybuje mezi –3 a 3 a může nabývat desetinných hodnot. Pokud jsou skupiny účastníků různých verzí testů ekvivalentní, lze předpokládat, že účastník se skóre na průměru své skupiny (tj. se z-skórem 0) by velmi pravděpodobně dopadl stejně i v jiné verzi testu; účastník o jednu směrodatnou odchylku skupiny nad jejím průměrem (z-skór 1) by byl opět o jednu směrodatnou odchylku nad průměrem i v jiné skupině apod. Proto se účastníci z různých skupin, ale se stejným z-skórem považují za rovnocenné.
Transformaci lze provádět i na jinou škálu, např. T-transformace transformuje z-skór takto:
T-skór = 10 x z-skór + 50
V jiných případech než ekvivalentních skupin je použití lineární metody problematické.
Ekvipercentilová metoda je založena na porovnávání kumulativních distributivních křivek. Zjednodušeně řečeno, ekvipercentilová metoda srovnává účastníky, kteří v jednotlivých variantách dosáhli stejného percentilu (předstihli stejné množství ostatních účastníků dané varianty). Na rozdíl od lineární metody je ekvipercentilová metoda přesnější na celé škále skóre.
Metoda využívá převod skóre na percentil. Srovnání skóre z různých verzí testu dosáhneme tak, že ke každému skóre z jedné varianty přiřadíme skóre z ostatních variant, které v příslušné variantě odpovídá stejnému percentilu. Předpokladem ekvipercentilové metody je opět ekvivalence skupin.
Zřetězená ekvipercentilová metoda se užívá pro srovnávání výsledků v případě neekvivalentních skupin. Postup výpočtu pro případ překryvných úloh je následující:
Příklad
Test byl zadán ve dvou verzích, A a B. Každá verze měla 40 úloh, přičemž 15 úloh bylo překryvných (tj. 25 úloh bylo unikátních v každé z verzí).
Nejprve bylo vypočteno skóre účastníků verze A. Zjistilo se, že medián skóre (50. percentil) v unikátní části verze A je 14 bodů a medián v překryvné části 8 bodů.
Dále bylo spočteno skóre účastníků verze B. Tito účastníci byli slabší a 8 bodů v překryvné části pro ně nebyl medián, ale 75. percentil. V unikátní části verze B pak 75. percentil odpovídal zisku 16 bodů.
Použijeme percentilovou škálu podle verze A. Pak 50. percentilu odpovídá ve verzi A skóre 22 (14+8) bodů a ve verzi B 24 (8+16) bodů. Tedy respondent se ziskem 22 bodů z verze A a respondent se ziskem 24 bodů z verze B by byli považováni za ekvivalentní a oběma by byl přiřazen stejný percentil (při škále podle verze A je to percentil 50).