SCIO

scio_web.span_sr-only.basket

Testování v době AI: Co řeší světoví experti?

Testování není mrtvá disciplína. Na konferenci AEA v Haagu řešili odborníci ze 40 zemí zásadní otázku: Jakým způsobem testovat v době rozmachu umělé inteligence? České zkušenosti s veřejnou oponenturou u testů Národních srovnávacích zkoušek jsou unikátní a pro zahraniční odborníky inspirativní.

Testařina jako živá věda

V listopadu 2025 se v Haagu sešlo na 800 expertů z celého světa na konferenci AEA Europe (Association for Educational Assessment). Atmosféra odborné akce místy připomínala spíš filozofický seminář. Proběhly diskuse o férovosti, nechyběly emoce při debatách o AI a především rezonovala jedna důležitá existenciální otázka: Má ještě smysl testovat, když umělá inteligence dokáže vyřešit většinu úloh lépe než středoškolák?

Odpověď zní ano – ale jinak. Testování se postupně mění z disciplíny, která měřila pouze znalosti, na oblast reflektující společenské problémy a aktuální dění. Jak testovat kompetence nebo schopnost řešit problémy? Jak zajistit, aby testy neznevýhodňovaly různé skupiny lidí? Jak přiznat chybu v testu, aniž bychom ztratili důvěru studentů, rodičů i škol? A jak vůbec testovat generaci, která se vyhýbá dlouhým textům? To jsou otázky, které dnes hýbou testařskou komunitou.

To test or not to test? AI jako existenciální hrozba

Hlavní řečnice Jennifer Randall z USA začala provokativně: „Testování je politický akt.“ Není to jen technická záležitost, ale otázka, čí narativ prosazuje, pro koho testy jsou a jaký pohled na svět podporují. Profesorka Randall ukázala příklad matematické úlohy z USA, kde studenti počítali, kolik jídla uvařit na demonstraci hnutí Black Lives Matter.

Matematika se najednou stala příběhem, nikoliv jen abstraktním výpočtem. Tento příklad měl narušit zavedené vnímání toho, jak vypadá „normální“ úloha. Pro část publika to byl důkaz, že i testování může být inkluzivní a že i zdánlivě neutrální úlohy vysílají politické poselství – často politiku většiny.

Ještě palčivější byla otázka, zda má smysl testovat, když ChatGPT vyřeší testy lépe než většina uchazečů. Vysoké školy dnes stojí před výzvou vychovávat „seniory“, tedy lidi, kteří umí AI řídit, ověřovat její výstupy a dávat jim smysl. To vyžaduje radikální změnu výuky i způsobu testování. Recept na to však zatím nikdo nemá.

Tři pilíře, které změní testování 

Experti ze Scio představili tři hlavní směry, kterými se testování ubírá.

1. Férovost: Jsou ženy v testech znevýhodněny? 

Analýza 703 úloh z českých přijímacích testů (NSZ, test OSP) ukázala, že ženy mají v průměru o 10 percentilů horší výsledky než muži, přestože mají často lepší studijní průměry. Roli hraje psychologický fenomén: ženy méně rády tipují, zejména pokud se za chybu odečítají body. Muži naopak častěji riskují, což jim statisticky pomáhá.

Zajímavé je, že statistická analýza (DIF) ukázala odlišné fungování jen u 10 % úloh. Ženy byly úspěšnější u logických úloh s příběhovým kontextem (tzv. zebry), muži v klasické matematice. 

Publikum sdílelo i další postřehy ze svých zemí. Zástupce Švédska například zmínil, že u nich studenti častěji náhodně tipují, protože za chybnou odpověď se jim neodečítají žádné body. Otázka zní: Máme změnit testy, nebo učit ženy více riskovat?

2. Transparentnost: Přiznávat chyby se vyplácí 

Scio v Haagu prezentovalo svůj systém veřejné oponentury. Každý účastník může po testu podat online námitku k zadání. Nezávislá komise pak rozhodne o případné nápravě. Ačkoliv se změní méně než 0,5 % úloh, reakce zahraničních kolegů byla silná. Mnozí z nich totiž testy vůbec nezveřejňují, aby mohli úlohy používat opakovaně. Systém veřejné oponentury sice může být pro účastníky stresující kvůli přepočtům percentilů, ale většina jej vnímá jako důkaz profesionality. Ukazuje se, že přiznání chyby buduje větší důvěru než její zamlčování.

3. AI v testování: Hledání „člověka v procesu“ 

Ondřej Hrubeš ze Scio představil experiment s generováním úloh pomocí AI na základě parametrů nejkvalitnějších úloh za posledních 15 let. Vyplynulo z něj 6 principů úspěšné úlohy, jako je „hook factor“ (lákavost) nebo neakademický jazyk. Výsledek? AI sice dokáže úlohy generovat, ale jejich kvalita je nekonzistentní. Stále je v procesu nezbytný člověk („human in the loop“), který rozpozná skutečnou kvalitu. Podobně opatrné jsou v používání AI i světové instituce. AI se zatím používá spíše jako doplněk, například při odhadu obtížnosti úloh. Důvěra v to, aby AI sama rozhodovala o známce či přijetí na školu, zůstává nízká.

Co si z Haagu odnášíme

Testování prochází revolucí. AI není hrozba, která by tento obor zahubila, ale nástroj, který mění procesy i testované schopnosti. 

Mgr. Ondřej Hrubeš, odborník na testování ve Scio

Moderní vzdělávání i na váš e-mail

1× do měsíce vám pošleme souhrn těch nejzajímavějších článků o moderním vzdělávání. Buďte napřed!

Přihlášením souhlasíte se zpracováním osobních údajů. Tyto stránky jsou chráněny pomocí reCAPTCHA a platí zásady ochrany osobních údajů a smluvní podmínky společnosti Google.