Psychometria

Klasyczna teoria testu — proste założenie, realne ograniczenia

dr Błażej Mroziński · adiunkt SWPS, psychometra

Opublikowano: 1 marca 2024 · aktualizacja: 14 czerwca 2026

Klasyczna teoria testu to fundament, na którym zbudowano większość narzędzi psychometrycznych w codziennym użyciu. Jej siła leży w prostocie — i tam też leży jej granica.

Jedno równanie

Cała teoria mieści się w jednym zdaniu: wynik obserwowany = wynik prawdziwy + błąd.

Wynik obserwowany to liczba, którą badany faktycznie uzyskał. Wynik prawdziwy to ta jego część, która stabilnie odzwierciedla mierzoną cechę — wynik, który osoba osiągnęłaby średnio przy nieskończenie wielu niezależnych pomiarach. Błąd to reszta: przypadkowy szum z dnia, nastroju, sformułowania pytania, zmęczenia.

Z tego rozkładu wyrasta całe pojęcie rzetelności. Rzetelność to po prostu udział wyniku prawdziwego w obserwowanym — im mniej błędu, tym wierniejszy pomiar.

Założenia

Model opiera się na kilku założeniach, które łatwo przeoczyć. Błąd jest przypadkowy, czyli nieskorelowany z wynikiem prawdziwym — nie systematycznie zawyża ani zaniża wyników. Średni błąd w populacji wynosi zero. Błędy w różnych pomiarach nie są ze sobą powiązane.

Te założenia rzadko są spełnione idealnie, ale wystarczająco często działają na tyle dobrze, że model jest użyteczny.

Co z tego wynika w praktyce

Klasyczne podejście liczy głównie wynik sumaryczny i traktuje pozycje jak równorzędne cegiełki. Stąd narzędzia warsztatu: korelacja pozycja–skala, moc dyskryminacyjna pozycji, alfa Cronbacha jako miara zgodności wewnętrznej. To prosty, tani i czytelny zestaw, który nie wymaga dużych prób ani ciężkiego aparatu obliczeniowego.

Dwa ograniczenia, o których trzeba wiedzieć

Pierwsze: parametry pozycji zależą od próby. „Trudność” pozycji w klasycznym ujęciu to odsetek osób, które ją potwierdziły. Zbadaj inną grupę — bardziej lub mniej obciążoną cechą — a ta sama pozycja okaże się „łatwiejsza” albo „trudniejsza”. Charakterystyka pozycji nie jest jej własnością, tylko własnością pary pozycja–próba.

Drugie: wszystkie pozycje liczą się tak samo. Suma punktów traktuje świetnie różnicującą pozycję na równi ze słabą. Klasyczne podejście wie, że pozycje różnią się jakością, ale do wyniku końcowego wnosi je z jednakową wagą.

Relacja do IRT

Te dwa ograniczenia są dokładnie tym, co adresuje teoria odpowiedzi na pozycje. IRT szacuje parametry pozycji niezależnie od próby i pozwala ważyć pozycje wedle ich faktycznej informacyjności. Cena to większe wymagania co do liczebności próby i złożoności modelu.

To nie jest jednak relacja „stare kontra nowe”. Klasyczna teoria testu pozostaje racjonalnym wyborem dla wielu narzędzi — szczególnie tam, gdzie próby są niewielkie, a interpretacja ma być przejrzysta. IRT wchodzi tam, gdzie precyzja i porównywalność wyników uzasadniają dodatkowy koszt.

Jeśli budujesz lub oceniasz narzędzie i zastanawiasz się, które podejście jest adekwatne do twoich danych i celów — odezwij się.

Najczęstsze pytania

Na czym opiera się klasyczna teoria testu?

Na jednym równaniu: wynik obserwowany to suma wyniku prawdziwego i błędu pomiaru. Wynik prawdziwy to ta część, która stabilnie odzwierciedla mierzoną cechę; błąd to przypadkowy szum, który chcemy zminimalizować.

Jakie ma główne ograniczenia?

Parametry pozycji zależą od próby, na której je policzono, a wszystkie pozycje traktuje się jako jednakowo ważne. Dlatego trudność i moc dyskryminacyjna pozycji przesuwają się, gdy zmienisz badaną grupę.

Czy klasyczna teoria testu jest przestarzała?

Nie. Mimo ograniczeń pozostaje podstawą większości narzędzi w użyciu, bo jest prosta, czytelna i nie wymaga dużych prób. IRT ją uzupełnia tam, gdzie potrzeba większej precyzji i porównywalności.