Psychometria

Trafność kryterialna — czy wynik przewiduje to, co ważne

dr Błażej Mroziński · adiunkt SWPS, psychometra

Opublikowano: 14 września 2024 · aktualizacja: 14 czerwca 2026

Test rekrutacyjny ma sens dokładnie wtedy, gdy jego wynik przewiduje, jak ktoś poradzi sobie w pracy. Jeśli nie przewiduje — jest ładnym formularzem bez wartości. Trafność kryterialna jest pytaniem o tę właśnie zależność: czy wynik wiąże się z czymś realnym poza testem.

Co to jest

Trafność kryterialna to odmiana trafności, która sprawdza związek wyniku z zewnętrznym kryterium — czymś poza samym testem, co już potrafimy zmierzyć lub zaobserwować. Kryterium to punkt odniesienia w świecie: efektywność w pracy, diagnoza postawiona niezależnie, ocena na egzaminie.

Mechanizm jest prosty i mierzalny. Korelujesz wynik testu z kryterium. Im mocniejsza korelacja, tym lepiej test ujmuje to, co kryterium reprezentuje. Tę korelację nazywa się współczynnikiem trafności.

To inna logika niż w trafności teoretycznej. Tam pytamy o całą sieć powiązań i zgodność z teorią. Tu mamy jedno konkretne kryterium i jedno konkretne pytanie: przewiduje czy nie.

Dwa rodzaje — kwestia czasu

Trafność kryterialna dzieli się według tego, kiedy mierzymy kryterium względem testu.

Trafność diagnostyczna (równoległa) dotyczy kryterium mierzonego w tym samym czasie co test. Typowy przykład: porównujesz wynik nowego, krótkiego narzędzia z wynikiem uznanego, dłuższego testu zebranym równolegle. Pytasz, czy nowe narzędzie zgadza się z tym, co już działa — tu i teraz.

Trafność prognostyczna dotyczy kryterium przyszłego. Mierzysz dziś, kryterium pojawia się później. Test rekrutacyjny wypełniony przy zatrudnieniu, efektywność oceniona po roku pracy. To trudniejszy i często cenniejszy dowód, bo to właśnie predykcja jest zwykle celem.

Różnica nie jest formalna. Narzędzie może dobrze zgadzać się z aktualnym kryterium, a słabo przewidywać przyszłość — albo odwrotnie. Trzeba wiedzieć, której z tych rzeczy się potrzebuje.

Przykład, który to porządkuje

Wyobraź sobie test używany w rekrutacji. Jego trafność diagnostyczna to zgodność z aktualną oceną kompetencji kandydata — czy wynik pasuje do tego, co już o nim wiemy. Jego trafność prognostyczna to coś znacznie istotniejszego: czy wynik z dnia rekrutacji przewiduje efektywność za pół roku.

Jeśli test pięknie koreluje z bieżącą oceną, ale nie przewiduje późniejszej efektywności, jest kryterialnie nietrafny tam, gdzie to się liczy. A właśnie po to się go używa. To jeden z najczęstszych cichych błędów w narzędziach rekrutacyjnych: sprawdzono zgodność, nie sprawdzono predykcji.

Jak czytać współczynnik

Współczynnik trafności trzeba czytać w kontekście kryterium. Zachowania ludzkie są wieloprzyczynowe — efektywność w pracy zależy od dziesiątek czynników, nie tylko od tej jednej cechy, którą mierzy test. Dlatego współczynniki trafności w praktyce predykcyjnej rzadko bywają bardzo wysokie, a wartości umiarkowane bywają w pełni użyteczne.

Pytanie brzmi nie „czy współczynnik jest wysoki”, tylko „czy wnosi przewagę nad zgadywaniem”. Nawet umiarkowana predykcja, zastosowana do wielu decyzji, daje realną poprawę. Ważne, żeby kryterium było sensowne i rzetelnie zmierzone — bo słabe kryterium zaniża każdy współczynnik, niezależnie od jakości testu.

Jeśli używasz narzędzia do decyzji o ludziach i chcesz sprawdzić, czy ono naprawdę przewiduje to, co powinno — albo zaprojektować badanie trafności prognostycznej — napisz.

Najczęstsze pytania

Co to jest trafność kryterialna?

To stopień, w jakim wynik testu wiąże się z zewnętrznym kryterium — czymś poza samym testem, co już znamy. Mierzy się ją korelacją wyniku z kryterium, nazywaną współczynnikiem trafności.

Czym różni się trafność diagnostyczna od prognostycznej?

Diagnostyczna (równoległa) dotyczy kryterium mierzonego w tym samym czasie co test — na przykład zgodności z uznanym narzędziem. Prognostyczna dotyczy kryterium przyszłego — czy wynik dziś przewiduje zachowanie jutro.

Jaki współczynnik trafności jest dobry?

Zależy od zastosowania i kryterium. W praktyce predykcyjnej współczynniki rzadko bywają bardzo wysokie, a wartości umiarkowane bywają w pełni użyteczne — jeśli kryterium samo w sobie jest trudne do przewidzenia.