Psychometria
Istotność statystyczna — co naprawdę znaczy p-wartość
dr Błażej Mroziński · adiunkt SWPS, psychometra
Opublikowano: · aktualizacja:
Istotność statystyczna to chyba najczęściej źle rozumiane pojęcie w całej statystyce stosowanej. Słowo „istotny” sugeruje coś ważnego, dużego, godnego uwagi. Tymczasem techniczna istotność nie obiecuje żadnej z tych rzeczy. Mówi o czymś znacznie węższym — i mylenie tych dwóch znaczeń stoi za sporą częścią złych wniosków z danych.
Co to jest
Istotność statystyczna opiera się na p-wartości. P-wartość to prawdopodobieństwo uzyskania danych co najmniej tak skrajnych jak zaobserwowane, przy założeniu, że badany efekt nie istnieje. Gdy to prawdopodobieństwo jest małe — zwyczajowo poniżej 0,05 — mówimy, że wynik jest istotny statystycznie. Rozumowanie jest takie: gdyby efektu nie było, tak skrajne dane byłyby rzadkie; skoro jednak je widzimy, łatwiej uznać, że efekt jednak jest.
To wszystko. Próg 0,05 to konwencja, nie prawo natury — wygodna granica, którą przyjęto i utrwalono, nie magiczna linia oddzielająca prawdę od fałszu.
Czego p-wartość nie mówi
Tu kryje się większość nieporozumień. P-wartość nie jest:
- prawdopodobieństwem, że hipoteza zerowa jest prawdziwa;
- prawdopodobieństwem, że twój efekt jest prawdziwy;
- miarą tego, jak duży jest efekt.
Niskie p nie znaczy „efekt jest duży” ani „na pewno mam rację”. Znaczy tylko: „gdyby efektu nie było, takie dane byłyby mało prawdopodobne”. To zdanie warunkowe, łatwe do przeczytania na opak. A czytane na opak prowadzi do wniosków, których dane nie podpierają.
Pułapka wielkości próby
Najważniejsza rzecz do zrozumienia: p-wartość zależy od wielkości próby, i to mocno.
Zbierz dość dużo danych, a niemal każdy efekt — choćby znikomy, praktycznie bez znaczenia — przekroczy próg istotności. Różnica średnich rzędu jednej dziesiątej punktu wyjdzie „istotna”, jeśli badanych są dziesiątki tysięcy. Istotność powie wtedy „efekt jest”, a przemilczy, że jest tak mały, że nikogo nie obchodzi.
Działa to też w drugą stronę. Na małej próbie nawet spory, realny efekt może nie osiągnąć istotności — danych było za mało, by pewnie odróżnić go od szumu. „Nieistotny” nie znaczy więc „żaden”.
Dlatego istotności nigdy nie czyta się samej. Domyka ją wielkość efektu, która mówi, jak duży jest efekt, niezależnie od liczby badanych. Te dwie liczby odpowiadają na dwa różne pytania i potrzeba obu. To samo dotyczy zależności między zmiennymi: istotna korelacja bywa przy tym tak słaba, że bezużyteczna.
p-hacking i inne grzechy
Skoro istotność jest przepustką do publikacji i do słowa „działa”, pojawia się pokusa, by ją sobie dorobić. Stąd cała rodzina nadużyć.
p-hacking to przeszukiwanie danych aż coś wyjdzie istotne: sprawdzanie wielu zmiennych, dzielenie próby na podgrupy, dorzucanie badanych do chwili, w której p spadnie poniżej progu. Przy dostatecznie wielu próbach coś „istotnego” wyskoczy z samego przypadku — i nie powtórzy się w kolejnym badaniu.
Pokrewny błąd to wybiórcze raportowanie tylko tych analiz, które wypadły istotne, i przemilczenie reszty. Obrona jest nudna, ale skuteczna: planować analizy z góry, rozróżniać hipotezy testowane od eksploracji, raportować wszystko i zawsze podawać wielkość efektu obok p.
Istotność statystyczna to użyteczne narzędzie do jednej konkretnej rzeczy: oceny, czy efekt da się odróżnić od przypadku. Nie jest ani miarą ważności, ani dowodem, ani przepustką. Jeśli planujesz analizy albo czytasz cudze wyniki i chcesz wiedzieć, co te liczby naprawdę uprawniają cię powiedzieć — skontaktuj się.
Najczęstsze pytania
Co znaczy p-wartość?
P-wartość to prawdopodobieństwo uzyskania danych co najmniej tak skrajnych jak zaobserwowane, przy założeniu, że badany efekt nie istnieje. Niska wartość mówi, że takie dane byłyby mało prawdopodobne, gdyby efektu nie było — dlatego skłaniamy się go uznać.
Czy p mówi, jak prawdziwa jest hipoteza?
Nie. P-wartość nie jest prawdopodobieństwem tego, że hipoteza jest prawdziwa, ani że efekt jest duży. Mówi tylko, jak nietypowe byłyby dane, gdyby efektu nie było. To częste, kosztowne nieporozumienie.
Dlaczego istotność to nie wszystko?
Bo zależy od wielkości próby. Przy dużej próbie nawet znikomy efekt wychodzi istotny, a przy małej spory efekt bywa nieistotny. Istotność trzeba czytać razem z wielkością efektu, inaczej łatwo o błędny wniosek.