Jak czytać dane statystyczne?

Felietony Ryszarda Tadeusiewicza 20 lutego 2024 Wydanie 08/2024

Życie społeczne nasycone jest obecnie wieloma sporami. Nie zamierzam się odnosić do meritum tych kontrowersji, ale chciałbym uczulić Czytelników na jeden z argumentów, który przy tych sporach bywa wykorzystywany, mianowicie na statystykę. Co chwilę spotykamy gdzieś argumenty oparte na jakichś danych liczbowych opracowanych statystycznie i mających czegoś dowodzić. Radzę podchodzić do tych „rewelacji” z pewną ostrożnością.

Rzeczywistość, jaka nas otacza, zawsze zawiera w sobie składniki deterministyczne (to znaczy wyznaczone przez związki przyczynowo-skutkowe) oraz losowe, wynikające z wszechobecnych, niedających się kontrolować, czynników przypadkowych. Jeśli chcemy budować nasze postępowanie na racjonalnych przesłankach i korzystamy z danych liczbowych, to musimy je poddać obróbce statystycznej, bo nie istnieje żadne inne narzędzie, pozwalające wydobyć istotne związki przyczyn i skutków z gąszczu wyników obserwacji silnie obciążonych czynnikami losowymi. Tak postępują lekarze, z tego korzystają ekonomiści, do tego odwołują się też politycy.

Trzeba stosować statystykę, bo bez niej dotarcie do rzetelnej prawdy jest po prostu niemożliwe. Statystyka jednak nie zwalnia od obowiązku myślenia. Korzystając ze statystyki można (ewentualnie) wykazać jakąś prawidłowość, ale hipotezę na temat tej poszukiwanej prawidłowości trzeba najpierw sformułować odwołując się do wiedzy oraz – nie bójmy się tego słowa – do mądrości.

Żeby dokonać odkrycia (prawdziwego!) z pomocą statystyki potrzeba dużego zbioru danych na określony temat. Statystyki oparte na wynikach wyrywkowych badań ankietowych są mało miarodajne. Następnie trzeba sformułować hipotezę, którą chcemy zbadać. Może wyda się to dziwne, ale żeby czegoś dowieść trzeba postawić hipotezę, że to, co chcielibyśmy wykazać, jest nieprawdziwe. Wydaje się to nonsensowne, ale jest naukowo uzasadnione. Narzędzia statystyczne pozwalają bowiem hipotezę odrzucić, natomiast nie pozwalają jej potwierdzić. To odrzucenie jest ściśle kontrolowane, bo można obliczyć, jakie jest prawdopodobieństwo tego, że owo odrzucenie jest poprawne. Można więc mówić o poziomie ufności takiego statystycznego wyniku.

Statystycznie można też badać, jaki jest związek między określonymi procesami. Służą do tego na przykład obliczenia współczynnika korelacji. Jeśli jakiś proces wpływa na inny proces (jest jego przyczyną) – to korelacja ma dużą wartość. Jednak tu także trzeba zachować ostrożność, bo kojarząc ze sobą różne ciągi liczbowe można zawsze znaleźć takie, które będą silnie skorelowane, ale które związku przyczynowego nie mają. Jeden z moich znajomych korelował zmienność kursów akcji na giełdzie z długością spódniczki swojej sekretarki. I wykazał, że korelacja istnieje! Gdyby ten wynik potraktować poważnie, to należałoby tylko zachęcić sekretarkę, żeby ubrała mini – a hossa na giełdzie byłaby gwarantowana…

Funkcjonuje to też w drugą stronę. Czasem związek jest, a statystyka go nie potwierdza. Spróbujmy znaleźć korelację między położeniem kierownicy, a kierunkiem jazdy samochodu (tzn. czy auto jedzie na północ, południe, wschód itd.). Korelacji nie ma, bo kierownica ma wpływ na zmianę kierunku, ale nie na kierunek jako taki - a jednak na co dzień używamy kierownicy dla wyboru kierunku jazdy.

Żeby coś stwierdzić trzeba więc sięgnąć nie tylko do statystyki, ale posłużyć się także mądrością.

I to chyba dobrze?