3. Słowniczek intuicyjny

Błąd I rodzaju (prawdopodobieństwo błędu)
Popełniany, gdy odrzucamy hipotezę zerową. Jest to ryzyko odrzucenia prawdziwej hipotezy zerowej. Np. p=0,05 oznacza, że gdybyśmy nieskończenie wiele razy pobierali próby tej samej wielkości z populacji generalnej o tej samej średniej, to średnio 5 razy na 100 przeprowadzonych testów odrzucilibyśmy hipotezę zerową. Obserwowane różnice między próbami mogą być dziełem przypadku.
Błąd II rodzaju
Popełniamy, gdy przyjmujemy hipotezę zerową. Jest to ryzyko przyjęcia fałszywej hipotezy zerowej.
Błąd standardowy
Odchylenie standardowe średnich z prób (gdybyśmy wiele razy pobierali próby tej samej wielkości z tej samej populacji generalnej, liczyli z nich średnie, a potem odchylenie standardowe tych średnich). Błąd standardowy zwykle nie da się wyliczyć bezpośrednio – szacuje się go na podstawie odchylenia standardowego obliczonego z pojedynczej próby, dzieląc to odchylenie przez pierwiastek z wielkości tej próby (odchylenie standardowe średnich jest o pierwiastek z N mniejsze niż odchylenie standardowe pomiarów)
Hipoteza alternatywna
hipoteza przeciwna do hipotezy zerowej, którą przyjmujemy odrzucając hipotezę zerową.
Hipoteza zerowa
hipoteza statystyczna, skonstruowana tak by dało się ją obalić. Zwykle stwierdzenie przeciwne do tego co chcemy udowodnić w wyniku testowania hipotez (o braku różnic/zależności). Np. jeżeli chcemy zbadać różnice w masie ciała między płciami, H0 zakłada brak różnic. Jeżeli w toku analiz H0 zostanie odrzucona, będziemy mogli przyjąć iż płcie różnią się masą.
Istotność statystyczna
różnice/zależności, które w wyniku testowania hipotez uważamy, że są cechą populacji generalnej (p równe lub mniejsze niż założony poziom istotności).
Kodowanie
zmiana położenia średniej, poprzez operacje typu dodawanie, odejmowanie, dzielenie i mnożenie. Kodowanie nie zmienia kształtu rozkładu
Korelacja
metoda służąca do badania siły zależności między dwiema zmiennymi wyrażonymi w skali interwałowej (ciągłymi). Przyjmuje wartości między -1 a 1, przy czym r=0 to brak związku, a wartości 1 i -1 oznaczają, że jedna zmienna wyjaśnia całkowicie zmienność obserwowaną w drugiej zmiennej.
Liczba stopni swobody
Jak dużo niezależnych obserwacji składających się na próbę możemy użyć do oszacowania danego parametru statystycznego. Ile pomiarów w próbie może przyjmować dowolne wartości (nie są zdeterminowane przez oszacowane parametry).
Odchylenie standardowe
Miara rozproszenia pomiarów wokół średniej. Determinuje kształt rozkładu normalnego (jest parametrem tego rozkładu). Zwykle nie jest znane dla populacji generalnej, obliczane na podstawie próby staje się oszacowaniem dla populacji.
Parametr
np. średnia czy odchylenie standardowe w populacji generalnej. Zwykle nieznane dla populacji i szacowane (estymowane) na podstawie próby. Decyduje o wyglądzie rozkładu statystycznego.
Poziom istotności
Maksymalna dopuszczalna wartość prawdopodobieństwa, że w procedurze testowania hipotez odrzucimy prawdziwą H0 (maksymalna wartość błędu pierwszego rodzaju jaki dopuszczamy). Nie odrzucimy H0 jeśli wartość błędu I rodzaju miałaby być większa.
Próba
Losowo wybrane elementy populacji generalnej.
Próba reprezentatywna
to taka w której każdy element populacji ma taką samą szansę pojawienia się w próbie (że każda wartość ma szansę pojawienia się w próbie z prawdopodobieństwem odpowiadającym częstości występowania w populacji takiej wartości). Próbę pobieramy po to wnioskować o całej populacji, gdy cechy tej populacji nie są możliwe do bezpośredniego oszacowania.
Przedział ufności
przedział wartości, w którym z określonym prawdopodobieństwem oczekujemy średnia z populacji generalnej. Wyznaczany na podstawie średniej i odchylenia standardowego w próbie pozwala wnioskować o populacji generalnej (o średniej z tej populacji). Np. stwierdzenie iż 95% przedział ufności dla średniej masy ciała nornic to 25- 35g, oznacza że z 95% ufnością oczekujemy, że średnia masa ciała nornic mieści się w granicach 25g do 35g. Przedział jest tym węższy (z większą dokładnością szacuje położenie średniej z populacji) im próba jest większa i im mniejszą ufność przykładamy do oszacowania tego przedziału.
Regresja
metoda statystyczna służąca do opisania charakteru zależności między dwiema zmiennymi wyrażonymi w skali interwałowej. Zwykle polega na opisaniu związku między zmiennymi w postaci równania liniowego Y=aX+b, które wyznacza się metodą najmniejszych kwadratów. W przypadku związków przyczynowo-skutkowych regresja pozwala przewidywać wartości zmiennej zależnej na podstawie wartości zmiennej niezależnej.
Rozkład
Częstość występowania poszczególnych wartości w populacji.
Rozkład normalny
Rozkład pomiarów wokół średniej w populacji (średnie i odchylenie standardowe są parametrami tego rozkładu).
Rozkład t-Studenta
Rozkład średnich z prób N-elementowych od średniej ze średnich z prób (średniej z populacji generalnej; parametrem jest liczna stopni swobody).
Rozkład dwumianowy
Rozkład częstości sukcesów w próbie N-elementowej (operuje na skali nominalnej dychotomicznej, parametry: wielkość próby, liczba sukcesów, częstość danej kategorii w populacji generalnej).
Standaryzacja danych
operacja mająca na celu taką obróbkę danych, żeby dane pochodzące z różnych prób/populacji były ze sobą porównywalnej. Zwykle polega na obliczeniu różnicy między wartością pomiaru a średnią z próby i podzielenie jej przez odchylenie standardowe z tej próby. Dla danych standaryzowanych średnia wynosi zero natomiast odchylenie standardowe równa się jeden.
Statystyka
wartość obliczona na podstawie próby, np. średnia, odchylenie standardowe, obliczona w procesie testowania hipotez wartość t, r itp. Statystykę można traktować pod pewnymi warunkami jako oszacowanie parametru (estymator).
Skala pomiarowa
Skala interwałowa: pomiary wynikające z mierzenia, ważenia, zwykle wyrażone w liczbach rzeczywistych. Skala porządkowa: kolejność, rangi, zwykle wyrażone w liczbach całkowitych. Skala nominalna: dane w postaci liczebności w jasno zdefiniowanych kategoriach (np. płeć).
Test dwustronny
nie można z góry przewidzieć kierunku testowanych różnic/zależności. Korzysta z dwóch stron rozkładu (wartości krytyczne znajdują się po obu stronach rozkładu). Taki test jest testem słabszym niż test jednostronny.
Test jednostronny
z góry można przewidzieć kierunek różnic/zależności (o ile w ogóle istnieją). Stosowany zwykle w badaniach jakości – czy spełnione są standardy/normy (np. jakość żywności, wody, produktów). Korzysta z jednej określonej strony rozkładu (wartości krytyczne znajdują się tylko po jednej stronie rozkładu). Test mocniejszy.
Test statystyczny
metoda służąca określeniu, czy założona hipoteza zerowa jest prawdziwa czy fałszywa. W wyniku testowania hipotezy staramy się ją odrzucić na podstawie porównania statystyki testu (wynikającej z obliczeń) z wartością krytyczną.
Test parametryczny
oparty na parametrach rozkładu normalnego (liczymy w nim średnią i odchylenie standardowe) w odróżnieniu od testu nieparametrycznego, który nie musi spełniać założenia normalności rozkładu w populacji generalnej.
Transformacja
Zmiana wartości zmiennej poprzez zastosowanie operacji matematycznej w postaci funkcji matematycznych. Np. potęgowanie, pierwiastkowanie, logarytmowanie itp. Transformacja zmienia kształt rozkładu (wartość zmienia się nieproporcjonalnie).
Wariancja
miara rozproszenia danych wokół średniej. Inaczej średnie odchylenie kwadratów od średniej (suma podniesionych do kwadratu różnic między wartością każdego pomiaru w próbie a średnią, podzielona przez wielkość próby - 1)
Wartość krytyczna
Wartość z rozkładu teoretycznego, która dla założonego poziomu istotności stanowi wartość graniczną, przy której będziemy odrzucać hipotezę zerową.
Zmienna niezależna
Zmienna która wpływa na inną zmienna (kształtuje zmienność zmiennej zależnej). Np. w równaniu Y=aX+b, X jest zmienną niezależną.
Zmienna zależna
Jej zmienność chcemy wyjaśnić wpływem innej zmiennej (zmiennej niezależnej). Np. w równaniu Y=aX+b, Y jest zmienną zależną.