Szabvány eltérés és variancia statisztikai mértéke a
A szórás és a szórás képletet gyakran az alábbiak szerint fejezik ki:
A halmaz varianciája n ugyanolyan valószínű értékek írhatók:
A szórás a variancia négyzetgyöke:
A görög betűkkel rendelkező képletek félelmetesnek tűnnek, de ez kevésbé bonyolult, mint amilyennek látszik. Egyszerű lépésekben:
Ez adja a varianciát. Vegye ki a variancia négyzetgyökét a szórás meghatározásához.
Ez a Khan Akadémia kiváló videója magyarázza a variancia és a szórás fogalmait:
Tegyük fel, hogy egy adatkészlet hat pitypang magasságát tartalmazza: 3 hüvelyk, 4 hüvelyk, 5 hüvelyk, 4 hüvelyk, 11 hüvelyk és 6 hüvelyk.
Először keresse meg az adatpontok átlagát: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Tehát az átlagos magasság 5,5 hüvelyk. Most szükségünk van az eltérésekre, tehát megtaláljuk az egyes növények különbségét az átlagtól: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Most négyzet alakítsa ki az eltéréseket és keresse meg az összegüket: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5
Most osztjuk meg a négyzetek összegét az adatpontok számával, ebben az esetben a növényekkel: 43,5 / 6 = 7,25
Tehát ennek az adathalmaznak a varianciája 7,25, ami meglehetősen tetszőleges szám. A valós méréské konvertálásához vegye ki a 7,25 négyzetgyökét, és keresse meg a hüvelykben kifejezett szórást.
A szórás körülbelül 2,69 hüvelyk. Ez azt jelenti, hogy a mintában minden pitypang az átlag 2,69 hüvelyknél (5,5 hüvelyk) „normál”.
Az eltéréseket négyzetbe kell helyezni, hogy megakadályozzák a negatív értékek (az átlag alatti eltérések) a pozitív értékek törlését. Ez azért működik, mert a negatív szám négyzete pozitív értékké válik. Ha egyszerű adatkészlettel rendelkezett volna, + 5, +2, -1 és -6 átlagtól való eltéréssel, akkor az eltérések összege nulla lesz, ha az értékek nem vannak négyzetben (azaz 5 + 2 - 1 - 6 = 0).
A varianciát matematikai diszperzióban fejezik ki. Mivel ez egy tetszőleges szám az adatkészlet eredeti méréseihez képest, így nehéz megjeleníteni és alkalmazni a valós értelemben. A szórás megtalálása általában csak a végső lépés a szórás megállapítása előtt. A varianciaértékeket néha használják a pénzügyi és statisztikai képletekben.
A szórás, amelyet az adatkészlet eredeti egységeiben fejeznek ki, sokkal intuitívabb és közelebb áll az eredeti adatkészlet értékeihez. Leggyakrabban a demográfia vagy a lakosság mintáinak elemzésére használják, hogy megértsék, mi a normális a lakosságban.
Normál eloszlásban a népesség (vagy az értékek) körülbelül 68% -a esik az átlag 1 szórásán (1σ), és körülbelül 94% a 2σ belül. Azokat az értékeket, amelyek az átlagtól 1,7σ vagy annál többel különböznek, általában túlmutatónak tekintik.
A gyakorlatban a minőségbiztosítási rendszerek, mint például a Six Sigma, megpróbálják csökkenteni a hibaarányt, hogy a hibák túlzottvá váljanak. A "hat szigma folyamat" kifejezés abból a gondolatból származik, hogy ha a folyamat átlaga és a legközelebbi specifikációs határ között hat standard eltérés van, gyakorlatilag egyik elem sem felel meg az előírásoknak.[1]
A valós alkalmazásokban az alkalmazott adatkészletek általában a populáció mintáját képviselik, nem pedig a teljes populációt. Kissé módosított képletet kell alkalmazni, ha egy populációs szintű következtetéseket kell levonni részleges mintából.
A „minta szórása” akkor használatos, ha csak a minta része van, de nyilatkozatot szeretne tenni arról a népesség szórásáról, amelyből a minta készül
Az egyetlen módszer, amelyben a minta szórási képlete eltér a standard eltérés képletétől, a nevezőben található „-1”.
A pitypang példájára erre a képletre akkor lenne szükség, ha csak 6 pitypangból vettünk mintát, de azt a példát akartunk felhasználni, hogy a százszoros pitypangok alapján megadja a teljes terület szórását..
A négyzetek összegét most 6-val (n - 1) helyett 5-el osztják, ami 8,7 (7,25 helyett) szórást és a mintának a szórása 2,95 hüvelyk, az eredeti szórás 2,69 hüvelyk helyett. Ezt a változást arra használják, hogy egy mintában hibát találjanak (ebben az esetben 9%).