A statisztikákban a mintavétel kifejezés az aggregált statisztikai adatok egy részének kiválasztására utal, az egészről releváns információk megszerzése céljából. A vizsgálatban részt vevő összes tag egy adott karakterére vonatkozó statisztikai információ összesítését vagy egészét populációnak vagy univerzumnak nevezzük. (Das, N. G., 2010). A populáció azon kiválasztott részét, amelyet a populáció vagy az univerzum jellemzőinek megszerzésére használnak, „mintának” nevezzük. A populációt önálló egységekből vagy tagokból kell felépíteni, és az egységek egy részét a mintába felveszik. A populáció egységeinek számát populációméretnek, a mintát pedig mintaszámnak nevezzük. A populáció és a minta lehet véges vagy végtelen, hasonlóan létező vagy hipotetikus is.
Variancia: A variancia egy numerikus érték, amely megmutatja, hogy az adatkészletben szereplő egyes számok milyen széles körben oszlanak meg az átlagról. Így mennyi az egyes szám az átlagtól, tehát egymástól. A nulla érték szórása azt jelenti, hogy az összes adat azonos. Minél szélesebb a szórás, annál inkább az értékek oszlanak meg az átlagon, tehát egymástól. Minél kevesebb a variancia, annál kevesebb az érték az átlagnál, tehát egymástól elosztva, és a variancia nem lehet negatív.
A populáció variancia és a minta variancia közötti fő különbség a variancia kiszámításával kapcsolatos. A szórást öt lépésben kell kiszámítani. Az első átlagot kiszámítják, majd kiszámítják az eltéréseket az átlagtól, és harmadszor az eltéréseket négyzetbe hozzák, negyedszer a négyzetbeli eltéréseket összegezzük, és végül ezt az összeget el kell osztani az elemek számával, amelyeknél a varianciát kiszámítják. Így szórás = Σ (xi-x -) / n. Ahol xi = i. Szám, x- = átlag és n = cikkek száma…
Most, amikor a varianciát a népesség adatai alapján kell kiszámítani, n egyenlő az elemek számával. Tehát, ha az összes 1000 ember vérnyomás-eltérését az összes 1000 ember vérnyomásának adataiból kell kiszámítani, akkor n = 1000. Ha azonban az eltérést a mintaadatokból számítják ki, akkor az n-ből le kell vonni az n a négyzet eltérések összege. Tehát a fenti példában, ha a mintaadatok 100 tételből állnak, a nevező 100-1 = 99.
Emiatt a mintaadatokból kiszámított varianciaérték magasabb, mint az az érték, amelyet a populációs adatok felhasználásával lehet megtudni. Ennek a logikája az, hogy kompenzálja a népességre vonatkozó adatok hiányát. Lehetetlen megtudni az emberek magasságbeli eltéréseit, mivel az összes élő ember magasságával kapcsolatos információ hiányában hiányzik a helyzet, és nem a jövőről van szó. Még ha egy mérsékelt példát is veszünk, mint például az Egyesült Államokban élő összes élő ember magasságára vonatkozó lakossági adatok, ez fizikailag lehetséges, de az ezzel járó költségek és idő elveszítik a számítás célját. Ez az oka annak, hogy a mintavételi adatokat a legtöbb statisztikai célból veszik, és ezt az adatok többségével kapcsolatos információk hiánya kíséri. Ennek kompenzálására a variancia értéke és a szórás, amely a variancia gyökere négyzet, magasabb a mintaadatok esetében, mint a populáció adataitól való eltérés.
Ez automatikus pajzsként szolgál az elemzők és a döntéshozók számára. A logika a tőke-költségvetés-tervezés, a személyes és üzleti pénzügyek, az építés, a forgalomirányítás és számos alkalmazható terület döntéseire vonatkozik. Ez segíti az érdekelt felet abban, hogy biztonságos legyen a döntés meghozatalakor vagy más következtetések meghozatalához.
Összefoglaló: A populáció varianciája a variancia értékére vonatkozik, amelyet a populációs adatokból számítanak, a minta szórása pedig a minta adataiból számított variancia. A szórásképletben szereplő nevező ezen értéke miatt a mintaadatok esetében n-1, nép esetén pedig n. Ennek eredményeként mind a minta adatokból származó variancia, mind a szórás több, mint a népesség adatai.