Központi tendencia vs diszperzió
A leíró és következtetési statisztikákban több mutatót használnak az adatkészlet leírására, amely megfelel annak központi tendenciájának, szétszóródásának és ferdességének: a három legfontosabb tulajdonság, amely meghatározza az adatkészlet eloszlásának relatív alakját.
Mi a központi tendencia??
A központi tendencia az értékek eloszlásának központját jelöli és lokalizálja. Az átlag, az üzemmód és a medián a leggyakrabban használt mutatók az adatkészlet központi tendenciájának leírására. Ha az adatkészlet szimmetrikus, akkor mind a medián, mind az átlag egybeesik egymással.
Adott adathalmaz esetén az átlagot úgy számítják ki, hogy az összes adat értékét összeveszik, majd elosztják az adatok számával. Például 10 ember súlyát (kilogrammban) 70, 62, 65, 72, 80, 70, 63, 72, 77 és 79-re mértük. Ekkor a tíz ember átlagos tömege (kilogrammban) az alábbiak szerint számítva. A súlyok összege 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Átlag = (összeg) / (az adatok száma) = 710/10 = 71 (kilogrammban). Magától értetődik, hogy a túlmutatók (a normál trendtől eltérő adatpontok) általában befolyásolják az átlagot. Tehát, az idegen értékek önmagában nem adnak helyes képet az adatkészlet közepéről.
A medián az adatpont, amelyet az adatkészlet pontos közepén találunk. A medián kiszámításának egyik módja az adatpontok növekvő sorrendbe rendezése, majd az adatpont megkeresése a közepén. Például, ha egyszer megrendelték, az előző adatkészlet úgy néz ki, mint a 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Ezért a (70 + 72) / 2 = 71 középen van. Ebből látható, hogy a mediánnak nem kell szerepelnie az adatkészletben. A mediánra nincs hatással a szélsőségek jelenléte. Ennélfogva a medián jobban méri a központi tendenciát a külsõ értékek jelenlétében.
Az üzemmód a leggyakrabban előforduló érték az adatkészletben. Az előző példában mind a 70, mind a 72 érték kétszer fordul elő, tehát mindkettő üzemmód. Ez azt mutatja, hogy egyes eloszlásokban több modális érték is létezik. Ha csak egy üzemmód létezik, akkor az adatkészletet unimodálisnak tekintik, ebben az esetben az adatkészlet bimodális.
Mi a diszperzió??
A diszperzió az eloszlás központjára vonatkozó adatok terjedésének mértéke. A távolság és a szórás a leggyakrabban alkalmazott diszperziós mérték.
A tartomány egyszerűen a legmagasabb érték mínusz a legalacsonyabb érték. Az előző példában a legmagasabb érték 80, a legalacsonyabb érték 62, tehát a tartomány 80-62 = 18. A tartomány azonban nem nyújt megfelelő képet a diszperzióról.
A szórás kiszámításához először kiszámítják az adatértékek eltérését az átlagtól. Az eltérések gyökér négyzetátlagát standard eltérésnek nevezzük. Az előző példában az átlagtól való eltérések a következők: (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 és (79 - 71) = 8. a szórás négyzete (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. A szórás √ (366/10) = 6,05 (kilogrammban). Hacsak az adathalmaz nem torz, ebből arra lehet következtetni, hogy az adatok többsége 71 ± 6.05 intervallumban van, és ebben a példában valóban így van..
Mi a különbség a központi tendencia és a diszperzió között?? • A központi tendencia az értékek eloszlásának központját jelöli és lokalizálja • A diszperzió az adathalmaz mennyisége az adatkészlet közepén.
|