Skillnad mellan central tendens och dispersion

Central Tendency vs Dispersion

I beskrivande och inferentiell statistik används flera index för att beskriva en dataset som motsvarar dess centrala tendens, dispersion och skedhet: de tre viktigaste egenskaperna som bestämmer den relativa formen av fördelningen av en dataset.

Vad är central tendens?

Central tendens hänvisar till och lokaliserar mitten av fördelningen av värden. Medel, läge och median är de vanligaste indexen för att beskriva den centrala tendensen för en dataset. Om en dataset är symmetrisk, sammanfaller både medianen och mediet av datasatsen med varandra.

Med en dataserie beräknas medelvärdet genom att summan av alla datavärdena delas och sedan divideras med antalet data. Exempelvis mäts vikterna på 10 personer (i kilo) till 70, 62, 65, 72, 80, 70, 63, 72, 77 och 79. Då kan de tio människornas medelvikt (i kilogram) vara beräknad enligt följande. Summan av vikterna är 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Medel = (summa) / (antal data) = 710/10 = 71 (i kilogram). Det är underförstått att outliers (datapunkter som avviker från den normala trenden) tenderar att påverka medelvärdet. Således, i närvaro av uteslutande medel betyder ensam inte att ge en korrekt bild om datasatsens mittpunkt.

Medianen är datapunkten som finns i den exakta mitten av datamängden. Ett sätt att beräkna medianen är att beställa datapunkterna i stigande ordning och sedan lokalisera datapunktet i mitten. Till exempel, om en gång beställts ser den tidigare datasatsen ut, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Därför är (70 + 72) / 2 = 71 i mitten. Från detta ser man att medianen inte behöver vara i datamängden. Median påverkas inte av närvaron av outliers. Median kommer därför att fungera som ett bättre mått på central tendens i närvaro av utjämnare.

Läget är det vanligaste värdet i uppsättningen data. I det föregående exemplet sker värdet 70 och 72 båda två gånger och sålunda är båda lägena. Detta visar att det i vissa utdelningar finns mer än ett modalt värde. Om det bara finns ett läge sägs datasatsen vara unimodal, i det här fallet är datasatsen bimodal.

Vad är dispersion?

Dispersion är mängden spridning av data kring distributionscentrumet. Räckvidd och standardavvikelse är de mest använda sprutåtgärderna.

Sortimentet är helt enkelt det högsta värdet minus det lägsta värdet. I föregående exempel är det högsta värdet 80 och lägsta värdet är 62, så intervallet är 80-62 = 18. Men intervallet ger inte en tillräcklig bild om dispersionen.

För att beräkna standardavvikelsen beräknas först avvikelserna av datavärdena från medelvärdet. Roten torget betyder avvikelser kallas standardavvikelsen. I föregående exempel är respektive avvikelser från medelvärdet (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 och (79-71) = 8. Summan av kvadrater av avvikelse är (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Standardavvikelsen är √ (366/10) = 6,05 (i kg). Om inte datamängden är väldigt skevad kan det här dras att majoriteten av data ligger i intervallet 71 ± 6,05, och det är verkligen så i det här exemplet.

Vad är skillnaden mellan central tendens och dispersion?

• Central tendens hänvisar till och lokaliserar mitten av fördelningen av värden

• Dispersion är mängden dataöverföring kring mitten av en dataset.