Standardavvikelse och variation är statistiska åtgärder för spridning av data, dvs de representerar hur mycket variation det finns från medeltalet, eller i vilken utsträckning värdena vanligtvis "avviker" från medelvärdet (medelvärdet). En varians eller standardavvikelse på noll indikerar att alla värden är identiska.
Variansen är medelvärdet av kvadraterna för avvikelserna (dvs skillnaden i värden från medelvärdet) och standardavvikelsen är kvadratroten av den variansen. Standardavvikelse används för att identifiera avvikande data i data.
Standardavvikelse | Variation | |
---|---|---|
Matematisk formel | Kvadratroten av variansen | Medelvärdet av kvadraterna av avvikelser för varje värde från medelvärdet i ett prov. |
Symbol | Grekiska bokstaven sigma - σ | Ingen särskild symbol; uttryckt i form av standardavvikelse eller andra värden. |
Värden i förhållande till givna dataset | Samma skala som värden i den givna datasatsen; därför uttryckt i samma enheter. | Skala större än värdena i den givna datasatsen; inte uttryckt i samma enhet som värdena själva. |
Är värden negativa eller positiva? | Alltid icke-negativ | Alltid icke-negativ |
Real World Application | Befolkningsprovtagning; identifiera avvikare | Statistiska formler, finans. |
Formeln för standardavvikelse och varians uttrycks ofta med:
Variansen av en uppsättning av n lika troliga värden kan skrivas som:
Standardavvikelsen är kvadratroten av variansen:
Formler med grekiska bokstäver har ett sätt att se skrämmande, men det är mindre komplicerat än det verkar. För att uttrycka det i enkla steg:
Det ger variationen. Ta kvadratroten av variansen för att hitta standardavvikelsen.
Denna utmärkta video från Khan Academy förklarar begreppen varians och standardavvikelse:
Låt oss säga en datamängd innehåller höjden på sex maskrosor: 3 tum, 4 tum, 5 tum, 4 tum, 11 tum och 6 tum.
Först hitta medelvärdet av datapunkterna: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Så den genomsnittliga höjden är 5,5 tum. Nu behöver vi avvikelserna, så vi hittar skillnaden för varje växt från medelvärdet: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Nu kvadrera varje avvikelse och hitta deras summa: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Dela nu summan av kvadraterna med antalet datapunkter, i detta fall växter: 43,5 / 6 = 7,25
Så variansen i denna dataset är 7,25, vilket är ett ganska godtyckligt tal. För att konvertera den till en verklig mätning, ta kvadratroten på 7,25 för att hitta standardavvikelsen i inches.
Standardavvikelsen är cirka 2,69 tum. Det betyder att varje maskros inom 2,69 tum av medelvärdet (5,5 tum) är "normal".
Avvikelser är kvadrade för att förhindra negativa värden (avvikelser under medelvärdet) att avbryta de positiva värdena. Detta fungerar eftersom ett negativt tal kvadreras blir ett positivt värde. Om du hade en enkel dataset med avvikelser från medelvärdet av +5, +2, -1 och -6, kommer summan av avvikelserna att komma ut som noll om värdena inte är kvadrerade (dvs 5 + 2 - 1 - 6 = 0).
Varians uttrycks som en matematisk dispersion. Eftersom det är ett godtyckligt tal i förhållande till de ursprungliga mätningarna av datasatsen är det svårt att visualisera och tillämpa i verklig mening. Att hitta variansen är vanligtvis bara det sista steget innan man hittar standardavvikelsen. Variansvärden används ibland i finansiella och statistiska formler.
Standardavvikelsen, som uttrycks i de ursprungliga enheterna i datasatsen, är mycket mer intuitiv och närmare värdena i den ursprungliga datamängden. Det används oftast för att analysera demografi eller populationprover för att få en känsla av vad som är normalt i befolkningen.
I en normal fördelning faller omkring 68% av befolkningen (eller värdena) inom 1 standardavvikelse (1σ) av medelvärdet och omkring 94% faller inom 2σ. Värden som skiljer sig från medelvärdet med 1,7σ eller mer betraktas som regel borttagare.
I praktiken försöker kvalitetssystem som Six Sigma minska felfrekvensen så att fel blir en outlier. Termen "sex sigma-process" kommer utifrån tanken att om man har sex standardavvikelser mellan processmedelvärdet och närmaste specifikationsgräns, kommer praktiskt taget inga produkter att uppfylla specifikationerna.[1]
I verkliga applikationer representerar dataset vanligtvis befolkningsprover, snarare än hela populationer. En lätt modifierad formel används om befolkningsövergripande slutsatser ska dras från ett partiellt prov.
En "standardavvikelse för prov" används om allt du har är ett prov, men du vill göra ett uttalande om populationens standardavvikelse från vilken provet är ritat
Den enda sättet för provstandardavvikelsen skiljer sig från standardavvikelsens formel är "-1" i nämnaren.
Med hjälp av maskros exempelet skulle denna formel behövas om vi samlade endast 6 maskrosor, men ville använda provet för att ange standardavvikelsen för hela fältet med hundratals maskrosor.
Summan av kvadrater skulle nu delas med 5 istället för 6 (n - 1), vilket ger en varians av 8,7 (i stället för 7,25) och en provstandardavvikelse på 2,95 tum, i stället för 2,69 tum för den ursprungliga standardavvikelsen. Denna ändring används för att hitta en felmarginal i ett prov (9% i det här fallet).