Standardavvikelse vs Varians

Standardavvikelse och variation är statistiska åtgärder för spridning av data, dvs de representerar hur mycket variation det finns från medeltalet, eller i vilken utsträckning värdena vanligtvis "avviker" från medelvärdet (medelvärdet). En varians eller standardavvikelse på noll indikerar att alla värden är identiska.

Variansen är medelvärdet av kvadraterna för avvikelserna (dvs skillnaden i värden från medelvärdet) och standardavvikelsen är kvadratroten av den variansen. Standardavvikelse används för att identifiera avvikande data i data.

Jämförelsediagram

Standardavvikelse jämfört med variationskalkyl
StandardavvikelseVariation
Matematisk formel Kvadratroten av variansen Medelvärdet av kvadraterna av avvikelser för varje värde från medelvärdet i ett prov.
Symbol Grekiska bokstaven sigma - σ Ingen särskild symbol; uttryckt i form av standardavvikelse eller andra värden.
Värden i förhållande till givna dataset Samma skala som värden i den givna datasatsen; därför uttryckt i samma enheter. Skala större än värdena i den givna datasatsen; inte uttryckt i samma enhet som värdena själva.
Är värden negativa eller positiva? Alltid icke-negativ Alltid icke-negativ
Real World Application Befolkningsprovtagning; identifiera avvikare Statistiska formler, finans.

Innehåll: Standardavvikelse vs Varians

  • 1 Viktiga begrepp
  • 2 symboler
  • 3 formler
  • 4 Exempel
    • 4.1 Varför kvadrera avvikelserna?
  • 5 Real World Applications
    • 5.1 Hitta avvikare
  • 6 Prov Standardavvikelse
  • 7 referenser

Viktiga begrepp

  • Betyda: Medelvärdet av alla värden i en dataset (lägg till alla värden och dela deras summa med antalet värden).
  • Avvikelse: avståndet för varje värde från medelvärdet. Om medelvärdet är 3, har ett värde av 5 en avvikelse på 2 (subtrahera medelvärdet från värdet). Avvikelse kan vara positiv eller negativ.

symboler

Formeln för standardavvikelse och varians uttrycks ofta med:

  • x⋅ = medelvärdet eller genomsnittet för alla datapunkter i problemet
  • X = En enskild datapunkt
  • N = antalet poäng i datasatsen
  • Σ = summan av [avvikelsens kvadrater]

formler

Variansen av en uppsättning av n lika troliga värden kan skrivas som:

Standardavvikelsen är kvadratroten av variansen:

Formler med grekiska bokstäver har ett sätt att se skrämmande, men det är mindre komplicerat än det verkar. För att uttrycka det i enkla steg:

  1. hitta medelvärdet av alla datapunkter
  2. ta reda på hur långt varje punkt är borta från genomsnittet (detta är avvikelsen)
  3. kvadratiska varje avvikelse (dvs skillnaden mellan varje värde från medelvärdet)
  4. dela summan av kvadraterna med antalet poäng.

Det ger variationen. Ta kvadratroten av variansen för att hitta standardavvikelsen.

Denna utmärkta video från Khan Academy förklarar begreppen varians och standardavvikelse:

Exempel

Låt oss säga en datamängd innehåller höjden på sex maskrosor: 3 tum, 4 tum, 5 tum, 4 tum, 11 tum och 6 tum.

Först hitta medelvärdet av datapunkterna: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Så den genomsnittliga höjden är 5,5 tum. Nu behöver vi avvikelserna, så vi hittar skillnaden för varje växt från medelvärdet: -2,5, -1,5, -,5, -1,5, 5,5, 1,5

Nu kvadrera varje avvikelse och hitta deras summa: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5

Dela nu summan av kvadraterna med antalet datapunkter, i detta fall växter: 43,5 / 6 = 7,25

Så variansen i denna dataset är 7,25, vilket är ett ganska godtyckligt tal. För att konvertera den till en verklig mätning, ta kvadratroten på 7,25 för att hitta standardavvikelsen i inches.

Standardavvikelsen är cirka 2,69 tum. Det betyder att varje maskros inom 2,69 tum av medelvärdet (5,5 tum) är "normal".

Varför kvadrera avvikelserna?

Avvikelser är kvadrade för att förhindra negativa värden (avvikelser under medelvärdet) att avbryta de positiva värdena. Detta fungerar eftersom ett negativt tal kvadreras blir ett positivt värde. Om du hade en enkel dataset med avvikelser från medelvärdet av +5, +2, -1 och -6, kommer summan av avvikelserna att komma ut som noll om värdena inte är kvadrerade (dvs 5 + 2 - 1 - 6 = 0).

Real World Applications

Varians uttrycks som en matematisk dispersion. Eftersom det är ett godtyckligt tal i förhållande till de ursprungliga mätningarna av datasatsen är det svårt att visualisera och tillämpa i verklig mening. Att hitta variansen är vanligtvis bara det sista steget innan man hittar standardavvikelsen. Variansvärden används ibland i finansiella och statistiska formler.

Standardavvikelsen, som uttrycks i de ursprungliga enheterna i datasatsen, är mycket mer intuitiv och närmare värdena i den ursprungliga datamängden. Det används oftast för att analysera demografi eller populationprover för att få en känsla av vad som är normalt i befolkningen.

Hitta avvikare

En normal fördelning (Bell-kurva) med band som motsvarar 1σ

I en normal fördelning faller omkring 68% av befolkningen (eller värdena) inom 1 standardavvikelse (1σ) av medelvärdet och omkring 94% faller inom 2σ. Värden som skiljer sig från medelvärdet med 1,7σ eller mer betraktas som regel borttagare.

I praktiken försöker kvalitetssystem som Six Sigma minska felfrekvensen så att fel blir en outlier. Termen "sex sigma-process" kommer utifrån tanken att om man har sex standardavvikelser mellan processmedelvärdet och närmaste specifikationsgräns, kommer praktiskt taget inga produkter att uppfylla specifikationerna.[1]

Prov Standardavvikelse

I verkliga applikationer representerar dataset vanligtvis befolkningsprover, snarare än hela populationer. En lätt modifierad formel används om befolkningsövergripande slutsatser ska dras från ett partiellt prov.

En "standardavvikelse för prov" används om allt du har är ett prov, men du vill göra ett uttalande om populationens standardavvikelse från vilken provet är ritat

Den enda sättet för provstandardavvikelsen skiljer sig från standardavvikelsens formel är "-1" i nämnaren.

Med hjälp av maskros exempelet skulle denna formel behövas om vi samlade endast 6 maskrosor, men ville använda provet för att ange standardavvikelsen för hela fältet med hundratals maskrosor.

Summan av kvadrater skulle nu delas med 5 istället för 6 (n - 1), vilket ger en varians av 8,7 (i stället för 7,25) och en provstandardavvikelse på 2,95 tum, i stället för 2,69 tum för den ursprungliga standardavvikelsen. Denna ändring används för att hitta en felmarginal i ett prov (9% i det här fallet).

referenser

  • Enkelt exempel på beräkning av standardavvikelse - AppSpot
  • Standardavvikelseformler - Math är kul
  • Absolut avvikelse och variation - Laerd Statistics
  • Standardavvikelse och varians - Math är kul
  • Wikipedia: Standardavvikelse
  • Wikipedia: Varians # Egenskaper
  • Räckvidd, varians och standardavvikelse som dispersionsåtgärder - Khan akademin
  • Modes, Medians and Means: Ett förenande perspektiv