Att samla och beräkna statistiska data för att erhålla medelvärdet är ofta en lång och tråkig process. T-testet och envägsanalysen av varians (ANOVA) är de två vanligaste testerna som används för detta ändamål.
T-testet är ett statistiskt hypotesprov där teststatistiken följer en studentens t-fördelning om nollhypotesen stöds. Detta test tillämpas när teststatistiken följer en normal fördelning och värdet på en skaleringsperiod i teststatistiken är känd. Om skaleringstiden är okänd ersätts den av en uppskattning utifrån tillgänglig data. Teststatistik kommer att följa en Students t-distribution.
William Sealy Gosset introducerade t-statistiken 1908. Gosset var en kemist för Guinness-bryggeriet i Dublin, Irland. Guinness-bryggeriet hade en politik att rekrytera de bästa akademikerna från Oxford och Cambridge, välj från dem som kunde tillhandahålla applikationer av biokemi och statistik till företagets etablerade industriprocesser. William Sealy Gosset var en sådan examen. I processen förberedde William Sealy Gosset t-testet, som ursprungligen var tänkt som ett sätt att övervaka kvaliteten på stouten (den mörka öl som bryggeriet producerar) på ett kostnadseffektivt sätt. Gosset publicerade testet under pennnamnet Student i Biometrika ca 1908. Anledningen till pennanamnet var Guinness insisterande, eftersom företaget ville hålla sin policy om att använda statistik som en del av deras "affärshemligheter".
T-teststatistik följer generellt formen T = Z / s, där Z och s är dataens funktioner. Z-variabeln är utformad för att vara känslig för den alternativa hypotesen; Effekten av Z-variabeln är effektivare när den alternativa hypotesen är sann. Under tiden är 's' en skaleringsparameter som gör det möjligt att bestämma fördelningen av T. De antaganden som ligger till grund för ett t-test är att a) Z följer en normal normalfördelning under nullhypotesen; b) ps2 följer en Ï ‡ 2-fördelning med p frihetsgrader under nollhypotesen (där p är en positiv konstant); och c) Z-värdet och s-värdet är oberoende. I en viss typ av t-test är dessa förhållanden konsekvenser av den population som studeras, liksom hur uppgifterna samplas.
Å andra sidan är analysen av varians (ANOVA) en samling statistiska modeller. Medan ANOVAs principer har använts av forskare och statistiker under lång tid, var det inte förrän 1918 att Sir Ronald Fisher gjorde ett förslag att formalisera analys av varians i en artikel med titeln "Korrelationen mellan släktingar vid antagandet av Mendelian arv" . Sedan dess har ANOVA utökats inom sin omfattning och tillämpning. ANOVA är faktiskt en missnomer, eftersom den inte härrör från skillnaderna i variationer utan snarare från skillnaderna mellan grupper. Den innehåller de associerade förfarandena där den observerade variansen i en viss variabel delas upp i komponenter som kan hänföras till olika variationskällor.
I huvudsak tillhandahåller en ANOVA ett statistiskt test för att avgöra huruvida medelvärdena för flera grupper är alla lika och, som ett resultat, generaliserar t-test till mer än två grupper. En ANOVA kan vara mer användbar än ett tv-prov t-test eftersom det har en mindre chans att begå ett typ I-fel. T.ex. att ha flera tvåprov-t-tester skulle ha större chans att begå ett fel än en ANOVA av samma variabler som är inblandade för att erhålla medelvärdet. Modellen är densamma och teststatistiken är F-förhållandet. I enklare termer är t-test bara ett speciellt fall av ANOVA: att göra en ANOVA kommer att ha samma resultat av flera t-test. Det finns tre klasser av ANOVA-modeller: a) Fasta effekter modeller som antar att data kommer från normala populationer, endast olika i deras medel; b) Slumpmässiga effekter modeller som antar data beskriver en hierarki av olika populationer vars skillnader begränsas av hierarkin; och c) Blandade effektmodeller som är situationer där både de fasta och slumpmässiga effekterna är närvarande.