Vad är lagen om stora siffror?

Lagen om stora tal är en statistisk sats som postulerar att urvalsgenomsnittet av slumpvariabler kommer att närma sig det teoretiska genomsnittet när antalet slumpvariabler ökar. Med andra ord, ju större ett statistiskt urval är, desto mer sannolikt är det att få resultaten mer korrekta av den totala bilden. Lägre urvalsnummer tenderar att förvränga resultatet lättare, även om de också kan vara ganska exakta.

Ett mynt är ett bra exempel som kan användas för att visa lagen om stora tal. Ofta används den i statistikkurser på nybörjarnivå för att visa hur effektiv denna lag kan vara. De flesta mynt har två sidor, huvud och svans. Om myntet vänds, skulle logiken säga att det finns lika stora chanser att myntet landar på huvud- eller svanssidan. Naturligtvis beror detta på balansen i myntet, dess magnetiska egenskaper och andra faktorer, men generellt är detta sant.

Om ett mynt bara vänds några få gånger, kanske resultaten inte indikerar att det är lika stor chans att det landar på huvud och svans. Om du till exempel vänder ett mynt fyra gånger kan det ge tre huvuden och en svans. Det kunde till och med ge fyra huvuden och inga svansar. Detta är en statistisk anomali.

Men lagen om stora siffror säger att när urvalet ökar kommer dessa resultat med största sannolikhet att falla i linje med den sanna representationen av möjligheterna. Om ett mynt vänds 200 gånger är det en stor sannolikhet att antalet gånger det landar på huvuden och svansarna kommer att vara nära 100 vardera. Men lagen eller stora siffror förutspår inte att det kommer att vara exakt 100 vardera, bara att det sannolikt kommer att vara mer representativt för det verkliga utbudet av möjligheter än ett mindre genomsnitt.

Lagen om stora siffror visar varför ett adekvat urval behövs. Statistik används för att det inte finns tillräckligt med tid, eller så är det opraktiskt, att använda hela populationen som ett urval. Ett befolkningsurval innebär dock att det kommer att finnas representativa medlemmar av befolkningen som inte räknas. För att säkerställa att urvalet reflekterar den totala populationen behövs ett tillräckligt antal slumpvariabler.

Att bestämma hur stort urval som behövs beror normalt på ett antal faktorer, den viktigaste är konfidensintervallet. Till exempel är ett statistiskt konfidensintervall graden av säkerhet som befolkningen kommer att falla inom vissa parametrar. Att sätta ett konfidensintervall på 95 procent skulle innebära att det finns en rimlig säkerhet att 95 procent av befolkningen kommer att falla inom dessa parametrar. Urvalet som behövs för vissa konfidensintervall bestäms av en formel som tar hänsyn till antalet i populationen samt det önskade konfidensintervallet.
Medan lagen om stora tal är ett enkelt koncept, kan satserna och formlerna som hjälper till att motivera det vara ganska komplexa. Enkelt uttryckt är lagen eller stora siffror den bästa förklaringen till varför större urval är bättre än mindre. Ingen kan positivt garantera att ett statistiskt urval kommer att vara helt korrekt, men denna lag hjälper till att förhindra många felaktiga resultat.