Vad är Central Limit Theorem?

Den centrala gränssatsen i statistik säger att summan eller medelvärdet av ett stort antal slumpvariabler approximerar normalfördelningen. Det kan också tillämpas på binomialfördelningar. Ju större urvalsstorlek, desto närmare kommer fördelningen att vara normalfördelningen.

Normalfördelningen, som närmar sig den centrala gränssatsen, är formad som en symmetrisk klockkurva. Normalfördelningar beskrivs av medelvärdet, som representeras av den grekiska bokstaven mu, och standardavvikelsen, representerad av sigma. Medelvärdet är helt enkelt genomsnittet, och det är den punkt där klockkurvan når sin topp. Standardavvikelser indikerar hur utspridda variablerna i fördelningen är — en lägre standardavvikelse ger en smalare kurva.

Hur de slumpmässiga variablerna är fördelade spelar ingen roll för den centrala gränssatsen – summan eller medelvärdet av variablerna kommer fortfarande att närma sig en normalfördelning om det finns en tillräckligt stor urvalsstorlek. Urvalsstorleken på de slumpmässiga variablerna är viktig eftersom slumpmässiga urval tas från populationen för att få summan eller medelvärdet. Både antalet uttagna prover och storleken på dessa prover är viktigt.

För att beräkna en summa från ett urval som tagits från slumpvariabler, väljs först en urvalsstorlek. Provstorleken kan vara så liten som två, eller så kan den vara mycket stor. Den dras slumpmässigt och sedan adderas variablerna i urvalet. Denna procedur upprepas många gånger, och resultaten är grafiska på en statistisk fördelningskurva. Om antalet prover och provstorleken är tillräckligt stor kommer kurvan att ligga mycket nära normalfördelningen.

Urval tas för medelvärden i centrala gränssatsen på samma sätt som för summor, men istället för att addera beräknas medelvärdet av varje prov. En större urvalsstorlek ger resultat närmare normalfördelningen, och resulterar vanligtvis också i en mindre standardavvikelse. Vad gäller summorna ger ett större antal stickprov en bättre approximation till normalfördelningen.

Centralgränssatsen gäller även binomialfördelningar. Binomialfördelningar används för händelser med endast två möjliga utfall, som att vända ett mynt. Dessa fördelningar beskrivs av antalet utförda försök, n, och sannolikheten för framgång, p, för varje försök. Medel- och standardavvikelserna för en binomialfördelning beräknas med n och p. När n är mycket stort blir medel- och standardavvikelserna desamma för binomfördelningen som för normalfördelningen.