Vad är histogramdistribution?

Histogramfördelning i statistik hänvisar till mönster, former och placeringar av univariata datastaplar på ett histogram. Hur och var staplarna är fördelade kan användas för att analysera och dra slutsatser om data. Histogramfördelningsanalys är viktig för att identifiera egenskaper som datanormalitet, multimodala distributioner och skev data.

Ett histogram är en univariat datavisning som använder rektanglar som är proportionella i area till klass eller bin-frekvenser för att visuellt visa datas egenskaper. Datapunkterna i histogrammet är organiserade i fack och själva histogramfördelningen är en visuell approximation av datas frekvensfördelning eller sannolikhetstäthetsfunktion. Formen på fördelningen kan ändras beroende på antalet papperskorgar.

Histogramfördelningsanalys används ofta som en kvalitativ kontroll av datanormalitet. Även om det finns analytiska metoder för att bestämma normalitet, kan histogram användas för att ge en snabb, sunt förnuftskontroll för att spara tid. Om histogramdata verkar ungefär jämnt och centrerat på medelvärdet, antas data vara normala. Även om den är snabb och relativt enkel, är denna typ av kvalitativ kontroll subjektiv och analytiska metoder bör användas om en högre standard för noggrannhet krävs.

Att avgöra om en datamängd uppvisar skevhet är ett annat sätt att analysera histogramdistribution. Dataskevhet definieras som uttalad asymmetri i data. Negativ skevning, eller snedställning åt vänster, ses i datamängder med mycket få låga värden. Positiv skevning, eller skevning åt höger, förekommer i datamängder med få höga värden. Att observera histogramfördelningen kan avslöja extremvärden och skeva data.

Förutom att avslöja egenskaperna hos data med ett enda läge, kan formen på ett histogram också avslöja egenskaper hos multimodala data. Multimodala datamängder innehåller mer än ett läge och kännetecknas av frekvensfördelningar som har mer än en topp eller maxima. Politiska tillhörigheter i en stad, opinionsundersökningar och kroppsstorlekar på bin är exempel på datauppsättningar som kan vara multimodala. Att observera formen på histogrammet och notera de olika topparna i multimodala data kan ofta ge en forskare mer insikt än enkla univariata statistiska beräkningar skulle göra.

Analysen av histogram och distributionen av data är starkt beroende av de valda fackstorlekarna. I praktiken kan antalet fack uppskattas genom att ta kvadratroten av antalet observationer, även om andra fackstorlekar kan användas. Till exempel kan en lärare välja att analysera testbetyg genom att välja papperskorgar som återspeglar bokstavsbetyg.