Vad är enkel linjär regression?

Enkel linjär regression gäller för statistik och hjälper till att beskriva (x,y) data som verkar ha ett linjärt samband, vilket möjliggör en viss förutsägelse av y om x är känt. Dessa data plottas ofta på punktdiagram och formeln för linjär regression skapar en linje som bäst passar alla punkter, förutsatt att de verkligen har en linjär korrelation. Det kommer inte att passa exakt alla punkter, men det bör vara en linje där summan av kvadraterna av skillnaden mellan faktiska data och förväntade data (rester) skapar det lägsta talet, som ofta kallas minsta kvadratlinjen eller raden av bästa passform. Linjens ekvation för urvalsdata och populationsdata är följande: y = b0 + b1x och Y = B0 + B1x.

Alla som är bekanta med algebra kan notera likheten mellan denna linje och y = mx + b, och i själva verket är de två relativt identiska, förutom att de två termerna på höger sida av ekvationen växlas, så att B1 är lika med lutning eller m. Anledningen till denna omarrangering är att det sedan blir elegant enkelt att lägga till ytterligare termer med funktioner som exponenter som kan beskriva olika olinjära former av relationer.

Formlerna för att få en enkel linjär regressionslinje är relativt komplexa och besvärliga, och de flesta lägger inte ner mycket tid på att skriva ner dessa eftersom de tar lång tid att slutföra. Istället kan olika program, som för Excel eller för många typer av vetenskapliga miniräknare, enkelt beräkna en minsta kvadratlinje. Linjen är endast lämplig för förutsägelse om det finns tydliga bevis på en stark korrelation mellan uppsättningarna av (x,y) data. En kalkylator kommer att generera en linje, oavsett om det är meningsfullt att använda den.

Samtidigt som en enkel linjär regressionslinjeekvation genereras, folk måste titta på korrelationsnivån. Detta innebär att utvärdera r, korrelationskoefficienten, mot en tabell med värden för att avgöra om linjär korrelation existerar. Att utvärdera data genom att plotta den som ett spridningsdiagram är dessutom ett bra sätt att få en känsla för om data har ett linjärt samband.

Det som då kan göras med en enkel linjär regressionslinje, förutsatt att den har en linjär korrelation, är att värden kan ersättas med x, för att få ett förutsagt värde för y. Denna förutsägelse har sina gränser. De data som finns, särskilt om det bara är ett prov, kan ha en linjär korrelation nu, men kanske inte senare med ytterligare provmaterial lagt till.

Alternativt kan ett helt urval dela en korrelation medan en hel population inte gör det. Förutsägelse är därför begränsad, och att gå långt utöver tillgängliga datavärden kallas extrapolering och uppmuntras inte. Om folk dessutom skulle veta att om ingen linjär korrelation existerar, är den bästa uppskattningen av x medelvärdet av alla y-data.

I grund och botten är enkel linjär regression ett användbart statistiskt verktyg som kan, med diskretion, användas för att förutsäga y-värden baserat på axvärde. Det lärs nästan alltid ut med tanken på linjär korrelation eftersom bestämning av användbarheten av en regressionslinje kräver analys av r. Lyckligtvis med många moderna tekniska program kan människor rita scatterplots, lägga till regressionslinjer och bestämma korrelationskoefficienten r med ett par poster.