Apa itu Regresi Linier Sederhana?

Regresi linier sederhana berlaku untuk statistik dan membantu menggambarkan (x,y) data yang tampaknya memiliki hubungan linier, memungkinkan beberapa prediksi y jika x diketahui. Data ini sering diplot pada scatterplot dan rumus untuk regresi linier membuat garis yang paling cocok untuk semua titik, asalkan benar-benar memiliki korelasi linier. Itu tidak akan cocok dengan semua titik, tetapi itu harus berupa garis di mana jumlah kuadrat dari perbedaan antara data aktual dan data yang diharapkan (sisa) menghasilkan angka terendah, yang sering disebut garis kuadrat terkecil atau garis paling cocok. Persamaan garis untuk data sampel dan data populasi adalah sebagai berikut: y = b0 + b1x dan Y = B0 + B1x.

Siapa pun yang akrab dengan aljabar mungkin memperhatikan kesamaan garis ini dengan y = mx + b, dan sebenarnya keduanya relatif identik, kecuali dua suku di ruas kanan persamaan dialihkan, sehingga B1 sama dengan kemiringan atau m. Alasan untuk penataan ulang ini adalah kemudian menjadi lebih mudah untuk menambahkan istilah tambahan dengan fitur seperti eksponen yang mungkin menggambarkan bentuk hubungan nonlinier yang berbeda.

Rumus untuk mendapatkan garis regresi linier sederhana relatif kompleks dan rumit, dan kebanyakan orang tidak menghabiskan banyak waktu untuk menuliskannya karena membutuhkan waktu lama untuk menyelesaikannya. Sebagai gantinya, berbagai program, seperti untuk Excel atau untuk banyak jenis kalkulator ilmiah, dapat dengan mudah menghitung garis kuadrat terkecil. Garis hanya sesuai untuk prediksi jika ada bukti yang jelas dari korelasi yang kuat antara kumpulan data (x,y). Kalkulator akan menghasilkan garis, terlepas dari apakah masuk akal untuk menggunakannya.

Pada saat persamaan garis regresi linier sederhana dihasilkan, orang harus melihat tingkat korelasinya. Ini berarti mengevaluasi r, koefisien korelasi, terhadap tabel nilai untuk menentukan apakah ada korelasi linier. Selain itu, mengevaluasi data dengan memplotnya sebagai sebar adalah cara yang baik untuk mengetahui apakah data memiliki hubungan linier.

Apa yang kemudian dapat dilakukan dengan garis regresi linier sederhana, asalkan memiliki korelasi linier, adalah bahwa nilai-nilai dapat disubstitusikan ke x, untuk mendapatkan nilai prediksi untuk y. Prediksi ini ada batasnya. Data yang ada, terutama jika itu hanya sampel, mungkin memiliki korelasi linier sekarang, tetapi mungkin tidak nanti dengan bahan sampel tambahan yang ditambahkan.

Bergantian, seluruh sampel dapat berbagi korelasi sementara seluruh populasi tidak. Prediksi karena itu terbatas, dan jauh melampaui nilai data yang tersedia disebut ekstrapolasi, dan tidak dianjurkan. Selain itu, jika orang tahu bahwa jika tidak ada korelasi linier, estimasi terbaik dari x adalah rata-rata dari semua data y.

Pada dasarnya, regresi linier sederhana adalah alat statistik yang berguna yang dapat, dengan kebijaksanaan, digunakan untuk memprediksi nilai y berdasarkan nilai sumbu. Hal ini hampir selalu diajarkan dengan gagasan korelasi linier karena menentukan kegunaan dari garis regresi memerlukan analisis r. Untungnya dengan banyak program teknis modern, orang dapat membuat grafik scatterplot, menambahkan garis regresi dan menentukan koefisien korelasi r dengan beberapa entri.