Apa Itu Koefisien Determinasi?
Setelah kita menemukan garis regresi linear yang paling pas (best-fit) untuk data kita, pertanyaan selanjutnya adalah: seberapa baik garis tersebut benar-benar mewakili atau menjelaskan data kita?
Ukuran yang menjawab pertanyaan ini adalah Koefisien Determinasi, yang dilambangkan dengan (dibaca: r-kuadrat).
Sederhananya, memberitahu kita proporsi atau persentase dari variasi (naik-turunnya nilai) pada variabel dependen (Y) yang dapat dijelaskan oleh variasi pada variabel independen (X) menggunakan model regresi linear kita.
Koefisien Determinasi dari Diagram Pencar
Nilai sangat berkaitan dengan seberapa dekat titik-titik data mengumpul di sekitar garis regresi:
-
Tinggi (mendekati 1 atau 100%)
TinggiTitik-titik data sangat dekat dengan garis regresi.Lihat bagaimana titik-titik data di atas sangat rapat dan dekat dengan garis regresi? Ini menunjukkan nilai yang tinggi (misalnya, mungkin sekitar 0.95 atau 95%). Artinya, sebagian besar variasi nilai Y dapat dijelaskan dengan baik oleh garis regresi (atau oleh variabel X).
-
Rendah (mendekati 0 atau 0%)
RendahTitik-titik data tersebar jauh dari garis regresi.Bandingkan dengan diagram ini. Titik-titiknya lebih tersebar jauh dari garis regresi (garis residunya lebih panjang-panjang). Ini menandakan nilai yang rendah (misalnya, mungkin sekitar 0.40 atau 40%). Artinya, garis regresi ini kurang baik dalam menjelaskan variasi nilai Y; hanya sebagian kecil variasi Y yang bisa dijelaskan oleh X melalui model ini.
Menghitung Koefisien Determinasi
Cara paling mudah menghitung adalah dengan mengkuadratkan Koefisien Korelasi () yang sudah kita pelajari sebelumnya.
Jadi, jika kamu sudah menghitung nilai , tinggal kuadratkan saja!
Karena nilai selalu antara -1 dan +1 (), maka nilai akan selalu berada di antara 0 dan 1.
Secara Matematis (menggunakan Sum of Squares):
Nilai juga bisa dihitung langsung menggunakan nilai-nilai Jumlah Kuadrat (Sum of Squares) yang digunakan untuk menghitung :
Interpretasi sebagai Persentase
Nilai sering diubah menjadi persentase (dengan dikalikan 100) untuk interpretasi yang lebih mudah.
- Jika , artinya 81% dari total variasi variabel Y dapat dijelaskan oleh variasi variabel X melalui model regresi linear.
- Sisa variasinya ( atau 19% dalam contoh ini) dijelaskan oleh faktor-faktor lain yang tidak ada dalam model (bisa jadi variabel lain, atau random error).
Semakin tinggi persentase , semakin baik model regresi linear kita dalam menjelaskan hubungan antara X dan Y.