About Multiple Regression

Bilson Simamora, 29 September 2017

Regresi berganda merupakan alat statistik yang dapat digunakan untuk membangun model untuk memrediksi suatu keluaran (outcome) (Higgins, 2005). Menurut Simon (2003), regresi untuk tujuan prediksi adalah yang paling bermanfaat, namun regresi untuk tujuan ini sedikit.  Kebanyakan regresi digunakan untuk memeriksa apakah terdapat hubungan signifikan antara Y dengan satu atau lebih prediktor.

REGRESI linier berganda digunakan apabila variabel independen terdiri dari dua atau lebih.  Menurut Simon (2003), persamaan regresi linier untuk k variabel adalah:

                       Yi = β0 + β1 (X1)i + β2 (X2)i + β3 (X3)i + … + βK (XK)i + εi ………. (3.1)

Label ‘i’ menyatakan tentang apa regresi dimaksud, βK=koefisien ke-k, ε adalah gangguan atau error yang bersifat acak dan tidak teramati atau bukan hasil pengamatan. Umumnya label ‘i’ tidak disertakan, sehingga model umum regresi linier berganda paling sering ditemukan adalah:

            Y = β0 + β1 (X1) + β2 (X2) + β3 (X3)i + … + βK (XK) + ε  …………………..  (3.2)

XK adalah variabel independen ke-k, βK=koefisien ke-k, ε adalah gangguan atau error yang bersifat acak dan tidak teramati atau bukan hasil pengamatan. Dalam pelaksanaannya, komponen ‘ε’ tidak disertakan pada persamaan. Persamaan demikian disebut fitted model, yaitu:

 Ŷ= β0 + β1 (X1) + β2 (X2) + β3 (X3)i + … + βK (XK) …………………….…….. (3.3)

Apabila fitted model dipakai untuk memrediksi nilai Y pada kasus ke-i, maka penulisan modelnya adalah:

            Ŷi = β0 + β1 (X1)i + β2 (X2)i + β3 (X3)i + … + βK (XK)i ….……………..….… (3.4)

Penulisan persamaan regresi di atas sebenarnya tidak baku. Ada cara  lain penulisan notasi persamaan selain notasi yang kita gunakan, seperti ditampilkan pada Tabel 3.1.

Tabel 3.1.  Cara Penulisan Notasi Model Regresi

NOTASI YANG KITA PAKAI

CARA LAIN PENULISAN NOTASI

Yi

yi

Xi

xi

β01X1

α+βX1

εi

ei

(X1)i, (X2)i, (X3)i, …, (XK)i

Xi1, Xi2, Xi3, …, XiK

Kesuksesan regresi dinilai berdasarkan tujuan regresi dilakukan. Apabila dimaksudkan untuk memprediksi Ŷi, maka keberhasilan regresi tergantung pada seberapa seberapa dekat nilai prediksi Y (yaitu Ŷ1, Ŷ2, Ŷ3 … Ŷn) dengan nilai observasi Y (Y1, Y2, Y3 … Yn) atau seberapa kecil error kuadrat.  Namun, menurut Simon (2003),  prediksi bukan satu-satunya tujuan regresi linier berganda. Menurutnya, pertanyaan lain adalah apakah persamaan regresi dapat dipercaya? Untuk itu, regresi linier berganda perlu memenuhi berbagai asumsi atau persyaratan.

Asumsi Regresi Linier Berganda

Mengutip Cohen, Cohen, West, & Aiken, 2003), Williams, Grajales dan Kurkiewicz (2013) menyatakan bahwa agar dapat dipercaya (credibility), koefisien-koefisien regresi linier berganda seharusnya tidak bias (unbiased), konsisten (consistent) dan efisien (efficient).  Sebuah estimator dikatakan tidak bias apabila nilai yang diharapkan (expected value) adalah sama dengan nilai parameter dalam populasi.  Dengan kata lain, estimator tidak memiliki bias sistematis atau tidak memiliki kecenderungan mengestimasi parameter sebenarnya (true parameters) terlalu rendah atau terlalu tinggi. Sebuah estimator dikatakan konsisten apabila nilai estimasi semakin mendekati nilai parameter sebenarnya seiring dengan peningkatan ukuran sampel atau akurasinya meningkat dengan semakin besarnya ukuran sampel. Efisiensi estimator berkaitan dengan keakuratan estimasi yang dihasilkan suatu estimator. Estimator dikatakan efisien apabila paling akurat (memiliki varian terkecil) dari semua estimator yang tidak bias dari suatu parameter.

Agar estimator tidak bias, konsisten, dan efisien dan akurat, menurut Osborne dan Waters (2002), regresi linier berganda perlu memenuhi enam asumsi, yaitu: error berdistribusi normal (normal distribution of errors), variabel-varibel observasi bersifat independen satu sama lain (independence of observations), prinsip liniaritas (linearity), reliabilitas pengukuran (reliability of measurement), homokedastisitas (homoscedasticity), dan variabel yang berdistribusi normal (normality).  Menurut keduanya, dua syarat pertama sulit dihindari atau besar kemungkinan (robust) akan terjadi, sedangkan empat syarat terakhir tidak selalu terjadi atau dapat dihindari (non-robust), sehingga keempatnyalah yang wajib dipenuhi dalam penelitian.

Willliams et al. (2013) menyatakan bahwa dua syarat pertama yang disebut Osborne dan Waters (2002) sebagai robust, sebenarnya perlu dimaksukkan sebagai asumsi yang harus dipenuhi oleh regresi linier.  Oleh karena itu, apabila keduanya dimasukkan, sebenarnya poin-poin yang disampaikan Osborne dan Waters (2002) telah dicakup dalam Poole dan O’Farrel (1970).

Poin pertama dari Poole dan O’Farrel (1970) bahwa syarat nilai pengamatan setiap variabel X dan Y harus bebas dari kesalahan pengukuran (measurement error) sebenarnya bukan khas regresi linier. Syarat ini wajib dipenuhi oleh semua penelitian, di mana  instrumen (misalnya kuesioner) yang digunakan harus reliabel. Uji Cronbach Alpha banyak digunakan untuk keperluan ini.

Poin ketiga dan ketujuh mendapat respon yang beragam dari para ahli. Poole dan O’Farrel (1970) memasukkan keduanya. Osborne dan Waters (2002) mengganggap bahwa syarat ketujuh yang diperlukan karena syarat ketiga adalah robust. Sedangkan menurut Williams et al. (2013) justru syarat ketiga, yaitu normalitas distribusi error yang diperlukan, bukan yang ketujuh.  Lebih jelasnya, mereka mengasumsikan bahwa error berdistribusi normal, sebagaimana juga dikatakan  Rawling, Pantula dan Dickey ( 1998). Ketiga peneliti terakhir ini juga menyatakan bahwa syarat ini baru diperlukan apabila tujuan analisis regresi adalah untuk menguji koefisien βi  dan confidence interval.

Berdasarkan uraian di atas, maka syarat-syarat regresi linier berganda adalah: (1) eror atau residual berdistribusi normal, (2) tidak terdapat multi-kolinearitas, (3) tidak terjadi heteroskedastisitas dan (4) tidak terjadi auto-korelasi.