Regresi Linier Berganda - Bilson Simamora Marketing and Research Center

Last Updated on May 29, 2023 by Bilson Simamora

Pendahuluan

Regresi berganda merupakan alat statistik yang dapat digunakan untuk membangun model untuk memrediksi suatu keluaran (outcome) (Higgins, 2005). Menurut Simon (2003), regresi untuk tujuan prediksi adalah yang paling bermanfaat, namun regresi untuk tujuan ini sedikit. Kebanyakan regresi digunakan untuk memeriksa apakah terdapat hubungan signifikan antara Y dengan satu atau lebih prediktor.

REGRESI linier berganda digunakan apabila variabel independen terdiri dari dua atau lebih. Menurut Simon (2003), persamaan regresi linier untuk k variabel adalah:

Y_i= β₀ + β₁ (X₁)_i + β2 (X₂)_i + β₃ (X₃)_i + … + β_K (X_K)_i + ε_i ………. (1)

Label ‘i’ menyatakan tentang apa regresi dimaksud, β_K=koefisien ke-k, ε adalah gangguan atau error yang bersifat acak dan tidak teramati atau bukan hasil pengamatan. Umumnya label ‘i’ tidak disertakan, sehingga model umum regresi linier berganda paling sering ditemukan adalah:

Y = β₀ + β₁ (X₁) + β2 (X₂) + β₃ (X₃)_i + … + β_K (X_K) + ε …………… (2)

XK adalah variabel independen ke-k, β_K=koefisien ke-k, ε adalah gangguan atau error yang bersifat acak dan tidak teramati atau bukan hasil pengamatan. Dalam pelaksanaannya, komponen ‘ε’ tidak disertakan pada persamaan. Persamaan demikian disebut fitted model, yaitu:

Ŷ= β₀ + β₁ (X₁) + β2 (X₂) + β₃ (X₃)_i + … + β_K (X_K) ………………….. (3)

Apabila fitted model dipakai untuk memrediksi nilai Y pada kasus ke-i, maka penulisan modelnya adalah:

Ŷ_i= β₀ + β₁ (X₁)_i + β2 (X₂)_i + β₃ (X₃)_i + … + β_K (X_K)_i………..…….… (4)

Penulisan persamaan regresi di atas sebenarnya tidak baku. Ada cara lain penulisan notasi persamaan selain notasi yang kita gunakan, seperti ditampilkan pada Tabel 1.

Tabel 1. Cara Penulisan Notasi Model Regresi

Notasi yang Kita Pakai	Cara Lain Penulisan Notasi
Y_i	y_i
X_i	x_i
β₀+β₁X₁	α+βX₁
ε_i	e_i
(X₁)_i, (X₂)_i, (X₃)_i, …, (X_K)_i	X_i1, X_i2, X_i3, …, X_iK

Kesuksesan regresi dinilai berdasarkan tujuan regresi dilakukan. Apabila dimaksudkan untuk memprediksi Ŷ_i, maka keberhasilan regresi tergantung pada seberapa seberapa dekat nilai prediksi Y (yaitu Ŷ₁, Ŷ₂, Ŷ₃ … Ŷ_n) dengan nilai observasi Y (Y₁, Y₂, Y₃ … Y_n) atau seberapa kecil error kuadrat. Namun, menurut Simon (2003), prediksi bukan satu-satunya tujuan regresi linier berganda. Menurutnya, pertanyaan lain adalah apakah persamaan regresi dapat dipercaya? Untuk itu, regresi linier berganda perlu memenuhi berbagai asumsi atau persyaratan.

Asumsi Klasik

Williams et al. (2013) menyatakan bahwa agar dapat dipercaya (credibility), koefisien-koefisien regresi linier berganda seharusnya tidak bias (unbiased), konsisten (consistent) dan efisien (efficient). Sebuah estimator dikatakan tidak bias apabila nilai yang diharapkan (expected value) adalah sama dengan nilai parameter dalam populasi. Dengan kata lain, estimator tidak memiliki bias sistematis atau tidak memiliki kecenderungan mengestimasi parameter sebenarnya (true parameters) terlalu rendah atau terlalu tinggi. Sebuah estimator dikatakan konsisten apabila nilai estimasi semakin mendekati nilai parameter sebenarnya seiring dengan peningkatan ukuran sampel atau akurasinya meningkat dengan semakin besarnya ukuran sampel. Efisiensi estimator berkaitan dengan keakuratan estimasi yang dihasilkan suatu estimator. Estimator dikatakan efisien apabila paling akurat (memiliki varian terkecil) dari semua estimator yang tidak bias dari suatu parameter.

Agar estimator tidak bias, konsisten, dan efisien dan akurat, menurut Osborne dan Waters (2002), regresi linier berganda perlu memenuhi enam asumsi, yaitu: error berdistribusi normal (normal distribution of errors), variabel-varibel observasi bersifat independen satu sama lain (independence of observations), prinsip liniaritas (linearity), reliabilitas pengukuran (reliability of measurement), homokedastisitas (homoscedasticity), dan variabel yang berdistribusi normal (normality). Menurut keduanya, dua syarat pertama sulit dihindari atau besar kemungkinan (robust) akan terjadi, sedangkan empat syarat terakhir tidak selalu terjadi atau dapat dihindari (non-robust), sehingga keempatnyalah yang wajib dipenuhi dalam penelitian.

Willliams et al. (2013) menyatakan bahwa dua syarat pertama yang disebut Osborne dan Waters (2002) sebagai robust, sebenarnya perlu dimaksukkan sebagai asumsi yang harus dipenuhi oleh regresi linier. Oleh karena itu, apabila keduanya dimasukkan, sebenarnya poin-poin yang disampaikan Osborne dan Waters (2002).

Poin pertama dari Poole dan O’Farrel (1970) bahwa syarat nilai pengamatan setiap variabel X dan Y harus bebas dari kesalahan pengukuran (measurement error) sebenarnya bukan khas regresi linier. Syarat ini wajib dipenuhi oleh semua penelitian, di mana instrumen (misalnya kuesioner) yang digunakan harus reliabel. Uji Cronbach Alpha banyak digunakan untuk keperluan ini.

Poin ketiga dan ketujuh mendapat respon yang beragam dari para ahli. Poole dan O’Farrel (1970) memasukkan keduanya. Osborne dan Waters (2002) mengganggap bahwa syarat ketujuh yang diperlukan karena syarat ketiga adalah robust. Sedangkan menurut Williams et al. (2013) justru syarat ketiga, yaitu normalitas distribusi error yang diperlukan, bukan yang ketujuh.

Lebih jelasnya, mereka mengasumsikan bahwa error berdistribusi normal, sebagaimana juga dikatakan Rawling et al.( 1998). Ketiga peneliti terakhir ini juga menyatakan bahwa syarat ini baru diperlukan apabila tujuan analisis regresi adalah untuk menguji koefisien βi dan confidence interval.

Berdasarkan uraian di atas, maka syarat-syarat regresi linier berganda adalah: (1) eror atau residual berdistribusi normal, (2) tidak terdapat multi-kolinearitas, (3) tidak terjadi heteroskedastisitas dan (4) tidak terjadi auto-korelasi.

Uji Normalitas

Prinsip normalitas berlaku untuk error (Rawlings et al., 1998; Osborne dan Water, 2002; Willliam et al., 2013). Error yang disebut juga residual adalah perbedaan antara nilai hasil observasi dan nilai prediksi yang diperoleh melalui model regresi sebenarnya (true regression model) yang berlaku untuk populasi secara keseluruhan. Residual adalah perbedaan antara nilai observasi dengan nilai prediksi yang diperoleh dengan menggunakan model regresi estimasi. Untuk setiap kombinasi nilai prediktor, diasumsikan distribusi residual adalah normal.

Sebagian peneliti menyatakan bahwa estimatorlah yang harus berdistribusi normal. Syarat ini sulit diterapkan dalam ilmu-ilmu sosial. Dalam survai, misalnya, distribusi data cenderung tidak normal, yaitu condong (skewness) ke kiri atau ke kanan. Penyebabnya, sikap orang-orang tentang seuatu cenderung ke arah baik ataupun buruk

Namun, menurut White and McDonald (1980) prinsip normalitas variabel tidak bisa diterapkan apabila estimator menggunakan skala dikotomi (misalnya: pria-wanita, hujan-tidak hujan, terang-gelap).

Williams et al. (2013) menambahkan bahwa apabila error berdistribusi normal, kita dapat mengambil kesimpulan tentang populasi walaupun ukuran sampel kecil. Pelanggaran terhadap asumsi ini, menurut mereka, mengutip White dan MacDonald (1980), dapat menurunkan efisiensi estimator. Menurut mereka, apabila error tidak berdistribusi normal, nilai koefisien t dan F mungkin tidak mengikuti distribusi t dan F. Mereka juga mengatakan bahwa prinsip normalitas variabel tidak bisa diterapkan apabila estimator menggunakan skala dikotomi (misalnya: pria-wanita, hujan-tidak hujan, terang-gelap).

Bagaimana kalau tidak normal?

Tambah jumlah sampel karena semakin besar ukuran sampel, data semakin mengarah ke distribusi normal.
Deteksi Keberadaan outliers dapat menyebabkan data berdistribusi tidak normal.
Lakukan transformasi regresi linier menjadi regresi polynomial. Ada dua persamaan yang umumnya digunakan, yaitu persamaan pangkat dua dan pangkat tiga tergantung pada pola distribusi datanya. Persamaan pangkat dua digunakan untuk distribusi yang bersifat parabolik, sedangkan persamaan pangkat tiga digunakan untuk distibusi data yang bersifat sinusoidal.
Lakukan transformasi regresi linier menjadi regresi logaritmik. Ada empat pilihan model, yaitu log-liner, linier-log dan log-log. Prinsip-prinsip operasi logaritma berlaku dalam pendekatan ini.

Transformasi regresi linier menjadi polynomial regression dan logarithmic regression dapat ditemukan pada buku-buku statistika. Pembaca bisa pula membaca buku “Teknik Regresi untuk Riset Manajemen dan Bisnis” karangan penulis.

Sebagai contoh, download data dari link ini, yang diperoleh dari 102 responden. Pertama-tama, lakukan regresi dengan langkah-langkah pada SPSS: Analysis>Regression>Linier. Kemudian, pada kotak yang muncul pada layar SPSS isikan variabel dependen dan independen. Jangan lupa meng-klik tombol ‘save’ agar SPSS memberikan data unstandardized residuals. Klik tombol ‘Plot’ lalu tandai Normal probability plot, Histogram. Pada sel X masukkan *ZPRES dan *ZRESID pada sel Y, kemudian Continue. Lalu klik OK pada kotak yang pertama muncul tadi.

Dalam menguji normalitas kita mulai dari memperhatikan distribusi residual, seperti ditunjukkan pada Output 1. Kita dapat melihat bahwa distribusi residual yang ditampilkan dalam bentuk histogram tidak mengikuti pola kurva normal. Namun, untuk memastikan apakah residual berdistribusi normal atau tidak, kita dapat menggunakan uji Kolmogorov-Smirnov dan Shapiro-Wilk.

Perlu diketahui dari proses sebelumnya SPSS telah memberikan data residual yang disimpan sebagai variabel RES_1. Nah, sekarang kita menguji apakah variabel ini berdistribusi normal atau tidak. Langkah-langkahnya adalah: Analyze>Desciptive Statistics>Explore. Pada kotak yang muncul, masukkan Unstandardized Residuals (RES_1) ke sel Dependent List. Kemudian, klik tombol ‘Plot’ dan tandai Normality plots with test. Kemudian, klik OK untuk melakukan proses.

Hasil pada Output 2 memperlihatkan tercukupinya bukti untuk menolak ‘Ho: Data residual berdistribusi normal’ berdasarkan uji Kolmogorov-Smirnov (nilai Sig.=0.000) dan uji Shapiro-Wilk (nilai Sig.=0.000). Dengan demikian, kita dapat menyatakan bahwa data residual berdistribusi tidak normal.

Output 2. Tests of Normality

	Kolmogorov-Smirnov^a			Shapiro-Wilk
	Statistic	df	Sig.	Statistic	df	Sig.
Unstandardized Residual	.231	102	.000	.551	102	.000
a. Lilliefors Significance Correction

Apa yang kita lakukan sekarang? Menambah jumlah responden dapat dilakukan apabila proses penelitian masih memungkinkannya. Kalau tidak, maka langkah kedua dapat kita lakukan, yaitu mendeteksi outliers. Pendeteksian outliers dapat memanfaatkan hasil analisis SPSS, seperti ditampilkan pada Output 3.

Pada Output 3 terlihat bahwa outliers adalah kasus yang nilai residual-nya <-3.27 (satu responden, yaitu no. 52) dan >0.83 (lima responden, yaitu no. 23, 48, 51, 75 dan 100). Selanjutnya, keenam responden tersebut kita keluarkan dari data. Jumlah responden yg tersisa adalah 96 orang.

Output 3. Unstandardized Residual Stem-and-Leaf Plot
———————————————————————
Frequency Stem & Leaf

1.00 Extremes (<-3.27)
1.00       -4 . 9
8.00       -3 . 00666999
14.00 -2 . 00033344445555
22.00       -1 . 1111111333335588888999
17.00       -0 . 11111111113335557
9.00        0 . 111133338
14.00        1 . 11113333455557
3.00        2 . 111
3.00        3 . 000
.00        4 .
5.00        5 . 12222

5.00 Extremes (>.83)
Stem width: .10000
Each leaf: 1 case(s)
————————————————————————

Setelah outliers dikeluarkan, lakukan kembali regresi dengan langkah-langkah pada SPSS: Analysis>Regression>Linier. Kemudian, pada kotak yang muncul isikan variabel dependen dan independen. Jangan lupa meng-klik tombol ‘save’ agar SPSS memberikan data unstandardized residuals. Klik tombol ‘Plot’ lalu tandai Normal probability plot, Histogram. Pada sel X masukkan *ZPRES dan pada sel Y masukkan *ZRESID, kemudian Continue. Klik tombol Statistics dan pastikan pilihan Estimates, Model fit dan Collinearity diagnostics telah ditandai. Kemudian klik OK.

Langsung saja kita memeriksa distribusi residual yang dinyatakan dalam bentuk histogram (Output 4). Terlihat bahwa distribusi residual tidak mengikuti sepenuhnya kurva distribusi normal. Namun, untuk memastikan apakah residual berdistribusi normal atau tidak, kita kembali menggunakan uji Kolmogorov-Smirnov dan Shapiro-Wilk. Prosedur sebelumnya kita gunakan lagi. Langkah-langkahnya adalah: AnalizeàDesciptive StatisticsàExplore. Pada kotak yang muncul, masukkan Unstandized Residuals (RES_1) ke sel Dependent List. Kemudian, klik tombol ‘Plot’ dan tandai Normality plots with test. Kemudian, klik OK untuk melakukan proses.

Output 5. Tests of Normality

	Kolmogorov-Smirnov^a			Shapiro-Wilk
	Statistic	df	Sig.	Statistic	df	Sig.
Unstandardized Residual	.072	96	.200^*	.975	96	.060
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction

Pada Output 5 terlihat bahwa nilai Kolmogorov-Smirnov=0.72 dengan Sig.=0.20, sedangkan nilai Shapiro-Wilk=0.975 dengan nilai Sig.=0.060. Dengan demikian, pada α=0.05, tidak cukup bukti untuk menolak ‘Ho: Data residual berdistribusi normal’. Dengan demikian, data sudah memenuhi syarat normalitas.

Uji Homoscedasticity

Selain uji homoskedastisitas, ada juga yang menyatakannya sebagai uji heteroskedastitas untuk tujuan yang sama. Namun, karena pada dasarnya uji statistik adalah menguji Ho (Fisher, 1955), maka istilah yang digunakan di sini adalah uji homeskedastisitas.

Homocedasticity adalah suatu keadaan, di mana error variance adalah sama pada setiap level variabel independen (Osborne dan Waters, 2002). Apabila tidak sama, maka terjadilah heterocedasticity. Mengutip Tabanock dan Fidell (1996), Osborne dan Waters (2002) menyatakan heterocedasticity dapat menyebabkan gangguan pada temuan dan meningkatkan kemungkinan terjadinya kesalahan Tipe I (Type I error).

Asumsi ini dapat dicek secara visual (Gambar 1) maupun melalui uji statistik Glejser. Umumnya software statistik masa kini telah dilengkapi dengan fasilitas untuk menguji asumsi ini. Pada Gambar 1 (A) terlihat titik-titik, yang melambangkan residual, yang menyebar merata pada garis mendatar. Garis mendatar ini menandai titik nol atau residual=0. Di bawah garis residual bernilai negatif, di atas residual positif. Pada Gambar 1 (B), memperlihatkan heterocedasticity, terlihat bahwa saat standardized predicted values rendah dan tinggi, varian standardized residual tinggi. Sementara itu, pada bagian tengah, yaitu saat standardized predicted values sedang, varian standardized residual lebih rendah.

Bagaimana dengan data kita, apakah terbebas dari heteroscedasticity? Proses regresi kedua, yang melibatkan data dari 96 responden, yang telah kita lakukan sebelumnya (lihat “Pada sel X masukkan *ZPRES dan pada sel Y masukkan *ZRESID, kemudian Continue”), sebenarnya telah menghasilkan scatterplot antara standardized residual dan standardized predicted Y, seperti ditampilkan pada Output 6. Penerjemahan pola persebaran standardized residual pada Output 6 secara visual tidak semudah penerjemahan Gambar 1. Berdasarkan Output 6, secara visual kita tidak dapat yakin apakah prinsip homocedasticity terpenuhi atau tidak. Untuk itu, kita dapat menggunakan uji Glejser.

Untuk melakukan uji Glejser, pertama-tama, kita rubah minta dulu nilai absolut dari unstandardized residual yang diperoleh dari regresi kedua, yang menggunakan data dari 96 responden. Caranya adalah melakukan perintah ini di SPSS: Transform>Compute Variable. Pada jendela yang muncul tulis nama variabel baru yang berisikan nilai absolut, misalnya kita beri nama Absolute_Residual. Pada ruang di bawah Numeric Expression tulis ABS(RES_1). Tujuannya adalah untuk mendapatkan nilai absolut unstandized residual yang ada pada kolom RES_1. Terakhir klik OK.

SPSS akan membuat kolom baru bernama Absolute_Residual. Uji Glejser dilakukan dengan membuat nilai absolute sebagai variabel dependen. Hasil regresi tampilkan berikut ini.

Coefficients^a
Model		Unstandardized Coefficients		Standardized Coefficients	t	Sig.	Sig./2
Model		B	Std. Error	Beta	t	Sig.	Sig./2
1	(Constant)	.351	.086		4.082	.000	0.000
	food_qual	-.022	.028	-.221	-.766	.446	0.223
	serv_qual	-.005	.023	-.051	-.214	.831	0.416
	price	.002	.024	.022	.095	.925	0.462
a. Dependent Variable: ABS_RES

Terlihat bahwa nilai signifikansi semua koefisien (Sig/2>0.05) melebihi batas ∝=0.05. Artinya, pengaruh semua variabel independen terhadap nilai absolut residualnya tidak signifikan. Dengan demikian, asumsi homoskedastisitas terpenuhi.

Uji Multikoliearitas

Dalam regresi berganda, multikolinieritas terjadi ahubungan antara satu variabel independen dengan variabel independen lainnya dianggap ada. Dampak multikolinieritas menimbulkan dampak adalah:

Terjadi peningkatan varian (dan standar eror) koefisien regresi estimator.
Tanda koefisien regresi berbeda dari yang kita harapkan. Misalnya, secara konseptual, kita mengharapkan X1, X2, dan X3 berpengaruh positif pada Y. Namun, karena multikolinieritas, bisa saja satu atau lebih variabel independen berpengaruh negatif.
Penambahan atau pun penarikan variabel independen, akan menyebabkan perubahan besar pada koesien estimasi dan tanda-tandanya.
Pengurangan data akan menyebabkan perubahan koefisien estimasi yang besar.
Dalam berbagai kasus, nilai F signifikan, akan tetapi tidak satu pun nilai t signifikan.

Apabila terjadi multikolinearitas, maka koefisien regresi yang dihasilkan tidak bisa dipercaya. Dengan kata lain, “the individual regression coefficients for each variable are not identifiable”. Jadi, kalau tujuan sebuah studi adalah untuk menguji pengaruh sejumlah variabel independen terhadap variabel dependen atau untuk menciptakan suatu persamaan, maka multikolinearitas wajib dihindari.

Untuk mendeteksi ada tidaknya kolinieritas, ada dua cara yang lazim digunakan. Pertama, dengan melihat korelasi antar variabel independen dan yang kedua adalah memeriksa varians inflation factors (VIF). Kali ini yang kita gunakan adalah VIF.

Data yang kita gunakan adalah data 96 responden tersisa dari uji normalitas. Apabila pembaca tidak mengikuti uji normalitas dan homoskedastisitas dan langsung membaca bagian ini, data dimaksud dapat di-download dari link ini.

Buat regresi dengan langkah-langkah pada SPSS: Analysis>Regression>Linier. Kemudian, pada kotak yang muncul pada layar SPSS isikan variabel dependen dan independen. Klik Statistic lalu centrang Collinearity diagnostic. Selanjutnya klik OK.

Output 8. Hasil SPSS untuk Uji Multikolinearitas
Model		Unstandardized Coefficients		Standardized Coefficients	t	Sig.	Collinearity Statistics
Model		B	Std. Error	Beta	t	Sig.	Tolerance	VIF
1	(Constant)	-.359	.147		-2.446	.016
	food_qual	.463	.048	.239	9.600	.000	.123	8.121
	serv_qual	.480	.040	.250	12.114	.000	.178	5.618
	price	1.111	.041	.547	27.211	.000	.188	5.316
a. Dependent Variable: satisfaction

Perhatikan sub-kolom Tolerance pada kolom Collinearity Statistic. Nilai Tolerance menyatakan 1-R² apabila sebuah variabel menjadi variabel dependen bagi variabel-variabel independen lainnya. Mari kita buktikan. Dengan menggunakan data tadi, lakukan regresi linier berganda dengan menjadikan ‘price’ menjadi variabel dependen dan ‘serv_qual’ dan ‘food_qual’ sebagai variabel-variabel independen. Koefisien determinasi (R2) adalah sebesar 0.812. Dengan demikian, ‘Tolerance’ adalah 1-0.812=0.188.

Output 9. Model Summary Simulasi dengan Menjadikan Price sebagai Variabel Dependen bagi ‘food_qual’ dan ‘serv_qual’.
Model	R	R Square	Adjusted R Square	Std. Error of the Estimate
1	.901^a	.812	.808	.51675
a. Predictors: (Constant), food_qual, serv_qual

VIF dihitung berdasarkan nilai toleransi dengan persamaan: VIF=1/Tolerance. Dengan demikian, VIF ‘price’ adalah 1/0.188=5.316. Ketentuan umum (rule of thumb) menyatakan apabila nilai VIF lebih rendah dari 10, maka sebuah variabel dianggap tidak memiliki kolinearitas dengan variabel lain. Dengan demikian, berdasarkan data Output 8, dapat kita simpulkan bahwa model regresi yang kita kerjakan terbebas dari masalah multikolinearitas.

Uji Otokorelasi

Salah satu asumsi korelasi linier adalah independensi error atau residual dari sebuah observasi ke observasi lainnya. Artinya, tidak terdapat korelasi antar residual. Regresi linier berganda harus bebas dari otokorelasi.

Otokorelasi biasanya menjadi perhatian apabila digunakan untuk data yang bersifat serial atau menunjukkan perkembangan nilai parameter dari waktu ke waktu. Misalnya, apabila harga emas dijadikan sebagai variabel dependen, perlu dilakukan pengecekan karena harga emas pada suatu titik waktu berkaitan dengan harga sebelumnya.

Sekalipun para peneliti umumnya sepakat bahwa otokorelasi dapat terjadi pada data serial, pada data non-serial yang pengambilannya dilakukan pada satu titik waktu (single cross-sectional) dapat terjadi otokorelasi, khususnya apabila sumber data memiliki hubungan tempat (spatial relationship), sebagaimana dalam pengambilan data yang dilakukan secara cluster. Otokorelasi demikian disebut spatial autocorrelation. Sebagai contoh, pondok indah adalah satu klaster perumahan mewah. Harga satu rumah kawasan itu tidak terlepas dari harga rumah yang lain. Apabila satu rumah dijual mahal, maka rumah di dekatnya akan cenderung mengalami kenaikan harga. Demikian pula sebaliknya. Kemudian, harga rumah di sekitar Pondok Indah juga terpengaruh. Semakin dekat jaraknya ke Pondok Indah, semakin besar pengaruhnya. Demikian pula sebaliknya.

Jadi, apakah uji otokorelasi dilakukan, tergantung pada dua keadaan. Pertama, apakah data bersifat serial? Kedua, apakah sumber data memiliki kedekatan tempat, sehingga memungkinkan terjadinya satu sumber data mempengaruhi sumber data yang lain?

Keberadaan ‘otokorelasi’ dapat menyebabkan menyimpangnya estimasi koefisien dan kurang akuratnya interval keyakinan (confidence interval).

Sebagai contoh, pada sebuah studi yang dilakukan yang dilakukan selama 16 tahun, diperoleh persamaan yang menggambarkan pengaruh nilai tukar (X₁) dan tingkat inflasi (X₂) terhadap harga emas (Y). Berdasarkan data tersebut, diperoleh persamaan sebagai berikut:

Dengan persamaan tersebut, diperoleh prediksi Y (dilambangkan dengan Ŷ) . Hasilnya tersaji pada Tabel 3-7. Lalu, selisih antara Y dan Ŷ dianggap sebagai eror (e_i).

Setelah dihitung, lalu eror kita susun dengan memperhatikan lag seperti pada Tabel 3-7. Susunan eror tanpa lag adalah e_i. Lalu, pada eror lag 1 (dilambangkan dengan e_i-1), data disusun seperti pada di bawah. Demikian seterusnya.

Otokorelasi tidak terjadi apabila eror pada satu posisi tidak berkorelasi dengan eror pada posisi lain. Otokorelasi lag 1 terjadi kalau antara eror ei dengan ei-1 terjadi korelasi. Lag 2 terjadi kalau e_i-1 berkorelasi dengan e_i-2. Demikian seterusnya sampai otokorelasi lag 9, yaitu antara eror e_i-8 dan e_i-9 (keduanya tidak terdapat pada di bawah).

Tabel: Contoh Data untuk Perhitungan Otokorelasi

TAHUN KE	Rupiah /dolar (X₁₎	X₂	Y	Ŷ	e_i	e_i-1	e_i-2	e_i-3	..dst
1	500	250.000	0	-7,3	7,34
2	600	360.000	10	15,6	-5,60	7,34
3	700	490.000	40	34,5	5,46	-5,60	7,34
4	800	640.000	60	49,5	10,52	5,46	-5,60	7,34
5	900	810.000	70	60,4	9,58	10,52	5,46	-5,60
6	1.000	1.000.000	100	67,4	32,64	9,58	10,52	5,46
7	1.100	1.210.000	100	70,3	29,70	32,64	9,58	10,52
8	1.200	1.440.000	100	69,2	30,76	29,70	32,64	9,58
9	1.300	1.690.000	95	64,2	30,82	30,76	29,70	32,64
10	1.400	1.960.000	80	55,1	24,88	30,82	30,76	29,70
11	1.500	2.250.000	70	42,1	27,94	24,88	30,82	30,76
12	1.600	2.560.000	60	25	35,00	27,94	24,88	30,82
13	1.700	2.890.000	50	3,94	46,06	35,00	27,94	24,88
14	1.800	3.240.000	20	-21	41,12	46,06	35,00	27,94
15	1.900	3.610.000	5	-50	55,18	41,12	46,06	35,00
16	2.000	4.000.000	0	-83	83,24	55,18	41,12	46,06

Idealnya, kita harus mendeteksi otokorelasi untuk semua lag. Akan tetapi, sebagai contoh, kita hanya menguji apakah terdapat otokorelasi lag 1. Pada persamaan yang baik, otokorelasi pada semua lag tidak signifikan atau dianggap sama dengan nol. Atau, r₁=r₂=r₃=…=r_n=0. Untuk mengujinya, Durbin dan Watson mengembangkan tes statistik tahun 1951, yang disebut tes Durbin-Watson. Untuk uji otokorelasi lag 1 rumusnya seperti di bawah. Untuk otokorelasi lag selanjutnya, kita tinggal mengganti pembilang dan penyebut pada rumus tersebut dengan pasangan data eror pada lag yang dimaksud.

Tabel: Data untuk Menghitung Otokorelasi Lag 1

Observasi	e_i	e_i-1	e_i-e_i-1	(e_i)²	(e_i-e_i-1)²
1	7,34			53,88
2	-5,60	7,34	-12,94	31,36	167,4436
3	5,46	-5,60	11,06	29,81	122,3236
4	10,52	5,46	5,06	110,67	25,6036
5	9,58	10,52	-0,94	91,78	0,8836
6	32,64	9,58	23,06	1065,37	531,7636
7	29,70	32,64	-2,94	882,09	8,6436
8	30,76	29,70	1,06	946,18	1,1236
9	30,82	30,76	0,06	949,87	0,0036
10	24,88	30,82	-5,94	619,01	35,2836
11	27,94	24,88	3,06	780,64	9,3636
12	35,00	27,94	7,06	1225,00	49,8436
13	46,06	35,00	11,06	2121,52	122,3236
14	41,12	46,06	-4,94	1690,85	24,4036
15	55,18	41,12	14,06	3044,83	197,6836
16	83,24	55,18	28,06	6928,90	787,3636
TOTAL				20571,770	2084,054

Berdasarkan data di atas kita dapat menghitung:

Dengan demikian, nilai d hitung=2084.054/20571.770=0,1013. Nilai d ini dibandingkan dengan nilai d tabel. Kesimpulan diambil berdasarkan aturan-aturan di bawah ini.

Hipothesis yang mau diuji adalah:

Ho: ρ₁=0
Ha: ρ₁≠0

Kita dapat menguji apakah r₁<0 atau r₁>0. Pada tabel DW ada nilai dL dan dU.

Aturan pengujian otokorelasi positif adalah:

Kalau nilai dx hitung < nilai dL, terdapat otokorelasi positif.
Kalau nilai dx hitung berada mulai nilai dL sampai dU, tidak bisa diambil kesimpulan.
Kalau nilai dx lebih besar dari dU, berarti tidak ada otokorelasi positif.

Aturan pengujian otokorelasi negatif adalah:

Kalau dx lebih besar dari 4dL, terdapat autokorelasi.
Kalau dx berada pada nilai 4-dU sampai 4-dL, tidak biasa diambil kesimpulan.
Kalau nilai dx lebih kecil dari 4-dU, tidak cukup bukti untuk menyatakan keberadaan otokorelasi negatif.

Pada tabel D-W lampiran terlihat bahwa untuk n=16, µ=0,05, dan k (yaitu jumlah variabel independen)=2, diperoleh nilai dU=1,54 dan nilai dL=0,98. Karena nilai d hitung=0,1013m dan lebih kecil dari dL=0.98, dengan demikian terdapat otokorelasi pada lag 1.

Uji F

Uji F adalah uji kelayakan atau kesesuaian model (model fit test). Uji ini memeriksa apakah model dengan variabel-variabel independen sama saja dengan persamaan yang menggunakan konstanta saja (tanpa variabel-variabel independen). Dengan kata lain, apakah variabel-variabel independen memiliki determinasi terhadap variabel dependen. Rumus statistik F adalah berikut:

dimana, R²=koefisien determinasi, k=jumlah variabel independen, dan i=nomor variabel.

Hipothesis yang diuji adalah:

Ho: β₁=β₂=β₃= … =β_i=0, i=1, 2, … k
Ha: β_i≠0 atau paling sedikit satu di antara koefisien beta (β_i) tidak sama dengan nol.

Uji ini dapat dilakukan kalau persamaan regresi sudah memenuhi asumsi klasik. Untuk mempelajari bagian ini lebih lanjut, kita akan lakukan analisis regresi lagi. Pada uraian sebelumnya, data yang kita gunakan ini menghasilkan persamaan yang bebas dari pelanggaran asumsi klasik. Data dapat di-download dari link ini.

Buat regresi dengan langkah-langkah pada SPSS: Analysis>Regression>Linier. Kemudian, pada kotak yang muncul pada layar SPSS isikan variabel dependen dan independen. Selanjutnya klik OK.

Hasil

Model Summary
Model	R	R Square	Adjusted R Square	Std. Error of the Estimate
1	.996^a	.993	.993	.20345
a. Predictors: (Constant), price, serv_qual, food_qual

Tabel Nilai F

ANOVA^a
Model		Sum of Squares	df	Mean Square	F	Sig.
1	Regression	540.491	3	180.164	4352.539	.000^b
	Residual	3.808	92	.041
	Total	544.299	95
a. Dependent Variable: satisfaction
b. Predictors: (Constant), price, serv_qual, food_qual

Tabel Nilai t

Coefficients^a
Model		Unstandardized Coefficients		Standardized Coefficients	t	Sig.
Model		B	Std. Error	Beta	t	Sig.
1	(Constant)	-.359	.147		-2.446	.016
	food_qual	.463	.048	.239	9.600	.000
	serv_qual	.480	.040	.250	12.114	.000
	price	1.111	.041	.547	27.211	.000
a. Dependent Variable: satisfaction

Kita bisa menghitung nilai F menggunakan rumus di atas, seperti berikut ini.

Untuk mengambil keputusan menerima atau menolak Ho, nilai ini kita bandingkan dengan nilai Tabel F. Namun, kalau menggunakan SPSS, kita dimudahkan. Seperti pada tabel di atas, SPSS memberikan nilai F=4352.539 dengan nilai Sig.=0.000. Cukup bukti untuk menolak Ho. Sebagai gantinya, kita menerima hipothesis alternatif (Ha) bahwa paling tidak satu di antara koefien variabel-variabel independen tidak sama dengan nol. Dengan kata lain, model adalah sesuai (fit) dan layak digunakan.

Uji t

Berdasarkan hasil yang diberikan SPSS kita memperoleh persamaan berikut:

Satisfaction=-0.359 + 0.463food_qual + 0.480sev_qual + 1.111price

Uji t digunakan untuk menguji apakah setiap koefisien setiap variabel independen signifikan ataukah tidak signifikan.

Hipothesis uji dua arah adalah:

Ho: βi=0
Ha: β≠o

Hipothesis uji satu arah untuk pengaruh positif adalah:

Ho: βi=0
Ha: β>o

Hipothesis uji satu arah untuk pengaruh negatif adalah:

Ho: βi=0
Ha: β<o

Katakanlah dalam contoh ini kita melakukan uji satu arah dengan hubungan positif.

Uji hipothesis: Kualitas makanan berpengaruh positif terhadap kepuasan konsumen terhadap makanan itu.

β₁=0: Kualitas makanan tidak berpengaruh terhadap kepuasan konsumen terhadap makanan itu.
β₁>0: Kualitas makanan berpengaruh positif terhadap kepuasan konsumen terhadap makanan itu.

Nilai t=9.60 dengan nilai Sig.=0.000. Dengan demikian cukup bukti dengan tingkat kepercayaan 100% untuk menolak Ho. Jadi, kualitas makanan berpengaruh positif terhadap kepuasan konsumen terhadap makanan itu.

Tingkat Kepentingan Prediktor

Regresi berganda dapat dipakai untuk menilai tingkat kepentingan suatu prediktor. Seberapa penting suatu prediktor tergantung dari seberapa besar sumbangan prediktor tersebut terhadap varians variabel independen. Namun, tidak ada indikator tunggal yang menyatakan besarnya sumbangan tersebut. Beberapa indikator yang umumnya dipakai untuk menginterpretasi tingkat kepentingan prediktor adalah:

Signifikansi statistik. Kalau koefisien regresi suatu variabel tidak signifikan, maka variabel tersebut tidak penting. Namun, kalau secara teoritis dipercaya penting, walaupun tidak signifikan melalui uji statistik, sebuah variabel tetap saja bisa dianggap sebagai variabel penting.
Koefisien determinasi (r²). Ini bisa dipakai untuk regresi linier sederhana. Semakin tinggi r², semakin penting variabel independen yang digunakan.
Koefisien determinasi korelasi parsial (Ryxx_jx_k)². Semakin besar, semakin penting variabel.
Standardized coefficient. Kriteria ini adalah nilai absolut |b| atau √(b_i)². Kriteria ini tidak reliabel kalau ada multikolinieritas.
Koefisien determinasi part correlation. Ukuran ini mewakili besarnya peningkatan R² saat sebuah variabel dimasukkan ke dalam persamaan yang sudah berisikan variabel-variabel lain.
Stepwise regression. Sumbangan suatu variabel terhadap nilai F, kalau ditarik atau dimasukkan, dapat dijadikan sebagai bahan pertimbangan. Dengan memasukkan variabel, misalnya X₂, nilai F meningkat signifikan, maka X₂ Sebaliknya, kalau dengan mengeluarkan X₃, nilai F meningkat, maka X₃ tidak penting. Apabila kita menggunakan SPSS, kita bisa meminta SPSS untuk melakukan tugas ini dan menemukan mana prediktor paling berpengaruh.

Referensi

Fisher, R (1955). Statistical Methods and Scientific Induction. Journal of the Royal Statistical Society (Series B), 17 (1): 69–78

Higgins, J. (2005). The Radical Statisticians. Unleashing The Power of Applied Statistics in The Real World. The Higgins Group, LLC.

Osborne, J. W., & Waters, E. (2002). Four Assumptions of Multiple Regression That Researchers Should Always Test. Practical Assessment, Research, and Evaluation, 8, 1-15.

Pole, M.A., & O’Farrel, P.N. (1970). The Assumptions of the Linear Regression Model. Transaction of the British Institute of Geographers, 52, 145-158.

Rawlings, J.O., Pantula S.G., & Dickey, D.A. (1998). Applied Regression Analysis: A Research Tool. New York: Springer.

Roy, M. M., Liersch, M. J., & Broomell, S. (2013). People Believe That They Are Prototypically Good or Bad. Organizational behavior and human decision processes, 122(2), 200–213. https://doi.org/10.1016/j.obhdp.2013.07.004

Simon, S.N. (2003). Thin plate regression splines. Journal of Statistical Society, 65(1), 95-114. https://doi.org/10.1111/1467-9868.00374

White, H., & G. M. McDonald. (1980). Some large-sample tests for nonnormality in the linear regression model. Journal of American Statistical Association, 75, 16-28

Williams, Matt N., Grajales, Carlos Alberto Gómez, &Kurkiewicz, Dason (2013). Assumptions of multiple
regression: Correcting two misconceptions. Practical Assessment, Research & Evaluation, 18(11). https://doi.org/10.7275/55hn-wk47