Regresi dengan Variabel Kualitatif - Bilson Simamora Marketing and Research Center

Last Updated on July 12, 2022 by Bilson Simamora

Pemikiran awal tentang regresi berganda menyatakan bahwa variabel dependen dan variabel-variabel independen merupakan variabel metrik. Kalau variabel dependen non-metrik, sepanjang variabel-variabel independen metrik, jangan gunakan regresi berganda, gunakanlah analisis diskriminan (Malhotra, 2020). Masalahnya, bagaimana kalau variabel-variabel independen campuran metrik dan non-metrik? Ternyata tidak jadi masalah. Memasukkan satu atau beberapa variabel independen non-metrik untuk mendampingi satu atau beberapa variabel independen metrik, dapat disiasati dalam regresi berganda. Malah, dalam analisis konjoin, semua variabel independen adalah non-metrik. Namun, tentu dengan mengubah variabel independen non-metrik menjadi variabel dummy.

Mekanisme pelibatan variabel independen non-metrik dapat ditangkap dari percakapan antara Panggabean (pemilik kios koran, disingkat P) Kurniawan (pelanggan, disingkat K) seperti di bawah ini.

K: “Berapa koran yang terjual setiap hari”?
P: “Tergantung, Pak”.
K: “Tergantung apa”?
P: “Tiga hal, pertama banyaknya loper koran yang datang, kecepatan mendatangkan koran, semakin pagi semakin baik, dan ketiga, apakah hari hujan atau tidak”. Kalau hari hujan, penjualan saya berkurang setengahnya.”

Dalam bahasa matematika, dari cerita di atas dapat dikatakan bahwa penjualan (kita simbolkan dengan P) adalah fungsi dari waktu kedatangan koran (kita simbolkan dengan W) , banyaknya loper (kita simbolkan dengan L) dan kondisi cuaca (kita simbolkan dengan C): P=f(W, L, C).

Fungsi di atas belum menyatakan apa pun tentang pengaruh masing-masing variabel independen terhadap variabel dependen, oleh karena itu, perlu dilakukan analisis regresi.

Sejauh ini, kita sudah melakukan regresi yang menyangkut data metrik. Yang menjadi persoalan adalah bagaimana melakukan regresi terhadap data kualitatif, seperti keadaan cuaca tadi.

Memang, kalau data kualitatif dalam satuan aslinya (hujan, tidak hujan), regresi tidak bisa dilakukan. Oleh karena itu, kita perlu mengkuantitatifkan data kualitatif itu. Namun, dalam proses ini perlu diingat bahwa tidak berarti data kualitatif berubah menjadi data kuantitatif. Angka-angka yang mewakili data kualitatif hanya simbol.

Sekarang, mari kita aktualkan cerita di atas menjadi persamaan regresi. Pertama, kita beri simbol untuk masing-masing variabel yang dilibatkan.

Y=Penjualan
X₁=Jumlah loper koran yang berjualan
X₂=cuaca [hujan=1, cerah=0]

Untuk menghindari pengaruh (intervensi) hari, peneliti melakukan penelitian setiap hari Senin. Kedua, setelah dilakukan pencatatan sebanyak 15 hari Senin, diperoleh data seperti pada Tabel 1. Jangan dulu dipertanyakan apakah data 15 hari ini sudah cukup untuk membuat model regresi atau belum. Ini hanya sebagai contoh. Tentang keterwakilan sampel terhadap populasi dapat dibaca pada buku-buku terkait.

Hari Senin ke	Penjualan	Jumlah Loper Koran (Orang)	Cuaca (0=cerah, 1=hujan)
1	275000	5	0
2	265000	5	0
3	121000	4	1
4	130000	5	1
5	128000	5	1
6	289000	6	0
7	312000	7	0
8	125000	5	1
9	142000	5	1
10	157000	6	1
11	160000	5	1
12	175000	6	1
13	295000	7	0
14	305000	7	0
15	257000	5	0

Prosedur di SPSS: Analysis>Regression>Linier. Kemudian, pada kotak yang muncul pada layar SPSS isikan variabel dependen dan independen. Klik Options. Secara default SPSS menandai Include constant in the equation. Kita harus membebaskan proses dari pilihan ini karena penjualan koran tidak ada kalau loper koran tidak ada yang datang. Pada pilihan menu Statistics, beri check list pada Estimates, Model fit, dan Collinearity diagnostic. Jangan lupa meng-klik tombol ‘save’ agar SPSS memberikan data unstandardized residuals.

Setelah proses dilakukan, pertama-tama kita cek dulu apakah residual normal. Alasannya dapat ditemukan di sini dan prosedurnya dijelaskan di sini. Pada tabel output di bawah terlihat bahwa berdasarkan uji Kolmogorov-Smirnov (nilai statistik=0.165, Sig.=0.200) dan uji Shapiro-Wilk (statistik=0.917, Sig.=0.171) residual berdistribusi normal.

Program juga mendeteksi bahwa bahwa kolinearitas tidak terjadi antara X1 dan X2 karena nilai Tolerance kedua variabel independen di atas 0.100 dan VIF di bawah 10. Penjelasan dan prosedur multikolinearitas dapat dibaca di sini.

Heteroskedasitas juga tidak ditemukan karena koefisien pengaruh jumlah loper (t=-0.212, Sig.=0.493) dan cuaca (t=-0.490, Sig.=0.128) yang diregresikan terhadap nilai absolut residualnya tidak signifikan. Artinya, untuk kedua variabel tidak cukup bukti untuk menolak H0 yang menyatakan bahwa persebaran residual sepanjang nilai prediksi mengikuti pola homoskedasitas. Penjelasan selengkapnya tentang homoskedastisitas dapat ditemukan di sini.

Uji otokorelasi tidak perlu dilakukan karena data tidak serial atau berurutan. Penjelasan otokorelasi disajikan pada halaman ini.

Setelah asumsi klasik terpenuhi, pertama-tama kita periksa dulu kelayanan model. Hipothesis yang diuji adalah:

Ho: β₁=β₂=0
Ha: β_n≠0 atau paling tidak satu di antara β₁dan β₂ tidak sama dengan nol.

Berdasarkan Uji F (Statistik=579.330, Sig.=0.000) cukup bukti untuk menolak Ho. Dengan demikian, kita bisa memustuskan menerima Ha bahwa model dengan variabel independen adalah lebih baik dibanding model dengan hanya konstanta. Dengan kata lain persamaan regresi yang dihasilkan adalah sesuai atau layak. Penjelasan selanjutnya tentang uji F dapat ditemukan di sini.

Setelah persamaan disimpulkan sesuai (fit), selanjutnya kita memeriksa apakah koefisien regresi setiap prediktor signifikan atau tidak dengan uji t.

Uji pengaruh jumlah loper.

H_o: β1=0 atau jumlah loper koran tidak berpengaruh penjualan koran.
H_a: β2>0 atau jumlah loper berpengaruh positif terhadap penjualan koran.

Program menghasilkan nilai-t=29.891 dengan Sig.=0.000 atau Sig./2=0.000 (uji satu arah). Dengan nilai ini cukup bukti menolak Ho. Dengan demikian, kita dapat menerima Ha bahwa jumlah loper berpengaruh positif terhadap penjualan koran kios tuan Panggabean.

Uji pengaruh cuaca

H_o: β1=0 atau cuaca tidak berpengaruh penjualan koran.
H_a: β2<0 atau cuaca (X2=1) berpengaruh negatif terhadap penjualan koran. Catatan: X2=1 adalah nilai kalau cuaca hujan. Cuaca cerah ditandai dengan X2=0. Dengan penandaan ini berarti cuaca cerah adalah base line dan cuaca cerah adalah faktor pengurang.

Seperti terlihat pada tabel output di atas, program menghasilkan nilai-t=-7.196 dengan Sig.=0.000 atau Sig./2=0.000. Dengan nilai ini cukup bukti menolak Ho. Dengan demikian dapat dinerima bahwa cuaca hujan berpengaruh negatif terhadap penjualan koran kios tuan X.

Regresi Variabel Kualitatif n Kategori

Pada contoh di atas variabel kualitatif hanya memiliki dua kategori (cuaca: cerah vs hujan). Pertanyaannya, bagaimana kalau variabel kualitatifnya lebih dari satu? Bagaimana pula kalau kategori salah satu atau semua variabel kualitatif lebih dari dua? Tidak masalah. Untuk variabel kualitatif yang kategorinya lebih dari dua, memang simbolisasi variabelnya berubah.

Pada contoh di atas, karena dideskripsikan ke dalam dua kategori, variabel cuaca cukup diwakili oleh X₃. Sekarang, mari kita deskripsikan variabel cuaca menjadi tiga kategori, yaitu cerah, hujan rintik-rintik, hujan deras. Soalnya, menurut Panggabean, ketiga keadaan cuaca itu juga berpengaruh terhadap penjualan. Karena tiga kategori, selain dengan X₃, variabel cuaca perlu variabel indikator baru, yaitu X₄. Pada prinsipnya, untuk n kategori, maka jumlah indikator yang mewakili variabel X adalah n-1. Jadi, kalau sebuah variabel independen memiliki empat kategori, diperlukan perlu tiga indikator untuk mewakilinya. Demikian seterusnya.

Karena dideskripsikan ke dalam tiga kategori, variabel cuaca diwakilkan oleh dua variabel, yaitu X₃ dan X₄, dengan kode sebagai berikut:

Kategori	X₂	X₃
Cerah	0	0
Hujan rintik-rintik	1	0
Hujan deras	0	1

Jadi, jadi kalau hari cerah, berarti X₃=0 dan X₄=0, kalau hujan rintik-rintik, X₃=1 dan X₄=0, dan kalau hujan deras, kita kodekan dengan X₃=0 dan X₄=1. Hasil penelitian disajikan pada Tabel 2.

Tabel 2. Hasil Penjualan

Penjualan	X1	X2	X3
275000	5	0	0
138000	5	0	1
121000	4	1	0
120000	5	1	0
135000	5	0	1
312000	6	0	0
348000	7	0	0
125000	5	1	0
129000	5	1	0
157000	6	0	1
160000	5	0	1
175000	6	0	1
345000	7	0	0
342000	7	0	0
276000	5	0	0

Kita mengolah regresi dengan SPSS. Prosedurnya: Prosedur di SPSS: Analysis>Regression>Linier. Kemudian, pada kotak yang muncul pada layar SPSS isikan variabel dependen dan independen. Klik Options. Secara default SPSS menandai Include constant in the equation. Kita harus membebaskan proses dari pilihan ini karena penjualan koran tidak ada kalau loper koran tidak ada yang datang. Pada pilihan menu Statistics, beri check list pada Estimates, Model fit, dan Collinearity diagnostic. Jangan lupa meng-klik tombol ‘save’ agar SPSS memberikan data unstandardized residuals.

Pertama-tama kita cek dulu pemenuhan asumsi klasik. Kita mulai dari uji normalitas. Klik Analyze>Descriptive Statistic>Explore. Masukkan Unstandardized residuals pada ruang Dependent Variables. Klik Plot dan tandai Normality plots with test, lalu OK. Program SPSS memberikan nilai KS=0.208 dengan Sig.=0.80 dan SW=0.935 dengan Sig.=0.326. Dengan kedua uji tersebut, keputusannya adalah tidak tolak H0 yang menyatakan data berdistribusi normal.

Selanjutnya, kita minta SPSS untuk menghitung nilai residual absolut dengan perintah: Tranform>Compute Variable. Pada ruang Target Variable tulis nama variabel yang berisikan nilai absolut tersebut, misalnya Residual_Absolut. Pada ruang Numeric Expression tuliskan: ABS(RES_1) (Catatan: Pada perintah ini, simbol ABS adalah perintah membuat nilai absolut, sedangkan RES_1 adalah nama variabel yang berisikan unstandardized residuals yang secara default diberikan oleh SPSS). Tampilannya seperti berikut ini.

Selanjutnya, untuk memeriksa homoskedastisitas kita melakukan uji Glejser dengan variabel-variabel independen terhadap nilai residual absolut sebagai variabel dependen. rosedurnya: Prosedur di SPSS: Analysis>Regression>Linier. Kemudian, pada kotak yang muncul pada layar SPSS isikan variabel dependen dan independen. Klik Options. Secara default SPSS menandai Include constant in the equation. Kita harus menyertakan pilihan ini. Kemudian klik OK. Informasi untuk uji Glejser diperoleh dari output ini.

Dari output di atas tampak bahwa dengan nilai Sig.>0.05, tidak satu pun variabel independen yang berpengaruh signifikan terhadap residual absolut. Dengan demikian kondisi homoskedastisitas terpenuhi, seperti dijelaskan di sini.

Seperti dijelaskan di sini, multikolinearitas terjadi apabila terjadi korelasi antar variabel independen, seperti dijelaskan di sini. Pada output di bawah ini terlihat bahwa multikolinearitas tidak terjadi karena untuk semua variabel, nilai tolerance>0.10 dan VIF<10.

Otokorelasi tidak perlu diuji karena data tidak bersifat serial, tetapi cross-sectional.

Persamaan Regresi

Secara logika, cuaca tidak meningkatkan penjualan, hanya jumlah loper yang melakukan fungsi tersebut. Pada saat cuaca cerah (X2=0, X3=0), maka loper akan berfungsi normal. Hujan rintik-rintik (X2=1, X3=0) dan hujan deras (X2=0, X3=1) adalah faktor pengurang, yang membuat berkurangnya fungsi loper. Karena itu, sebenarnya kita memilik tiga bersamaan, seperti di bawah ini.

Pada saat cuaca cerah:

Penjualan=50652.266*X1

Pada saat hujan rintik-rintik:

Penjualan=50652.266*X1-116848.266*X2

Pada saat hujan deras:

Penjualan=50652.266*X1-120522.239*X3. Apakah ketiga persamaan tersebut fit atau sesuai? Nilai F=681.175 dengan nilai Sig.=0.000. Dengan demikian, dengan tingkat keyakinan 100%, kita dapat menolak Ho. Jadi, ketiga persamaan di atas adalah sesuai (fit). Penjelasan tentang uji F ada di sini.

Kemudian, berdasarkan output di bawah ini, dengan uji-t, kita yakin 100% untuk menolak H₀ untuk ketiga variabel independen. Dengan demikian, kita dapat menyimpulkan bahwa koefisien ketiga variabel adalah signifikan.

Referensi

Maholtra, N. K. (2020). Marketing Research: An Applied Orientation. New Jersey: Prentice-Hall, Inc.