Analisis Regresi dengan Variabel Kualitatif

Pemikiran awal tentang regresi berganda menyatakan bahwa variabel dependen dan variabel-variabel independen merupakan variabel metrik. Kalau variabel dependen non-metrik, sepanjang variabel-variabel independen metrik, jangan gunakan regresi berganda, gunakanlah analisis diskriminan.  Masalahnya, bagaimana kalau variabel-variabel independen campuran metrik dan non-metrik?

Ternyata tidak jadi masalah.  Memasukkan satu atau beberapa variabel independen non-metrik untuk mendampingi satu atau beberapa variabel independen metrik, dapat disiasati dalam regresi berganda.  Malah, dalam analisis konjoin, semua variabel independen adalah non-metrik.  Namun, tentu dengan mengubah variabel independen non-metrik menjadi variabel dummy.

Mekanisme pelibatan variabel independen non-metrik dapat ditangkap dari percakapan antara Panggabean (pemilik kios koran, disingkat P) Kurniawan (pelanggan, disingkat K) seperti di bawah ini.

K: “Berapa koran yang terjual setiap hari”?

P: “Tergantung, Pak”.

K: “Tergantung apa”?

P: “Tiga hal, pertama banyaknya loper koran yang datang,  kecepatan mendatangkan koran, semakin pagi  semakin baik, dan ketiga, apakah hari hujan atau tidak”. Kalau hari hujan, penjualan saya berkurang setengahnya.”

Dari percakapan itu, terkesan ada pengaruh cuaca terhadap penjualan.  Cuaca adalah variabel kualitatif yang dalam cerita ini satuannya hanya hujan dan tidak hujan.

Dalam bahasa matematika, dari cerita di atas dapat dikatakan bahwa penjualan (kita simbolkan dengan P) adalah fungsi dari waktu kedatangan koran (kita simbolkan dengan W) , banyaknya loper (kita simbolkan dengan L) dan kondisi cuaca (kita simbolkan dengan C):

P=f(W, L, C)    ………………………………………………….………………………………3-3

Fungsi di atas belum menyatakan apa pun tentang pengaruh masing-masing variabel independen terhadap variabel dependen, oleh karena itu, perlu dilakukan analisis regresi.

Sejauh ini, kita sudah melakukan regresi yang menyangkut data metrik. Yang menjadi persoalan adalah bagaimana melakukan regresi terhadap data kualitatif, seperti keadaan cuaca tadi.

Memang, kalau data kualitatif dalam satuan aslinya (hujan, tidak hujan), regresi tidak bisa dilakukan.  Oleh karena itu, kita perlu mengkuantitatifkan data kualitatif itu.  Namun, dalam proses ini perlu diingat bahwa tidak berarti data kualitatif berubah menjadi data kuantitatif. Angka-angka yang mewakili data kualitatif  hanya simbol.

Sekarang, mari kita aktualkan cerita di atas menjadi persamaan regresi.  Pertama, kita beri simbol untuk masing-masing variabel yang dilibatkan.

Y=Penjualan

X1=Lamanya jam buka

X2=Jumlah loper koran yang terlibat

Kedua, setelah dilakukan pencatatan selama 15 hari, diperoleh data seperti pada Tabel 3-9. Setelah dilakukan regresi dengan menggunakan SPSS, diperoleh hasil seperti pada Output 10.1.

Tabel 3.9

Hari ke Y(rupiah) X1  (ORANG) X2 (JAM) X3
1 275.000 5 5.5 0
2 265000 5 5 0
3 121000 4 5 1
4 130000 5 5 1
5 124000 5 5 1
6 289000 6 5.5 0
7 332000 7 7 0
8 125000 5 5 1
9 142000 5 5 1
10 157000 6 6 1
11 160000 5 5 1
12 175000 6 6 1
13 345000 7 7 0
14 312000 7 5.5 0
15 276000 5 5 0

Output 10.1

Dengan hasil pada Output 10.1, kita dapat membentuk dua persamaan.  Pada saat hari hujan, di mana X3=1, maka persamaan regresi adalah:

Y=102.398,63+16.043,836X1+17.367,123X2 134.050.7X3 atau

Y=102.398,63+16.043,836X1+17.367,123X2 134.050.7 ……………………………………………………….………………..……..3-4

Kalau hari cerah, di mana X3=0, maka persamaan regresi yang kita pakai adalah

Y=102398,63+16043,836X1+17367,123X2

Hasil lainnya, kita dapat melihat bahwa cuaca hujan (X=1)  berpengaruh negatif signifikan terhadap penjualan koran (b3=-134.050,7; nilai sig./2=0,000)

Kita melihat R (nilai 0,994) dan R2 (nilai 0,987) yang tinggi sekali.  Nilai F juga tinggi sekali dan signifikan pada tingkat kesalahan 0,000.  Kalau kita menjadikan tingkat kesalahan 0,05 sebagai batas signifikansi, pada Tabel 3-10 juga terlihat bahwa dengan uji t, konstanta dan koefisien semua variabel juga signifikan.

Bagaimana kita menerjemahkan koefisien X3 yang mewakili cuaca?  Tanda negatif menunjukkan bahwa X3 berkorelasi negatif dengan penjualan.  Kehadiran X3, yang terjadi kalau X3=1, akan menurunkan penjualan sebesar nilai koefisien itu, yaitu Rp 134.050,7.  Sedangkan kalau X3=0, maka X3 tidak menurunkan penjualan.

Regresi Berganda dengan Variabel Kualitatif n kategori

Contoh di atas merupakan regresi berganda dengan variabel kualitatif dua kategori.  Jelas betul memang variabel cuaca hanya memiliki dua kategori, yaitu cerah dan hujan.  Pertanyaannya, bagaimana kalau variabel kualitatifnya lebih dari satu?  Bagaimana pula kalau kategori salah satu atau semua variabel kualitatif lebih dari dua?  Tidak masalah. Untuk variabel kualitatif yang kategorinya lebih dari dua, memang simbolisasi variabelnya berubah.

Pada contoh di atas, karena dideskripsikan ke dalam dua kategori, variabel cuaca cukup diwakili oleh X3.  Sekarang, mari lebih spesifik lagi, kita deskripsikan variabel cuaca menjadi tiga kategori, yaitu cerah, hujan rintik-rintik, hujan deras.  Soalnya, menurut Pangganbean, ketiga keadaan cuaca itu juga berpengaruh terhadap penjualan.

Karena ada tiga kategori,  selain dengan X3, variabel cuaca perlu variabel indikator baru, yaitu X4.  Kalau ada n kategori, maka jumlah variabel indikator adalah n-1. Kalau ada empat kategori, perlu tiga variabel indikator. Demikian aturannya.

Karena dideskripsikan ke dalam tiga kategori, variabel cuaca diwakilkan  oleh dua variabel, yaitu X3 dan X4, dengan deskripsi sebagai berikut:

Terungkap pula dari cerita Panggabean bahwa situasi hari kerja ataukah hari libur juga berpengaruh pada penjualan. Situasi ini kita simbolkan dengan X5, di mana X5=1 kalau hari kerja dan X5=0 kalau hari libur. Karena kiosnya terletak di wilayah perkantoran, penjualan jelas turun  pada hari libur karena para pekerja tidak masuk kantor. Hasil penelitian disajikan pada Tabel 3-11 dan hasil analisis pada Tabel 3-12.Jadi, jadi kalau hari cerah, berarti X3=0 dan X4=0, kalau hujan rintik-rintik, X3=0 dan X4=1, dan kalau hujan deras, lambangkan dengan X3=1 dan X4=0.

Tabel 3-11.  Hasil Penelitian

Hari ke Y X1 X2 X3 X4 X5
1 275000 5 5.5 0 0 1
2 265000 5 5 0 1 1
3 121000 4 5 1 0 0
4 130000 5 5 1 0 1
5 124000 5 5 0 1 1
6 289000 6 5.5 0 0 0
7 332000 7 7 0 0 1
8 125000 5 5 1 0 0
9 142000 5 5 1 0 1
10 157000 6 6 0 1 1
11 160000 5 5 0 1 1
12 175000 6 6 0 1 1
13 345000 7 7 0 0 1
14 312000 7 5.5 0 0 1
15 276000 5 5 0 0 0

Output 1

Berdasar Output 1, mestinya kita membuat persamaan regresi berikut:

Y=192.274,81+9.767,966X1+7.345,560X2152.621X3121.630X4+12.841,969X5.

Pada kalimat di atas, kata ‘mestinya’ secara implisit menyatakan bahwa persamaan di atas tidak ada.  Sebab, dengan persamaan itu, semua variabel dummy hadir bersamaan.  Padahal, ada saatnya, beberapa keadaan (disebut jua ‘level’) tidak bisa hadir bersamaan.  Misalnya, X3 dan X4 tidak akan pernah sama-sama hadir atau sama-sama nilainya 1. Sesuai dengan pengkodean yang kita buat, X3=1 adalah kode hujan deras dan X4=1 adalah kode hujan rintik-rintik.  Jadi, kalau dalam persamaan X3 dan X4 hadir bersamaan, artinya keadaan cuaca adalah ‘rintik-rintik’ dan ‘hujan deras’.  Kategori seperti ini tidak ada.  Oleh karena itu, persamaan lengkap di atas tidak dapat dijadikan sebagai model yang operasional.

Kalau variabel kualitatif adalah satu, setiap level variabel  independen kualitatif, memerlukan persamaan regresi tersendiri.  Pada kasus terdahulu, yang baru melibatkan satu variabel independen kualitatif (di samping dua variabel kuantitatif, yaitu jumlah loper koran dan lama jam operasi), persamaan regresi ada dua, sesesuai level keadaan cuaca, yang juga dua.  Persamaan pertama untuk cuaca cerah, persamaan kedua untuk cuaca hujan.

Kalau ada lebih dari satu variabel independen kualitattif, maka persamaan regresi adalah sejumlah kombinasi level semua variabel independen kualitatif.  Dalam hal ini variabel kuantitatif tidak mempengaruhi jumlah persamaan.

Jumlah persamaan adalah kombinasi seluruh level.  Misalkan  dalam sebuah penelitian tentang faktor-faktor yang mempengaruhi penjualan warung. Ada tiga variabel independen kualitatif, misalkan, pertama cuaca (tiga level: cerah, hujan rintik-rintik, hujan deras), kedua lalu lalang orang  (dua level: ramai, sepi) dan ketiga banyaknya barang (dua level: lengkap, tidak lengkap). Harus ada sejumlah 3 X 2 X 2= 12 persamaan.

Dengan dua variabel kualitatif, satu tiga kategori (yaitu cuaca) dan satu lagi dua kategori (yaitu status hari), kita memperoleh enam persamaan.

Persamaan 1: cerah (X3=0, X4=0), libur (X5=0)

Y=192.57481+9.767,996X1+7.345,560X2

Persamaan 2: cerah (X3=0, X4=0), kerja (X5=1)

Y=192.57481+9.767,996X1+7.345,560X2+12.841,969X5

Y=192.574,81+9.767,996X1+7.345,560X2+12.841,969

Y=205.416,78+9767,996X1+7.345,560X2 (MODEL SEDERHANA)

Persamaan 3: hujan rintik-rintik (X3=0, X4=1), hari libur (X5=0)

Y=192.574,81 + 9.767,966X1 + 7.345,560X2  -121.630X4

Y=192.574,81 + 9.767,966X1 + 7.345,560X2  -121.630

Y=70.944,81 + 9.767,966X1 + 7.345,560X2  (MODEL SEDERHANA)

Persamaan 4: hujan rintik-rintik (X3=0, X4=1), hari kerja (X5=1)

Y=192.574,81 + 9.767,996X1 + 7.345,560X2  -121.630X4 + 12.841,969X5

Y=192.574,81 + 9.767,996X1 + 7.345,560X2  -121.630 + 12.841,969

Y=83.786,779 + 9.767,996X1 + 7.345,560X2  (MODEL SEDERHANA)

Persamaan 5: hujan deras (X3=1, X4=0), hari libur (X5=0)

Y=192.574,81 + 9767,996X1 + 7.345,560X2  -152.621,6X3

Y=192.574,81 + 9767,996X1 + 7.345,560X2  -152.621,6

Y=39.953,21 + 9767,996X1 + 7.345,560X2  (MODEL SEDERHANA)

Persamaan 6: hujan deras (X3=1, X4=0), kerja (X5=1)

Y=192.574,81+9.767,996X1 + 11.097,92X2 -152621,6X3+12.841,969X5

Y=192.574,81+9.767,996X1 + 11.097,92X2 -152.621,6+12.841,969

Y=52.795.18+9.767,996X1 + 11.097,92X2  (MODEL SEDERHANA)

Setiap persamaan ditulis dengan dua versi, yaitu model lengkap dan model sederhana.  Kalau ingin melihat besarnya koefisien variabel independen kualitatif, pakailah model lengkap.

Dengan model lengkap, kita juga dapat mengetahui sumbangan (kontribusi) setiap  level variabel independen terhadap variabel dependen.  Kontribusi status hari, yaitu hari kerja (X5=1) terhadap penjualan adalah sebesar koefisiennya, yaitu Rp 12.841,969.

Dengan cara yang sama, kita juga dapat menyimpulkan bahwa hujan rintik-rintik (X3=1) berkontribusi terhadap penjualan sebesar koefisiennya, yaitu Rp -152.621,6.  Tanda negatif menunjukkan bahwa kontribusi negatif.  Artinya, model menunjukkan bahwa hujan rintik-rintik itu menurunkan penjualan.  Kontribusi negatif juga ditunjukkan oleh variabel X4.

Namun, kalau tujuan kita adalah untuk memprediksi variabel dependen (dalam kasus ini ‘penjualan’), maka penggunaan model sederhana (yang merupakan penyederhanaan model lengkap) lebih efisien.  Namun, kekurangannya, kontribusi level variabel indepen-den kualitatif jadi tak terlihat.

Dari persamaan-persamaan di atas terlihat jelas bahwa hujan deras, hujan rintik-rintik,  dan hari libur mengurangi penjualan. Lalu, turunnya pendapatan pada hari hujan deras lebih besar dibanding turunnya pendapatan pada hari rintik-rintik.