Landasan Teori

ANALISIS diskriminan mirip dengan regresi linier berganda (multivariabel regression).  Bedanya, analisis diskriminan adalah teknik dipakai kalau variabel dependen kategoris (maksudnya kalau menggunakan skala ordinal ataupun nominal) dan variabel independent menggunakan skala metrik (interval dan rasio).  Sedangkan dalam regresi berganda, variabel dependen harus metrik, sedangkan variabel independen bisa metrik, bisa pula non-metrik.

Sama seperti regresi berganda, dalam analisis diskriminan, variabel dependen hanya satu, sedangkan variabel independent banyak (multiple). Misalnya, variabel dependen adalah pilihan merek mobil: Kijang, Kuda dan Panther.  Variabel independen adalah rating setiap merek pada sejumlah atribut yang memakai skala 1 sampai 7.

Karena memiliki variabel dependen dan independen, analisis diskriminan dapat digolongkan sebagai dependence technique.

Analisis diskriminan merupakan teknik yang akurat dalam memprediksi termasuk dalam kategori apa seseorang, dengan catatan data-data yang dilibatkan terjamin keakuratannya.  Dengan teknik ini, sebuah perusahaan asuransi, misalnya, dapat memprediksi apakah seorang nasabah baru akan bertahan terus sesuai dengan program ataukah berhenti membayar polis di tengah jalan.  Tentu dengan catatan model diskriminan yang dipakai akurat.

Dengan teknik ini sebuah perusahaan juga dapat memprediksi apakah seorang karyawan baru akan memiliki produktivitas yang tinggi atau tidak.

Variabel dependen dapat berupa variabel dua kategori (misalnya: nasabah bertahan, nasabah keluar di tengah jalan).  Untuk situasi demikian, kita menggunakan two-group discriminant analysis.

Seringkali variabel dependen lebih dari dua kategori (misalnya, sangat loyal, cukup loyal, tidak loyal).  Untuk itu, kita menggunakan multiple discriminant analysis.

Model Analisis Diskriminan

Model dasar analisis diskriminan mirip dengan regresi berganda.  Bedanya, kalau variabel dependen regresi berganda dilambangkan dengan Y, maka dalam analisis diskriminan dilambangkan dengan D.

Model analisis diskriminan adalah sebuah persamaan yang menunjukkan suatu kombinasi linier dari berbagai variabel independent, yaitu:

Di mana:

D       = skor diskriminan

b        = koefisien diskriminan atatu bobot

X       = prediktor atau variabel independent

Yang diestimasi adalah koefisien ‘b’, sehingga nilai ‘D’ setiap grup sedapat mungkin berbeda.  Ini terjadi pada saat rasio jumlah kuadrat antar grup (between-group sum of squares) terhadap jumlah kuadrat dalam grup (within-group sum of squares) untuk skor diskriminan mencapai maksimum.  Berdasarkan nilai D itulah keanggotaan seseorang diprediksi.

Istilah-istilah Statistik

Sebelum membicarakan analisis diskriminan lebih jauh, ada baiknya kita membiasakan diri dengan koefisien-koefisien statistik yang dipakai untuk berbagai keperluan.

  1. Korelasi kanonikal (canonical correlation), mengukur tingkat asosiasi antara skor diskriminan dengan grup. Koefisien ini merupakan ukuran hubungan  fungsi diskriminan tunggal dengan sejumlah variabel dummy yang menyatakan keanggotaan grup.
  2. Centroid, adalah nilai rata-rata (mean) skor diskriminan untuk grup tertentu. Banyaknya centroid sama dengan banyaknya grup. Setiap centroid mewakili satu grup. Rata-rata untuk sebuah grup berdasarkan semua fungsi disebut group centroids.
  3. Cutting score adalah nilai rata-rata centroid yang dapat dipakai sebagai patokan mengelompokkan objek. Misalnya, kalau dalam analisis diskriminan dua grup cutting score adalah 0.15, maka keanggotaan suatu objek dapat dilihat apakah skor diskriminan objek tersebut di bawah ataukah di atas cutting score.
  4. Discriminant loadings (disebut juga structure correlations) merupakan korelasi linier sederhana antara setiap variabel independen dengan skor diskriminan untuk setiap fungsi diskriminan.
  5. Hit ratio merupakan nilai yang dapat menjawab: “Berapa persen objek yang dapat diklasifikasi secara tepat dari jumlah total objek”? Hit ratio merupakan salah satu kriteria untuk menilai kekuatan persamaan diskriminan dalam mengelompokkan objek.
  6. Matrik klasifikasi (classification matrix). Sering juga disebut confusion atau prediction matrix.  Matrik klasifikasi berisikan jumlah kasus yang diklasifikasikan secara tepat dan yang diklasifikasikan secara salah (misclassified).  Kasus yang diklassifikasi secara tepat muncul dalam diagonal matrik, tempat di mana  grup prediksi (predicted group) dan grup sebenarnya (actual group) sama.
  7. Koefisien fungsi diskriminan (discriminant coefficient function). Koefisien fungsi diskriminan (tidak distandarisasi) adalah pengali (multipliers) variabel, di mana variabel adalah dalam nilai asli pengukuran.
  8. Skor diskriminan (discriminant score). Koefisien yang tidak distandarisasi (unstandardized score) dikalikan dengan nilai-nilai variabel.
  9. Eigenvalue. Untuk setiap fungsi diskriminan, eigenvalue adalah rasio antara jumlah kuadrat antar kelompok (sums of squares between group) dengan jumlah kuadrat dalam kelompok (sums of squares within group).  Eigenvalue yang  besar menunjukkan fungsi yang semakin baik.
  10. Nilai F dan signifikansinya. Nilai F dihitung melalui ANOVA satu arah, di mana variabel-variabel yang dipakai untuk mengelompokkan (grouping variable) berlaku sebagai variabel independen kategoris (categorical independent variable). Sedangkan setiap prediktor, diperlakukan sebagai variabel metrik.
  11. Rata-rata grup dan standar deviasi grup. Rata-rata grup dan standar deviasi grup dihitung untuk setiap grup.
  12. Pooled-with correlation matrix, dihitung dengan mencari rata-rata matrik covarians tersendiri untuk semua grup.
  13. Koefisien fungsi diskriminan terstandarisasi (standardized discriminant functions coefficient), merupakan koefisien fungsi diskriminan yang dipakai sebagai pengali (multipliers) pada saat variabel telah distandarisasi dengan menjadikan rata-rata 0 dan standar deviasi 1.
  14. Korelasi struktur (structure correlations), yang juga disebut discriminant loadings, merupakan korelasi yang merepresentasikan korelasi sederhana (simple correlation) antara prediktor-prediktor dan fungsi diskriminan.
  15. Matrik korelasi total (total correlation matrix). Diperoleh kalau setiap kasus (objek penelitian) dianggap berasal dari satu sampel (single sampel) dan korelasi dihitung.  Dengan begitu, matrik korelasi total dapat diperoleh.
  16. Wilks’ λ. Kadang-kadang juga disebut statistic U. Untuk setiap prediktor, Wilks’ λ adalah rasio antara antara jumlah kuadrat dalam kelompok (within-group sums of squares) dan jumlah kuadrat total (total sums of squares). Nilainya berkisar antara 0 sampai 1.  Nilai Lambda yang besar (mendekati 1) menunjukkan bahwa rata-rata group cenderung tidak berbeda.  Sebaliknya, nilai Lambda yang kecil (mendekati 0), menunjukkan rata-rata grup berbeda.