Analisis Klaster

Daftar Isi


Pendahuluan
Tujuan Dasar
Memilih Variabel
Mendeteksi Outliers
Melakukan Analisis Klaster

  1. Merumuskan Masalah
  2. Memilih Ukuran Kesamaan
  3. Memilih Prosedur
  4. Menentukan Jumlah Klaster
  5. Interpretasi Variabel dan Pembuatan Profil Klaster
  6. Uji Validasi

 

Pendahuluan

Klaster (cluster) adalah sekumpulan objek yang memiliki kemiripan satu sama lain menempati tempat atau posisi berdekatan. Dalam pemasaran internasional, misalnya, negara-negara yang memiliki kemiripan dimasukkan ke dalam satu klaster.

Analisis klaster juga dilakukan untuk mengelompokkan objek-objek.  Berdasarkan karakteristik yang dimiliki, dengan analisis klaster, sekelompok objek dapat dikelompokkan.

Analisis klaster dapat dipakai pada bidang apa saja.  Namun, pemakaian teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar.

Teknik ini dimasukkan dalam multivariat, akan tetapi, konsep variat (variate) dalam teknik ini berbeda dari konsep variat teknik-teknik multivariat lainnya.  Kalau pada teknik-teknik lain variat diartikan sebagai kombinasi linier berbagai variabel,  dalam analisis klaster, variat diartikan sebagai sejumlah variabel – yang dianggap sebagai karakteristik – yang dipakai untuk membanding sebuah objek dengan objek lainnya.  Jadi, dalam analisis klaster, tidak dilakukan pencarian nilai variat secara empiris, sebagaimana pada teknik-teknik multivariat lainnya.

Tujuan Dasar

Tujuan utama analisis klaster adalah untuk menempatkan sekumpulan objek ke dalam dua atau lebih grup berdasarkan kesamaan-kesamaan objek atas dasar berbagai karakteristik. Melalui  prinsip homogenitas grup, menurut Hair et. al. (2014), terdapat tiga sasaran yang tersedia bagi peneliti.

Pertama, deskripsi taksonomi (taxonomy description). Ini merupakan sasaran tradisional analisis klaster. Dengan taksonomi, kita mengelompokkan sekumpulan objek secara empiris.  Memang, analisis klaster telah dipakai untuk keperluan-keperluan pengelompokan.  Akan tetapi, kemampuannya tidak sebatas itu. Analisis klaster dapat pula dipakai untuk memunculkan hipothesis tentang struktur objek-objek yang diteliti.  Jadi, sekalipun banyak dipandang sebagai alat analisis untuk keperluan eksploratori, analisis klaster dapat pula dipakai untuk tujuan konfirmatori.

Kedua, simplikasi data (data simplication). Dengan taksonomi, memang kita peroleh grup. Akan tetapi, berdasarkan struktur yang diperoleh, kita juga bisa menjelaskan profil setiap grup berdasarkan karakteristik umum yang dimiliki.  Kalau analisis faktor menjelaskan “dimensi” yang mendasari sejumlah variabel, dengan analisis klaster, kita juga melakukan hal yang sama, yaitu dimensi yang mendasari sejumlah observasi yang berada pada suatu klaster.

Ketiga, identifikasi hubungan (relationship identification). Setelah klaster terbentuk dan struktur data yang mendasarinya diperlihatkan dalam klaster, periset mendapat informasi tentang hubungan antar observasi yang tidak mungkin diperoleh dengan menganalisis observasi secara individu. Memang analisis diskriminan dapat digunakan untuk mengetahui hubungan tersebut secara empiris. Bahkan, secara kualitatif hubungan tersebut juga bisa diidentifikasi. Akan tetapi analisis klaster seringkali  memperlihatkan kesamaan-kesamaan maupun perbedaan-perbedaan yang tidak terdeteksi metoda-metoda lain.

Memilih Variabel

Setiap pengelompokan  terhadap objek apa pun harus memiliki dasar untuk mengelompokkan.  Kalau ada sekumpulan orang, kita mudah melakukan pengelompokan berdasarkan jenis kelamin, hasilnya dua kelompok: pria dan wanita.  Dalam pengelompokan ini, dasar atau variabel yang digunakan adalah jenis kelamin.

Pengelompokan dengan memakai hanya satu variabel umumnya tidak memuaskan karena tidak menggambarkan profil kelompok secara jelas.  Jadi, agar profil kelompok lebih jelas, kita dapat menambahkan variabel-variabel lain, misalnya usia, tingkat pendi-dikan, pekerjaan, status perkawinan, dan lain-lain.

Sayangnya, dalam analisis klaster, pemilihan variabel-variabel yang dilibatkan tidak boleh sembarangan.  Aturan pertama, dengan variabel-variabel yang dilibatkan, peneliti dapat membentuk kelompok-kelompok, yang  bermanfaat dari segi bisnis maupun  ilmu pengetahuan.  Tidak ada gunanya melakukan pengelompokan kalau hasilnya tidak memberikan manfaat.

Dalam pemasaran, misalnya, tujuan dari segmentasi pasar adalah untuk mengenal segmen-segmen yang efektif, sehingga perusahaan dapat memilih satu, beberapa atau semua segmen sebagai pasar sasaran.  Kalau  tidak sesuai dengan sasaran peneliti, penge-lompokan tidak berguna.

Aturan kedua, pilih variabel-variabel yang betul-betul dapat   memberikan gambaran tentang persamaan dalam kelompok dan perbedaan antar-kelompok.  Kalau dalam sebuah variabel level semua objek sama (extremely homogenous), maka variabel tersebut jangan dipakai.  Misalnya, kalau dalam sebuah populasi semua orang berusia 20 tahun,  jangan lagi libatkan variabel ‘usia’ untuk mengelompokkan populasi tersebut.

Sebuah variabel yang betul-betul tidak pernah sama di antara objek-objek (extremely heterogenous), atau yang selalu berbeda dari objek yang satu dengan objek lainnya, juga tidak bisa dipakai.  Sebab, variabel demikian tidak akan pernah berkontribusi terhadap kesamaan (similarity) yang dipakai sebagai dasar untuk melakukan pengelompokan.

Aturan keempat, pilihlah variabel-variabel yang secara konsep-tual diterima.  Kartajaya mengatakan bahwa segmentasi pasar harus dilakukan secara kreatif, tidak terbatas pada variabel-variabel teoritis yang kaku.  Betul demikian.  Teori yang ada harus diterjemahkan secara kreatif sehingga variabel-variabel yang dilibatkan memiliki kekuatan untuk mengelompokkan objek-objek sesuai keinginan peneliti.

Mendeteksi Outliers

Kalau di sebuah pabrik yang semua buruh bergaji sejuta rupiah sebulan, kecuali satu orang bergaji sepuluh juta rupiah sebulan, maka orang yang gajinya beda sendiri ini disebut outliers.

Kehadiran outliers dapat mengganggu analisis data.  Katakanlah dalam pabrik tersebut ada 20 karyawan termasuk outliers tadi, maka rata-rata gaji mereka adalah Rp 1.450.000 se bulan.  Angka ini bisa menyesatkan.  Dengan angka itu orang bisa mengira bahwa di pabrik tersebut gaji para karyawan rata-rata di atas sejuta rupiah, padahal 19 orang di antaranya di bawah rata-rata.  Hanya gaji si outliers itulah di atas rata-rata.

Dalam analisis klaster, kehadiran outliers juga perlu dideteksi, sebab akan mengganggu analisis.  Caranya adalah dengan menggu-nakan profil diagram (Gambar1), yaitu dengan menampilkan data karakteristik konsumen (Tabel1), secara grafis.

Perlu disampaikan tidak ada sepuluh diagram karena diagram beberapa responden berimpit pada beberapa variabel.

Dari Gambar1 terlihat bahwa diagram responden 9 beda sendiri atau menjauh dari diagram para responden lain.  Dampaknya, seperti terlihat pada Gambar 2, responden 9  tidak bisa dikelompokkan dengan responden mana pun.  Hasil demikian tentu tidak baik, sebab dalam segmentasi, salah satu kriteria segmen yang baik adalah subtantial, artinya ukuran segmen cukup besar.

Apa solusinya?  Keluarkan outlier (Responden 9) dari analisis dengan cara menghapusnya dalam tabel  SPSS. Hasilnya, pengelompokan lebih baik, seperti ditampilkan pada Gambar 3. Bagaimana cara melakukan dan menginterpretasi hasilnya dijelaskan pada Bagian 2 di bawah.

Tabel 1.  Karakteristik Sepuluh Responden

RespondenV1V2V3V4V5V6V7
14333343
24434554
35435344
44244354
54345553
64344454
74245452
84244444
97675674
105443354

Gambar 1.  Diagram Profil Sepuluh Responden

Gambar 2. Dendogram dengan 10 Responden sebelum Responden 9 Dikeluarkan

Setelah data responden 9 dikeluarkan, terlihat pada Gambar 3 bahwa semua objek (responden) sudah berpasang-pasangan.  Dengan kata lain, tidak ada lagi responden yang  sendirian.

Gambar 3. Dendogram tanpa Responden 9

Keterangan: Apabila responden 9 dihapus dalam tabel SPSS, maka nomor responden di bawahnya akan naik. Yang tadinya responden 10 akan menjadi responden 9, sehingga dendogram hasil olahan asli SPSS akan menampilkan responden 10  sebagai responden 9. Pada Gambar 3 angka 9 telah diedit menjadi 10 karena sesungguhnya posisi itu mewakili Responden 10, seperti pada Gambar 2.

Bagian Kedua


 

Melakukan Analisis Klaster

Dalam melakukan analisis klaster, tahap pertama, rumuskan masalah dengan menjelaskan variabel-variabel yang menjadi dasar melakukan analisis klaster.  Kedua, tentukan ukuran jarak yang dipakai.  Jarak ini menjelaskan seberapa mirip atau seberapa berbeda objek-objek yang diklaster.

Ketiga, tentukan prosedur atau metoda pengklasteran (klastering) yang digunakan. Ada beberapa prosedur pengklasteran, jadi peneliti harus memilih yang paling tepat.  Lalu, lakukan proses.

Keempat, tentukan jumlah klaster. Dalam memilih jumlah klaster yang dibentuk, diperlukan judgement periset.

Kelima, interpretasi profil klaster-klaster yang dibentuk. Klaster-klaster yang dihasilkan harus diinterpretasi berdasarkan variabel-variabel yang dipakai untuk mengklaster.  Terakhir, lakukanlah uji validitas proses pengklasteran yang dilakukan.

1. Merumuskan Masalah

Seorang peneliti ingin mengklaster sekelompok mahasiswa berdasarkan pertimbangan dalam memilih perguruan tinggi.  Ada tujuh variabel yang dipakai, yang tercermin dalam kuesioner di bawah ini, semuanya tergolong variabel berhavioral.

Daftar Pertanyaan:

Saya akan memilih perguruan tinggi kecil, asalkan berkualitas, dari pada perguruan tinggi besar, tetapi kualitas diragukan

Sangat tidak setuju 1    2    3    4    5    6    7   Sangat setuju

Saya banyak mendengarkan nasihat teman dalam memilih perguruan tinggi.

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

Saya mempelajari informasi-informasi tentang perguruan tinggi sebelum menentukan pilihan

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

Bagi saya, kampus adalah tempat paling baik meluaskan pergaulan

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

Bagi saya pendidikan yang saya terima sudah sesuai dengan uang kuliah yang saya bayarkan.

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

Di kampus, saya lebih menghabiskan banyak waktu bersama teman-teman

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

Kuesioner di atas diberikan kepada 20 responden dan hasilnya disajikan pada Tabel 2.

Tabel 2.  Hasil Wawancara terhadap 20 Mahasiswa Baru

RespondenV1V2V3V4V5V6
1656334
2232454
3636423
4374527
5242274
6646334
7536334
8727424
9272373
10353646
11252353
12545424
13232544
14464636
15654214
16354657
17447225
18372643
19463636
20343473

Pada bagian selanjutnya dijelaskan langkah-langkah analisis termasuk alasan kenapa pada langkah-langkah itu dibuat pilihan (misalnya ukuran kesamaan atau simililarity). Untuk mendukung interpretasi hasil juga disisipan teori.

Langkah-langkah Analisis dengan SPSS

  1. Buka SPSS. Pada layar, ketikkan data Tabel 2 atau copy dari program lain (kalau sudah diketik pada program lain, misalnya Word), lalu paste pada layar SPSS.
  2. Pilih menu analyze, kemudian classify, lalu klik hierarchical klaster. Lalu, blok semua variabel, kemudian masukkan pada sel variable(s).
  3. Pada kotak dialog utama, klik menu Statistics, lalu klik Agglomeration schedule. klik plots, kemudian pada kotak dialog yang diberikan, klik Dendogram.
  4. Klik Method pada kotak dialog utama. Pastikan masure adalah interval (karena data memang interval) dan squared euclidean distance sebagai jarak. Pilih Ward’s method sebagai cluster method. Tampak di layar seperti di bawah. Lalu, klik continue. Eksekuasi proses dengan meng-klik OK.

2.  Memilih Ukuran Kesamaan

Yang namanya pembedaan atau penyamaan, pasti ada kriterianya.  Dalam analisis klaster, kriteria kesamaan  ada dua: (1) ukuran jarak (distance-type measure) dan (2) ukuran ke-klop-an (matching-type measures).

Pendapat senada diberikan oleh Maholtra (2020).  Dia mengatakan bahwa ukuran kesamaan ada juga dua. Pertama, asosiasi atau korelasi antar objek. Kedua, kedekatan atau jarak antar objek. Jarak ini ada beberapa bentuk:

  1. Jarak Euclidean, yaitu jarak berupa akar dari jumlah perbedaan antar objek yang dikuadratkan.
  2. Cityblock atau jarak Manhattan adalah jarak berupa jumlah perbedaan absolut antar objek.
  3. Jarak Chebychev antar dua objek adalah perbedaan nilai absolute maksimum pada setiap variabel.

Pemakaian ukuran jarak yang berbeda dapat menghasilkan kesimpulan yang berbeda. Oleh karena itu, disarankan agar peneliti menggunakan beberapa cara yang berbeda sekaligus, kemudian melihat, dengan jarak mana dihasilkan kelompok-kelompok terbaik.

Kriteria tentang kelompok-kelompok terbaik ini, dalam pemasaran, dapat merujuk pada syarat-syarat segmen yang baik, seperti disampaikan oleh Kotler dan Keller (2016), yaitu:

  1. Dapat diukur (measurable): Ukuran, daya beli dan karakteristik segmen dapat diukur.
  2. Memadai (substantial): Segmen cukup besar dan enguntungkan untuk dilayani. Sebuah segmen seyogianya sebuah kelompok berukuran besar yang homogen, sehingga pantas mendapat program pemasaran secara khusus.
  3. Dapat dijangkau (accessible): Segmen dapat dijangkau dan dilayani secara efektif.
  4. Berbeda (differentiable): Dibanding segmen lain, sebuah segmen secara konseptual segmen berbeda dan juga merespon stimuli pemasaran dengan cara berbeda.
  5. Dapat ditindaklanjuti (actionable): Program efektif dapat dibuat untuk menarik dan melayani segmen.

Memang tidak semua syarat itu yang dapat dinilai dalam analisis kluster.  Akan tetapi, syarat karakteristik dapat diukur, homogenitas dalam segmen, dan heterogenitas antar segmen, dapat dinilai.  Oleh karena itu, ketiga syarat tersebut, dapat dipakai untuk menentukan ukuran kesamaan mana yang menghasilkan klaster-klaster terbaik.

Berikut ini diberi contoh untuk menunjukkan bagaimana kriteria-kriteria kesamaan itu dihitung.  Data pada Tabel 3 berasal dari tiga responden, yaitu Andi, Karto dan Lim.  Ketiga responden dibanding dengan menggunakan enam variabel.  Tujuannya, menemukan dua orang yang paling mirip di antara ketiganya.

Tabel 3.  Karakteristik Tiga Responden

RespondenV1V2V3V4V5V6
Andi224224
Karto667557
Lim365371

Kriteria Asosiasi.   Untuk keperluan ini, kita dapat menggunakan profil diagram seperti terlihat pada Gambar4.  Terlihat bahwa lekuk-lekuk profil Andi paling mirip dengan Karto.  Lim memiliki profil yang berbeda sendiri.

Gambar 4. Diagram Profil Diagram Andi, Karto dan Lim

Selain dengan profil diagram, untuk lebih meyakinkan, kita bisa menggunakan korelasi, tepatnya korelasi product moment (sering juga disebut korelasi Pearson, korelasi sederhana atau korelasi saja). Antara Andi dan Karto, nilai korelasi adalah 0,87.  Antara Andi dan Lim sebesar -0,41 dan antara Karto dan Lim sebesar -0,40.  Jelas, berdasarkan koefisien korelasi, Andi paling mirip dengan Karto.

Kriteria Kedekatan.  Untuk tujuan ini, maka ketiga responden, harus dipasang-pasangkan, yaitu Andi dan Karto (Tabel 4), Andi dan Lim (Tabel 5) dan Karto dan Lim (Tabel 6).

Jarak Euclidean.  Jarak euclidean diperoleh dengan rumus:

di mana,
dij = Jarak euclidean
vik, vjk= Skor responden ke-i dan ke-j pada variabel k (k=1,2,…,n)

Dengan rumus tersebut, kita dapat menghitung jarak euclidean seperti pada Tabel 4, Tabel 5 dan Tabel 6.  Terlihat dari perhitungan bahwa pasangan paling dekat dari ketiganya, menurut jarak euclidean, adalah Andi dan Lim, karena skornya paling rendah, yaitu 7,28.  Ingat bahwa semakin rendah skor jarak, semakin dekat objek-objek yang dipasangkan.

Squared Euclidean Distance.  Jarak ini merupakan variasi dari euclidean distance.  Caranya mudah.  Kalau jarak euclidean diakarkan, maka pada squared euclidean distance, akar tersebut dihilangkan, seperti pada rumus berikut:

dij=(vik-vjk)2

di mana,
dij = Jarak euclidean
vik, vjk= Skor responden ke-i dan ke-j pada variabel k (k=1,2,…,n)

Jarak Cityblock.  Untuk menghitung jarak ini, kita tinggal mengurangkan nilai-nilai objek-objek yang dipasangkan.  Hasilnya kita jadikan sebagai nilai mutlak.  Lalu, kita jumlahkan nilai-nilai mutlak tersebut.

Untuk Andi dan Karto, jarak cityblock adalah 4+4+3+3+3+3=20 (Tabel 4).  Untuk Andi dan Lim, jarak cityblock adalah 1+4+1+1+5+3=15. Sedangkan untuk Karto dan Lim, jarak cityblock adalah 3+0+2+2+2+6=15.  Kesimpulannya, ada dua pasangan paling dekat, yaitu Andi dan Lim, serta Karto dan Lim.

Jarak Chebichev.  Lihat nilai mutlak selisih antar objek.  Lalu, dari nilai-nilai tersebut, lihat nilai yang paling tinggi, itulah jarak chebichev.  Dengan demikian, jarak chebichev antara Andi dan Karto adalah sebesar 4, antara Andi dan Lim sebesar 5, dan antara Karto dan Lim sebesar 6.  Oleh karena itu, dengan kriteria ini, maka pasangan paling dekat adalah Andi dan Karto.

3. Memilih Prosedur Pengklasteran

Dari tingkat paling mendasar, dua metoda analisis klaster adalah metoda aglomeratif (agglomerative method) dan metoda difisif (divisive method).  Selengkapnya lihat Gambar 5.

Agglomerative. Dimulai dengan menempatkan objek dalam klaster-klaster yang berbeda, lalu mengelompokkan objek secara bertahap ke dalam klaster-klaster yang lebih besar.  Artinya, pertama sekali, setiap objek diperlakukan sebagai klaster.  Jadi, kalau ada 20 objek, maka pada tahap pertama, ada 20 klaster.  Lalu, secara bertahap, dilakukan pengelompokan dengan memeriksa satu pasangan objek paling mirip, lalu keduanya menjadi satu klaster. Jadi, pada tahap kedua, jumlah klaster menjadi 19.  Proses ini akan berjalan terus, sehingga pada tahap terakhir, yaitu tahap ke-19, semua objek menjadi satu klaster.

Divisive. Dalam prosesnya, jarak ini merupakan kebalikan metoda aglomeratif: Metoda ini dimulai dengan menempatkan semua objek sebagai satu klaster.  Lalu, secara bertahap, objek-objek dipisahkan ke dalam kaster-klaster yang berbeda,  dua klaster, tiga klaster dan seterusnya, sampai semua objek menjadi klaster sendiri-sendiri.  Jadi, kalau ada 20 objek, pada tahap terakhir akan ada 20 klaster.

Metoda agglomerative paling banyak dipakai dalam riset pemasaran.  Teknik ini sendiri masih dapat dibagi menjadi: linkage method, sum of squares method, dan centroid methodLalu, linkage method masih terbagi atas single linkage method, complete linkage method, dan average linkage method.

Gambar 5. Custering Procedure

Sebenarnya banyak metoda (disebut juga algoritma) yang sudah dikembangkan dan akan dikembangkan lagi, apalagi dengan sangat berkembangnya perangkat lunak statistika. Harap maklum kalau buku-buku yang ada tidak menampung penjelasan semua metoda.  Dalam SPSS sendiri, ada tujuh metoda, yaitu between groups linkage, whithin-groups linkage, nearest-neighbore, furthest-neighbore, centroid klastering, median klastering, dan Ward’s method.

Perlu diingat, metoda apa pun yang dipakai, sebenarnya setiap metoda punya dua tujuan.  Pertama, meminimalkan variasi dalam klaster (whithin-klaster variation) dan memaksimalkan variasi antar klaster (between-klaster variation).

Terus, soal metoda mana yang terbaik, tergantung pada kemampuan  setiap metoda untuk menghasilkan klaster secara akurat sesuai tujuan peneliti.

Single linkage method didasarkan pada jarak minimum atau aturan tetangga terdekat.  Dua objek pertama yang dikelompokkan adalah yang memiliki jarak terdekat di antara keduanya. Selanjutnya, jarak paling dekat lainnya dideteksi. Objek ketiga ini, bisa saja dikelompokkan bersama dua yang terdahulu, bisa pula membentuk klaster sendiri. Pada setiap tahap, jarak antar dua klaster adalah jarak paling dekat di antara keduanya. Dalam SPSS metoda ini dinamakan nearest neighbore.

Dalam metoda ini, bila ada dua klaster mau digabungkan atau tidak, yang diperhatikan cukup satu anggota  dari masing-masing klaster, yang keduanya berhubungan atau berjarak paling dekat. Inilah masalahnya.  Kalau sebuah klaster digabungkan hanya karena paling dekat dengan salah satu anggota, bagaimana dengan anggota-anggota lain? Kalau ternyata jaraknya jauh, metoda ini bisa menye-babkan interpretasi klaster yang tidak jelas.

Dua klaster digabungkan pada setiap tahap berdasarkan jarak paling dekat di antara keduanya.  Proses ini berlanjut terus sampai diperoleh hanya ada satu klaster.  Teknik keterkaitan tunggal (single linkage) tidak bekerja baik kalau klaster-klaster tidak defenisikan secara baik.

Metoda keterkaitan lengkap (complete linkage) sama dengan metoda keterkaitan tunggal.  Bedanya, metoda ini menggunakan pendekatan jarak maksimum atau tetangga terjauh.  Dalam metoda ini, jarak antara satu klaster dengan klaster lain diukur berdasarkan jarak terjauh anggota-anggota mereka. Dalam SPSS dinamakan furtherst neighbore.

Metoda keterkaitan rata-rata (average linkage) bekerja dengan cara yang sama. Dalam metoda ini, jarak antara dua klaster dianggap sebagai jarak rata-rata antara semua anggota dalam satu klaster dengan semua anggota klaster lain.  Namun, seperti terlihat pada gambar, informasi yang dibutuhkan lebih banyak.  Dengan masing-masing dua anggota saja, empat ‘jarak’ yang harus diketahui.  Kalau jumlah anggota lebih banyak, tentu harus  banyak lagi jarak yang harus dihitung.  Karena alasan itulah metoda ini jarang dipakai. Karena alasan kesederhanaan pula metoda keterkaitan tunggal maupun keterkaitan lengkap yang lebih sering dipakai.

Metoda varian bertujuan memperoleh klaster yang memiliki varian internal klaster yang sekecil mungkin.  Metoda varian yang umum dipakai adalah metoda Ward.  Untuk setiap klaster, rata-rata dihitung.  Lalu, dihitung jarak eucledian antara setiap objek dengan nilai rata-rata itu, lalu jarak itu dihitung semua.  Pada setiap tahap, dua klaster yang memiliki kenaikan ‘sum of squares dalam klaster’ yang terkecil digabungkan.

Dalam metoda centroid, jarak antar klaster adalah jarak antar centroid mereka. Centroid sendiri adalah rata-rata semua anggota dalam klaster. Setiap kali objek digabungkan, centroid baru dihitung, sehingga setiap kali ada penambahan anggota, centroid berubah pula.

Dari pendekatan hirarkis, metoda keterkaitan rata-rata  dan metoda Wards sejauh ini merupakan metoda terbaik.

Nonhierarchical procedure sering disebut sebagai prosedur k-means. Tiga variannya adalah sequential threshold, parallel threshold, dan optimizing partitioning.

Dalam metoda sequential threshold, sebuah klaster pusat dipilih dan semua objek yang berada dalam ambang batas yang telah ditentukan (precified threshold value) dari pusat digabungkan.  Lalu, pusat klaster atau bakal klaster yang baru dipilih. Lalu, proses tadi diulang lagi pada poin-poin yang belum diklaster. Sekali sebuah objek diklaster dengan sebuah bakal klaster (cluster seed), maka objek tersebut tidak bisa diutak-atik lagi.

Metoda parallel threshold dilakukan dengan cara yang sama.  Bedanya, beberapa pusat klaster dipilih sekaligus.  Lalu, setiap objek dalam ambang batas (threshold level) digabungkan pada pusat yang terdekat.  Seiring berjalannya proses, batas jarak (threshold distance) dapat disesuaikan untuk mengurangi atau menambah jumlah anggota klaster.  Namun, kalau sebuah objek terlalu, sehingga sekali pun batas jarak diutak-atik tetap tidak tercakup, sebuah objek bisa tidak masuk pada klaster mana pun.

Optimizing partitioning method berbeda dari prosedur threshold dalam hal objek dapat digabungkan belakangan ke dalam klaster-klaster untuk mengoptimalkan semua kriteria, seperti jarak dalam klaster untuk sejumlah klaster.  Artinya, sebuah objek dapat dimasukkan ke sebuah klaster, lalu dikeluarkan lagi karena ternyata lebih dekat dengan klaster lain.

Terbayang bagi kita, bagaimana menentukan poin bakal klaster?  Tidak perlu repot.  Umumnya program-program komputer sudah melakukan tugas ini sepenuhnya.  Kita hanya menentukan berapa jumlah klaster diinginkan, lalu komputer melakukan semuanya.

Ada dua masalah utama pendekatan non-hirarkis.  Pertama, jumlah klaster harus ditentukan terlebih dahulu.  Kedua, pemilihan pusat klaster tidak pasti.  Seterusnya, hasil pengklasteran tergantung pada bagaimana pusat klaster dipilih.  Banyak program yang mulai dengan memilih kasus pertama k (k=jumlah klaster) sebagai pusat klaster awal. Jadi, hasil pengklasteran tergantung pada observasi data.

Di balik segala kekurangan-kekurangan itu, metoda ini dapat dilakukan dengan cepat dan sangat bermanfaat kalau jumlah observasi besar.  Dianjurkan agar pendekatan hirarkis dan non-hirarkis dipakai bersama-sama.  Pertama, pakai dulu pendekatan hirarkis (misalnya dengan metoda Ward). Jumlah klaster dan centroid klaster yang dihasilkan selanjutnya dipakai sebagai input dalam optimizing partitioning method.

Pemilihan metoda pengklasteran dan pilihan ukuran jarak berkaitan satu sama lain.  Contohnya, jarak eucledian kuadrat (squared eucledian distance) harus dipakai pada metoda Ward dan metoda centroid, termasuk juga beberapa metoda non-hirarkis yang memakai metoda ini.

Pada materi ini, yang dibahas hanya metoda hirarkis, jelasnya metoda aglomeratif.  Penjelasan berikutnya diwarnai oleh analisis data Tabel2 dengan memakai ukuran jarak squared euclidean distance dan  prosedur Ward’s method.  Menurut Maholtra, pasangan ini merupakan pasangan yang sesuai. Hasil analisis disajikan pada Tabel 7.

4.  Menentukan Jumlah Klaster

Lihat aglomeration schedule  pada Tabel 7.  Dua objek pertama dipasangkan adalah responden 14 dan 16 karena pasangan ini yang memiliki koefisien jarak paling rendah. Objek-objek lain, sama sekali belum memperoleh pasangan.  Oleh karena itu, pada tahap ini, jumlah klaster ada 19.

Pada baris pertama itu, pada kolom next stage tertulis 8.  Artinya, pada tahap ke-8, pasangan 14 dan 16 akan mendapat anggota baru, yaitu responden ke-10.

Pada tahap 2, responden 6 dan 7 dipasangkan.  Artinya, koefisien jarak terendah kedua adalah pasangan ini.  Lalu,  berdasarkan data pada kolom next stage, pasangan ini akan memperoleh anggota baru pada tahap 6.

Demikian seterusnya, sehingga pada setiap tahap berkurang satu klaster, sehingga pada tahap terakhir, yaitu tahap 19, semua responden menjadi satu klaster, seperti terlihat pada kolom jumlah klaster.  Kolom jumlah klaster ditambahkan oleh penulis sendiri untuk memudahkan pemahaman.  Data ini tidak diberikan oleh SPSS dalam agglomerative schedule.

Kalau begitu, analisis klaster tidak memustuskan jumlah klaster dong?  Ya.  Analisis klaster hanya menunjukkan kalau jumlah klaster sekian, anggotanya mana saja.  Keputusan berapa jumlah klaster yang diambil berada di tangan peneliti sendiri.

Penentuan jumlah klaster tidak pasti, akan tetapi diserahkan kepada judgment peneliti.  Namun, sekali pun tidak pasti, terdapat beberapa pertimbangan sebagai guideline, yaitu:

  1. Teori, konsep, model ataupun pertimbangan praktis, bisa saja memberi arahan tentang jumlah klaster. Katakanlah perilaku konsumen Indonesia dibagi menjadi  empat golongan.  Pertama, si Doel, yaitu konsumen yang values-nya universal, tetapi berhavior-nya local.  Kedua, si Boy, yaitu konsumen yang behaviornya universal akan tetapi values-nya lokal. Tentu, kalau menggunakan konsep ini, sepanjang kita melakukan pengklasteran dengan menggunakan variabel-variabel values dan behavior, maka jumlah klaster  adalah empat.
  2. Dalam pengklasteran hirarkis, jarak dapat digunakan sebagai kriteria. Untuk itu, perlu mengombinasikan hasil dari skedul aglomerasi da dendogram. Dari skedul aglomerasi, terlihat bahwa dari tahap pertama sampai tahap 16, peningkatan koefisien tidak drastis, akan tetapi lonjakan drastis sebesar 65,5 mulai terjadi pada tahap 17 dan 18, yaitu dari 85,292 (tahap 17) menjadi 150,792 (tahap 18). Ini terjadi pada saat proses agglomerasi menghasilkan tiga klaster.  Peningkatan koefisien ini bisa juga dilihat pada Gambar 6, di mana grafik koefisien menanjak secara drastis pada setelah tahap 16.  Jadi, berdasarkan perkembangan nilai koefisien, dapat disimpulkan bahwa solusi tiga klaster adalah yang terbaik.
  3. Lalu, pada dendogram terlihat bahwa dari sisi “Rescaled Distance Klaster Combine”, maka dua tahap terakhir dari dendogram, yaitu tahap ‘tiga klaster’ dan ‘tahap dua klaster’ memiliki jarak paling besar. Dari kedua hasil ini dapat disimpulkan bahwa keputusan tiga klaster merupakan yang terbaik.
  4. Jumlah relatif anggota klaster juga dapat dijadikan sebagai bahan pertimbangan. Perhatikan dendogram.  Kalau solusinya lima klaster, yaitu klaster pertama (14, 19, 4, 10, 16), klaster kedua (18), klaster ketiga (2, 13), klaster keempat (5, 20, 11, 9) dan klaster kelima (3, 8, 1, 6, 7, 12, 17, 15). LIhat, salah satu klaster berisikan hanya 1 anggota, yaitu anggota nomor 18.  Tentu aneh kalau ada  grup yang anggotanya hanya satu.  Sedangkan dengan solusi tiga klaster yang telah kita pilih, klaster pertama enam orang (14, 19, 4, 10, 16, 18), klaster kedua enam (2, 13, 5, 20, 11, 9) dan klaster ketiga delapan anggota (3, 8, 1, 6, 7, 12, 17, 15).

Dalam metoda nonhirarkis, kriteria yang digunakan akan dijelaskan kemudian.

Berdasarkan pertimbangan-pertimbangan di atas, jumlah klaster terbaik adalah tiga.  Dari dendogram terlihat anggota setiap klaster.  Apabila kita mulai dari atas, maka klaster satu beranggotakan responden-responden 14, 19, 4, 10, 16, dan 18.  Klaster 2 beranggotakan responden-responden 2, 13, 5, 20, 11, dan 9.  Terakhir, klaster 3 beranggotakan responden-responden 3, 8, 1, 6, 7, 12, 17, 15.

5.  Interpretasi Variabel dan Pembuatan Profil

Pengelompokan tidak bermanfaat apabila kita tidak mengetahui profil setiap kelompok.  Untuk menginterpretasi klaster dan membuat profil mereka, gunakan rata-rata setiap klaster pada setiap variabel (yang dinamakan centroid).  Centroid memungkinkan kita memberi label untuk setiap klaster.

Seperti terlihat pada Tabel 8, klaster satu memiliki rata-rata yang tinggi pada pernyataan-pernyataan:

  • V2:  Saya banyak mendengarkan nasihat teman dalam memilih perguruan tinggi.
  • V4:   Bagi saya, kampus adalah tempat paling baik meluaskan pergaulan.
  • V6:  Di kampus, saya lebih  menghabiskan banyak waktu bersama teman-teman.

Berdasarkan pernyataan-pernyataan tersebutlah kita menginterpretasi nama klaster ini.  Memang dibutuhkan kreatifitas untuk membuat nama klaster.  Untungnya, ketiga pernyataan itu sama-sama berbicara tentang persahabatan atau pertemanan.  Mahasiswa dalam klaster ini lebih dipengaruhi oleh teman atau pertimbangan siapa teman saya dalam memilih perguruan tinggi.  Oleh karena itu, kita dapat menamai klaster ini, dalam bahasa ilmiah sebagai ‘klaster sosial’ atau dalam bahasa sehari-hari sebagai ‘klaster gaul’.

Perhatikan Tabel 9 dan Tabel 10.  Dapatkah anda berikan  nama kedua klaster itu?

6.  Uji Validasi

Akuratkah klaster-klaster yang saya peroleh?  Ini merupakan pertanyaan terakhir.  Setiap orang ingin mengetahui apakah pekerjaannya sudah benar.  Sayangnya, secara statistik keakuratan sulit dibuktikan.  Sekalipun berbagai usaha telah dilakukan, tetapi sampai saat ini, tidak satu uji statistik pun yang betul-betul siap pakai.

Karena tak ada uji statistik, kita tidak perlu menyerah.  Ada beberapa cara yang bisa dilakukan.  Pertama, kalau ukuran sampel besar, coba bagi sampel ke dalam dua grup secara acak.  Lalu, lakukan analisis klaster pada masing-masing grup.  Kalau hasilnya sama, bolehlah kita percaya pada keakuratan analisis klaster.

Kedua, dalam pemasaran, analisis klaster tentunya memberikan gambaran segmen-segmen pasar yang ada.  Kalau analisis klaster dapat memberikan profil yang jelas, sehingga pemasar dapat memprediksi perilaku setiap segmen, dapatlah kita percaya bahwa analisis klster akurat.

Ketiga, lakukan analisis klaster berulang kali dengan data yang sama, tetapi dengan memakai jarak dan metoda berbeda.  Bandingkan hasil dari masing-masing perlakuan.  Kalau hasilnya sama, pantaslah kita yakin bahwa analisis klaster yang kita lakukan akurat.

Analisis Klaster dengan Variabel non-interval

Analisis klaster yang kita lakukan di atas menggunakan variabel dengan data interval, yang memiliki rentang seragam (1 sampai 7). Pertanyaannya, bagaimana kalau kita menggunakan data rasio dengan rentang tidak seragam (misalnya pendapatan dan jumlah anggota keluarga) serta variabel kategorikal (misalnya jenis kelamin)? Pertanyaan ini dijawab di halaman lain.

Referensi

Hair, J. F., Anderson, Rolph, E., Black, W., C. (2014). Multivariate Data Analysis. 7th Edition.  Harlow: Pearson.

Kotler, Philip and Kevin Lane Keller, (2016): Marketing Management, 15th. Edition New Jersey: Pearson Pretice Hall, Inc

Malhotra, N. K. (2010). Marketing Research : An Applied Orientation. 6th Edition. New Jersey: Pearson