Analisis Cluster

ISTILAH cluster berkenaan dengan pengelompokan objek-objek berdasarkan kemiripan yang dimiliki. Dalam pemasaran internasional, misalnya, negara-negara yang memiliki kemiripan dimasukkan ke dalam satu cluster. Dengan demikian kita mengenal kelompok-kelompok developed countries, developing countries dan under-developed countries.

Analisis cluster dapat dipakai pada bidang apa saja.  Namun, pemakaian teknik ini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar.

Teknik ini dimasukkan dalam multivariat, akan tetapi, konsep variat (variate) dalam teknik ini berbeda dari konsep variat teknik-teknik multivariat lainnya.  Kalau pada teknik-teknik lain variat diartikan sebagai kombinasi linier berbagai variabel,  dalam analisis cluster, variat diartikan sebagai sejumlah variabel – yang dianggap sebagai karakteristik – yang dipakai untuk membanding sebuah objek dengan objek lainnya.  Jadi, dalam analisis cluster, tidak dilakukan pencarian nilai variat secara empiris, sebagaimana pada teknik-teknik multivariat lainnya.

Tujuan Dasar

Tujuan utama analisis klaster adalah untuk menempatkan sekumpulan objek ke dalam dua atau lebih grup berdasarkan kesamaan-kesamaan objek atas dasar berbagai karakteristik. Melalui  prinsip homogenitas grup, menurut Hair, et. al., terdapat tiga sasaran yang tersedia bagi peneliti, yaitu:

  1. Deskripsi taksonomi (taxonomy description). Ini merupakan sasaran tradisional analisis klaster. Dengan taksonomi, kita mengelompokkan sekumpulan objek secara empiris.  Memang, analisis klaster telah dipakai untuk keperluan-keperluan pengelompokan.  Akan tetapi, kemampuannya tidak sebatas itu. Analisis klaster dapat pula dipakai untuk memunculkan hipothesis tentang struktur objek-objek yang diteliti.  Jadi, sekalipun banyak dipandang sebagai alat analisis untuk keperluan eksploratori, analisis klaster dapat pula dipakai untuk tujuan konfirmatori.
  2. Simplikasi data (data simplication). Dengan taksonomi, memang kita peroleh grup. Akan tetapi, berdasarkan struktur yang diperoleh, kita juga bisa menjelaskan profil setiap grup berdasarkan karakteristik umum yang dimiliki.  Kalau analisis faktor menjelaskan “dimensi” yang mendasari sejumlah variabel, dengan analisis klaster, kita juga melakukan hal yang sama, yaitu dimensi yang mendasari sejumlah observasi yang berada pada suatu klaster.
  3. Identifikasi hubungan (relationship identification). Setelah klaster terbentuk dan struktur data yang mendasarinya diperlihatkan dalam klaster, periset mendapat informasi tentang hubungan antar observasi yang tidak mungkin diperoleh dengan menganalisis observasi secara individu. Memang analisis diskriminan dapat digunakan untuk mengetahui hubungan tersebut secara empiris. Bahkan, secara kualitatif hubungan tersebut juga bisa diidentifikasi. Akan tetapi analisis klaster seringkali  memperlihatkan kesamaan-kesamaan maupun perbedaan-perbedaan yang tidak terdeteksi metoda-metoda lain.

Memilih Variabel

Setiap pengelompokan  terhadap objek apa pun harus memiliki dasar untuk mengelompokkan.  Kalau ada sekumpulan orang, kita mudah melakukan pengelompokan berdasarkan jenis kelamin, hasilnya dua kelompok: pria dan wanita.  Dalam pengelompokan ini, dasar atau variabel yang digunakan adalah jenis kelamin.

Pengelompokan dengan memakai hanya satu variabel umumnya tidak memuaskan karena tidak menggambarkan profil kelompok secara jelas.  Jadi, agar profil kelompok lebih jelas, kita dapat menambahkan variabel-variabel lain, misalnya usia, tingkat pendi-dikan, pekerjaan, status perkawinan, dan lain-lain.

Sayangnya, dalam analisis cluster, pemilihan variabel-variabel yang dilibatkan tidak boleh sembarangan.  Aturan pertama, dengan variabel-variabel yang dilibatkan, peneliti dapat membentuk kelompok-kelompok, yang  bermanfaat dari segi bisnis maupun  ilmu pengetahuan.  Tidak ada gunanya melakukan pengelompokan kalau hasilnya tidak memberikan manfaat.

Dalam pemasaran, misalnya, tujuan dari segmentasi pasar adalah untuk mengenal segmen-segmen yang efektif, sehingga perusahaan dapat memilih satu, beberapa atau semua segmen sebagai pasar sasaran.  Kalau  tidak sesuai dengan sasaran peneliti, penge-lompokan tidak berguna.

Aturan kedua, pilih variabel-variabel yang betul-betul dapat   memberikan gambaran tentang persamaan dalam kelompok dan perbedaan antar-kelompok.  Kalau dalam sebuah variabel level semua objek sama (extremely homogenous), maka variabel tersebut jangan dipakai.  Misalnya, kalau dalam sebuah populasi semua orang berusia 20 tahun,  jangan lagi libatkan variabel ‘usia’ untuk mengelompokkan populasi tersebut.

Sebuah variabel yang betul-betul tidak pernah sama di antara objek-objek (extremely heterogenous), atau yang selalu berbeda dari objek yang satu dengan objek lainnya, juga tidak bisa dipakai.  Sebab, variabel demikian tidak akan pernah berkontribusi terhadap kesamaan (similarity) yang dipakai sebagai dasar untuk melakukan pengelompokan subjek.

Aturan keempat, pilihlah variabel-variabel yang secara konseptual diterima.  Segmentasi pasar harus dilakukan secara kreatif, tidak terbatas pada variabel-variabel teoritis yang kaku.  Teori yang ada harus diterjemahkan secara kreatif sehingga variabel-variabel yang dilibatkan memiliki kekuatan untuk mengelompokkan subjek-subjek sesuai keinginan peneliti.

Mendeteksi Outliers

Kalau di sebuah pabrik yang semua buruh bergaji tiga rupiah sebulan, kecuali satu orang bergaji dua puluh juta rupiah sebulan, maka orang yang gajinya beda sendiri ini disebut outliers.

Kehadiran outliers dapat mengganggu analisis data.  Katakanlah dalam pabrik tersebut ada 20 karyawan termasuk outliers tadi, maka rata-rata gaji mereka adalah Rp 4.350.000 per bulan.  Angka ini bisa menyesatkan.  Dengan angka itu orang bisa mengira bahwa di pabrik tersebut gaji para karyawan rata-rata di atas tiga juta rupiah per bulan, padahal 19 orang di antaranya di bawah rata-rata itu.  Hanya gaji si outliers itulah di atas rata-rata.

Dalam analisis cluster, kehadiran outliers juga perlu dideteksi, sebab akan mengganggu analisis.  Caranya adalah dengan menggunakan profil diagram (Gambar 7.1), yaitu dengan menampilkan data karakteristik konsumen (Tabel 7.1), secara grafis.

Perlu disampaikan tidak ada sepuluh diagram karena diagram beberapa responden berimpit pada beberapa variabel.

Dari Gambar 7.1 terlihat bahwa diagram responden 9 beda sendiri atau menjauh dari diagram para responden lain.  Dampaknya, seperti terlihat pada Gambar 7.2, responden 9  tidak bisa dikelompokkan dengan responden mana pun.  Hasil demikian tentu tidak baik, sebab dalam segmentasi, salah satu kriteria segmen yang baik adalah subtantial, artinya ukuran segmen cukup besar.

Apa solusinya?  Keluarkan outlier dari analisis.  Hasilnya, pengelompokan lebih baik, seperti ditampilkan pada Gambar 7.3. Jangan persoalkan dulu bagaimana menginterpretasi dendogram pada Gambar 7.2 dan Gambar 7.3.  Secara singkat, konsep ini membantu kita menentukan jumlah segmen. Secara lebih detail, penentuan jumlah segmen atau klaster dibahas di depan.

Setelah data responden 9 dikeluarkan, terlihat pada Gambar 7.3 bahwa semua objek (responden) sudah berpasang-pasangan.  Dengan kata lain, tidak ada lagi responden yang  sendirian.

MELAKUKAN ANALISIS KLASTER

Dalam melakukan analisis cluster, tahap pertama, rumuskan masalah dengan menjelaskan variabel-variabel yang menjadi dasar melakukan analisis klaster.  Kedua, tentukan ukuran jarak yang dipakai.  Jarak ini menjelaskan seberapa mirip atau seberapa berbeda objek-objek yang diklaster.

Ketiga, tentukan prosedur atau metoda pengklasteran (clustering) yang digunakan. Ada beberapa prosedur pengklasteran, jadi peneliti harus memilih yang paling tepat.  Lalu, lakukan proses.

Keempat, tentukan jumlah cluster. Dalam memilih jumlah klaster yang dibentuk, diperlukan judgement periset.

Kelima, interpretasi profil cluster-cluster yang dibentuk. Klaster-klaster yang dihasilkan harus diinterpretasi berdasarkan variabel-variabel yang dipakai untuk mengklaster.  Terakhir, lakukanlah uji validitas proses pengklasteran yang dilakukan.

Tahap 1:  Merumuskan Masalah

Seorang peneliti ingin mengklaster sekelompok mahasiswa berdasarkan pertimbangan dalam memilih perguruan tinggi.  Ada enam variabel yang dipakai, yang tercermin dalam kuesioner di bawah ini, semuanya tergolong variabel berhavioral.

Daftar Pertanyaan:

  1. Saya akan memilih perguruan tinggi kecil, asalkan berkualitas, dari pada perguruan tinggi besar, tetapi kualitas diragukan

Sangat tidak setuju 1    2    3    4    5    6    7   Sangat setuju

  1. Saya banyak mendengarkan nasihat teman dalam memilih perguruan tinggi.

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

  1. Saya mempelajari informasi-informasi tentang perguruan tinggi sebelum menentukan pilihan

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

  1. Bagi saya, kampus adalah tempat paling baik meluaskan pergaulan

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

  1. Bagi saya pendidikan yang saya terima sudah sesuai dengan uang kuliah yang saya bayarkan.

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

  1. Di kampus, saya lebih menghabiskan banyak waktu bersama teman-teman

Sangat tidak setuju  1    2    3    4    5    6    7   Sangat setuju

Kuesioner di atas diberikan kepada 20 responden dan hasilnya disajikan pada Tabel 7.2. Bagi anda membutuhkan data tersedia pada link ini.

Tabel 7.2

Tahap 2:  Memilih Ukuran Kesamaan

Yang namanya pembedaan atau penyamaan, pasti ada kriterianya.  Dalam analisis klaster, menurut Green, et. al.,  kriteria itu  ada dua: (1) ukuran jarak (distance-type measure) dan (2) ukuran kesesuaian (matching-type measures).[i]

Pendapat senada diberikan oleh Maholtra.  Dia mengatakan bahwa ukuran kesamaan ada juga dua, yaitu:

  1. Asosiasi atau korelasi antar objek.
  2. Kedekatan atau jarak antar objek. Jarak ini ada beberapa bentuk:
  3. Jarak Euclidean, yaitu jarak berupa akar dari jumlah perbedaan antar objek yang dikuadratkan.
  4. Cityblock atau jarak Manhattan adalah jarak berupa jumlah perbedaan absolut antar objek.
  1. Jarak Chebychev antar dua objek adalah perbedaan nilai absolute maksimum pada setiap variabel.[ii]

Pemakaian ukuran jarak yang berbeda dapat menghasilkan kesimpulan yang berbeda. Oleh karena itu, disarankan agar peneliti menggunakan beberapa cara yang berbeda sekaligus, kemudian melihat, dengan jarak mana dihasilkan kelompok-kelompok terbaik.

Kriteria tentang kelompok-kelompok terbaik ini, dalam pemasaran, dapat merujuk pada syarat-syarat segmen yang baik, seperti disampaikan oleh Kotler, yaitu:

  1. Dapat diukur (measurable): Ukuran, daya beli dan karakteristik segmen dapat diukur.
  2. Memadai (substantial): Segmen cukup besar dan enguntungkan untuk dilayani. Sebuah segmen seyogianya sebuah kelompok berukuran besar yang homogen, sehingga pantas mendapat program pemasaran secara khusus.
  3. Dapat dijangkau (accessible): Segmen dapat dijangkau dan dilayani secara efektif.
  4. Berbeda (differentiable): Dibanding segmen lain, sebuah segmen secara konseptual segmen berbeda dan juga merespon stimuli pemasaran dengan cara berbeda.
  5. Dapat ditindaklanjuti (actionable): Program efektif dapat dibuat untuk menarik dan melayani segmen.[iii]

Memang tidak semua syarat itu yang dapat dinilai dalam analisis kluster.  Akan tetapi, syarat karakteristik dapat diukur, homogenitas dalam segmen, dan heterogenitas antar segmen, dapat dinilai.  Oleh karena itu, ketiga syarat tersebut, dapat dipakai untuk menentukan ukuran kesamaan mana yang menghasilkan klaster-klaster terbaik.

Berikut ini diberi contoh untuk menunjukkan bagaimana kriteria-kriteria kesamaan itu dihitung.  Data pada Tabel 7.3 berasal dari tiga responden, yaitu Andi, Karto dan Lim.  Ketiga responden dibanding dengan menggunakan enam variabel.  Tujuannya, menemukan dua orang yang paling mirip di antara ketiganya.

[i] Green, Paul. E, et. al. 1997.  Research For Marketing Decision.  Fifth Edition.  Prentice-Hall of India Private Limited, New Delhi, hal. 580-581.

[ii] Maholtra, Naresh. K. 1996.  Marketing Research An Applied Orientation.  Prentice-Hall, Inc., New Yersey, hal. 676.

[iii] Kotler, P. & Keller, K.L. (2012).  Marketing Management.  Prentice-Hall, Inc., New Yersey.

Tabel 7.3

Kriteria Asosiasi.   Untuk keperluan ini, kita dapat menggunakan profil diagram seperti terlihat pada Gambar 7.4.  Terlihat bahwa lekuk-lekuk profil Andi paling mrip dengan Karto.  Lim memiliki profil yang berbeda sendiri.

Selain dengan profil diagram, untuk lebih meyakinkan, kita bisa menggunakan korelasi, tepatnya korelasi product moment (sering juga disebut korelasi Pearson, korelasi sederhana atau korelasi saja). Antara Andi dan Karto, nilai korelasi adalah 0,87.  Antara Andi dan Lim sebesar -0,41 dan antara Karto dan Lim sebesar -0,40.  Jelas, berdasarkan koefisien korelasi, Andi paling mirip dengan Karto.

Kriteria Kedekatan.  Untuk tujuan ini, maka ketiga responden, harus dipasang-pasangkan, yaitu Andi dan Karto (Tabel 7.4), Andi dan Lim (Tabel 7.5) dan Karto dan Lim (Tabel 7.6).

Dengan rumus tersebut, kita dapat menghitung jarak euclidean seperti pada Tabel 7.4, Tabel 7.5 dan Tabel 7.6.  Terlihat dari perhitungan bahwa pasangan paling dekat dari ketiganya, menurut jarak euclidean, adalah Andi dan Lim, karena skornya paling rendah, yaitu 7,28.  Ingat bahwa semakin rendah skor jarak, semakin dekat objek-objek yang dipasangkan.

Squared Euclidean Distance.  Jarak ini merupakan variasi dari euclidean distance.  Caranya mudah.  Kalau jarak euclidean diakarkan, maka pada squared euclidean distance, akar tersebut dihilangkan, seperti pada rumus di bawah ini.

Dari perhitungan terlihat bahwa squared euclidean distance untuk Andi dan Karto adalah 68 (Tabel 7.4), Andi dan Lim 53 (Tabel 7.5) serta Karto dan Lim 57 (Tabel 7.6). Jadi, menurut kriteria ini, yang paling dekat adalah Andi dan Lim.

Jarak Cityblock.  Untuk menghitung jarak ini, kita tinggal mengurangkan nilai-nilai objek-objek yang dipasangkan.  Hasilnya kita jadikan sebagai nilai mutlak.  Lalu, kita jumlahkan nilai-nilai mutlak tersebut.

Untuk Andi dan Karto, jarak cityblock adalah 4+4+3+3+3+3=20 (Tabel 7.4).  Untuk Andi dan Lim, jarak cityblock adalah 1+4+1+1+5+3=15. Sedangkan untuk Karto dan Lim, jarak cityblock adalah 3+0+2+2+2+6=15.  Kesimpulannya, ada dua pasangan paling dekat, yaitu Andi dan Lim, serta Karto dan Lim.

Jarak Chebichev.  Lihat nilai mutlak selisih antar objek.  Lalu, dari nilai-nilai tersebut, lihat nilai yang paling tinggi, itulah jarak chebichev.  Dengan demikian, jarak chebichev antara Andi dan Karto adalah sebesar 4, antara Andi dan Lim sebesar 5, dan antara Karto dan Lim sebesar 6.  Oleh karena itu, dengan kriteria ini, maka pasangan paling dekat adalah Andi dan Karto.

Tahap 3:  Memilih Prosedur 

Dari tingkat paling mendasar, dua metoda analisis klaster adalah metoda aglomeratif (agglomerative method) dan metoda difisif (divisive method).  Selengkapnya lihat Gambar 7.5.

Gambar 7.5

Agglomerative. Dimulai dengan menempatkan objek dalam klaster-klaster yang berbeda, lalu mengelompokkan objek secara bertahap ke dalam klaster-klaster yang lebih besar.  Artinya, pertama sekali, setiap objek diperlakukan sebagai klaster.  Jadi, kalau ada 20 objek, maka pada tahap pertama, ada 20 klaster.  Lalu, secara bertahap, dilakukan pengelompokan dengan memeriksa satu pasangan objek paling mirip, lalu keduanya menjadi satu klaster. Jadi, pada tahap kedua, jumlah klaster menjadi 19.  Proses ini akan berjalan terus, sehingga pada tahap terakhir, yaitu tahap ke-19, semua objek menjadi satu klaster.

Divisive, dalam prosesnya, merupakan kebalikan metoda aglomeratif: Metoda ini dimulai dengan menempatkan semua objek sebagai satu klaster.  Lalu, secara bertahap, objek-objek dipisahkan ke dalam kaster-klaster yang berbeda,  dua klaster, tiga klaster dan seterusnya, sampai semua objek menjadi klaster sendiri-sendiri.  Jadi, kalau ada 20 objek, pada tahap terakhir akan ada 20 klaster.

Metoda agglomerative paling banyak dipakai dalam riset pemasaran.  Teknik ini sendiri masih dapat dibagi menjadi: linkage method, sum of squares method, dan centroid methodLalu, linkage method masih terbagi atas single linkage method, complete linkage method, dan average linkage method.

Sebenarnya banyak metoda (disebut juga algoritma) yang sudah dikembangkan dan akan dikembangkan lagi, apalagi dengan sangat berkembangnya perangkat lunak statistika. Harap maklum kalau buku-buku yang ada tidak menampung penjelasan semua metoda.  Dalam SPSS sendiri, ada tujuh metoda, yaitu between groups linkage, whithin-groups linkage, nearest-neighbore, furthest-neighbore, centroid clustering, median clustering, dan Ward’s method.

Perlu diingat, metoda apa pun yang dipakai, sebenarnya setiap metoda punya dua tujuan.  Pertama, meminimalkan variasi dalam klaster (whithin-cluster variation) dan memaksimalkan variasi antar klaster (between-cluster variation).

Terus, soal metoda mana yang terbaik, tergantung pada kemampuan  setiap metoda untuk menghasilkan klaster secara akurat sesuai tujuan peneliti.

Single linkage method didasarkan pada jarak minimum atau aturan tetangga terdekat.  Dua objek pertama yang dikelompokkan adalah yang memiliki jarak terdekat di antara keduanya. Selanjutnya, jarak paling dekat lainnya dideteksi. Objek ketiga ini, bisa saja dikelompokkan bersama dua yang terdahulu, bisa pula membentuk klaster sendiri. Pada setiap tahap, jarak antar dua klaster adalah jarak paling dekat di antara keduanya. Dalam SPSS metoda ini dinamakan nearest neighbore.

Dalam metoda ini, bila ada dua klaster mau digabungkan atau tidak, yang diperhatikan cukup satu anggota  dari masing-masing klaster, yang keduanya berhubungan atau berjarak paling dekat. Inilah masalahnya.  Kalau sebuah klaster digabungkan hanya karena paling dekat dengan salah satu anggota, bagaimana dengan anggota-anggota lain? Kalau ternyata jaraknya jauh, metoda ini bisa menye-babkan interpretasi klaster yang tidak jelas.

Dua klaster digabungkan pada setiap tahap berdasarkan jarak paling dekat di antara keduanya.  Proses ini berlanjut terus sampai diperoleh hanya ada satu klaster.  Teknik keterkaitan tunggal (single linkage) tidak bekerja baik kalau klaster-klaster tidak defenisikan secara baik.

Metoda keterkaitan lengkap (complete linkage) sama dengan metoda keterkaitan tunggal.  Bedanya, metoda ini menggunakan pendekatan jarak maksimum atau tetangga terjauh.  Dalam metoda ini, jarak antara satu klaster dengan klaster lain diukur berdasarkan jarak terjauh anggota-anggota mereka. Dalam SPSS dinamakan furtherst neighbore.

Complete Linkage Method

Metoda keterkaitan rata-rata (average linkage) bekerja dengan cara yang sama. Dalam metoda ini, jarak antara dua klaster dianggap sebagai jarak rata-rata antara semua anggota dalam satu klaster dengan semua anggota klaster lain.  Namun, seperti terlihat pada gambar, informasi yang dibutuhkan lebih banyak.  Dengan masing-masing dua anggota saja, empat ‘jarak’ yang harus diketahui.  Kalau jumlah anggota lebih banyak, tentu harus  banyak lagi jarak yang harus dihitung.  Karena alasan itulah metoda ini jarang dipakai. Karena alasan kesederhanaan pula metoda keterkaitan tunggal maupun keterkaitan lengkap yang lebih sering dipakai.

Metoda varian bertujuan memperoleh klaster yang memiliki varian internal klaster yang sekecil mungkin.  Metoda varian yang umum dipakai adalah metoda Ward.  Untuk setiap klaster, rata-rata dihitung.  Lalu, dihitung jarak eucledian antara setiap objek dengan nilai rata-rata itu, lalu jarak itu dihitung semua.  Pada setiap tahap, dua klaster yang memiliki kenaikan ‘sum of squares dalam klaster’ yang terkecil digabungkan.

Dalam metoda centroid, jarak antar klaster adalah jarak antar centroid mereka. Centroid sendiri adalah rata-rata semua anggota dalam klaster. Setiap kali objek digabungkan, centroid baru dihitung, sehingga setiap kali ada penambahan anggota, centroid berubah pula. Dari pendekatan hirarkis, metoda keterkaitan rata-rata  dan metoda Wards sejauh ini merupakan metoda terbaik.

Nonhierarchical procedure sering disebut sebagai prosedur k-means. Tiga variannya adalah sequential threshold, parallel threshold, dan optimizing partitioning.

Dalam metoda sequential threshold, sebuah klaster pusat dipilih dan semua objek yang berada dalam ambang batas yang telah ditentukan (precified threshold value) dari pusat digabungkan.  Lalu, pusat klaster atau bakal klaster yang baru dipilih. Lalu, proses tadi diulang lagi pada poin-poin yang belum diklaster. Sekali sebuah objek diklaster dengan sebuah bakal klaster (cluster seed), maka objek tersebut tidak bisa diutak-atik lagi.

Metoda parallel threshold dilakukan dengan cara yang sama.  Bedanya, beberapa pusat klaster dipilih sekaligus.  Lalu, setiap objek dalam ambang batas (threshold level) digabungkan pada pusat yang terdekat.  Seiring berjalannya proses, batas jarak (threshold distance) dapat disesuaikan untuk mengurangi atau menambah jumlah anggota klaster.  Namun, kalau sebuah objek terlalu, sehingga sekali pun batas jarak diutak-atik tetap tidak tercakup, sebuah objek bisa tidak masuk pada klaster mana pun.

Optimizing partitioning method berbeda dari prosedur threshold dalam hal objek dapat digabungkan belakangan ke dalam klaster-klaster untuk mengoptimalkan semua kriteria, seperti jarak dalam klaster untuk sejumlah klaster.  Artinya, sebuah objek dapat dimasukkan ke sebuah klaster, lalu dikeluarkan lagi karena ternyata lebih dekat dengan klaster lain.

Terbayang bagi kita, bagaimana menentukan poin bakal klaster?  Tidak perlu repot.  Umumnya program-program komputer sudah melakukan tugas ini sepenuhnya.  Kita hanya menentukan berapa jumlah klaster diinginkan, lalu komputer melakukan semuanya.

Ada dua masalah utama pendekatan non-hirarkis.  Pertama, jumlah klaster harus ditentukan terlebih dahulu.  Kedua, pemilihan pusat klaster tidak pasti.  Seterusnya, hasil pengklasteran tergantung pada bagaimana pusat klaster dipilih.  Banyak program yang mulai dengan memilih kasus pertama k (k=jumlah klaster) sebagai pusat klaster awal. Jadi, hasil pengklasteran tergantung pada observasi data.

Di balik segala kekurangan-kekurangan itu, metoda ini dapat dilakukan dengan cepat dan sangat bermanfaat kalau jumlah observasi besar.  Dianjurkan agar pendekatan hirarkis dan non-hirarkis dipakai bersama-sama.  Pertama, pakai dulu pendekatan hirarkis (misalnya dengan metoda Ward). Jumlah klaster dan centroid klaster yang dihasilkan selanjutnya dipakai sebagai input dalam optimizing partitioning method.

Pemilihan metoda pengklasteran dan pilihan ukuran jarak berkaitan satu sama lain.  Contohnya, jarak eucledian kuadrat (squared eucledian distance) harus dipakai pada metoda Ward dan metoda centroid, termasuk juga beberapa metoda non-hirarkis yang memakai metoda ini.

Dalam buku ini, yang dibahas hanya metoda hirarkis, jelasnya metoda aglomeratif.  Penjelasan berikutnya diwarnai oleh analisis data Tabel 7.2 dengan memakai ukuran jarak squared euclidean distance dan  prosedur Ward’s method.  Menurut Maholtra, pasangan ini merupakan pasangan yang sesuai.  Hasil analisis disajikan pada Tabel 7.7.

Tahap 4:  Menentukan Jumlah Klaster

Lihat aglomeration schedule  pada Tabel 7.7.  Dua objek pertama dipasangkan adalah responden 14 dan 16 karena pasangan ini yang memiliki koefisien jarak paling rendah. Objek-objek lain, sama sekali belum memperoleh pasangan.  Oleh karena itu, pada tahap ini, jumlah klaster ada 19.

Pada baris pertama itu, pada kolom next stage tertulis 8.  Artinya, pada tahap ke-8, pasangan 14 dan 16 akan mendapat anggota baru, yaitu responden ke-10.

Pada tahap 2, responden 6 dan 7 dipasangkan.  Artinya, koefisien jarak terendah kedua adalah pasangan ini.  Lalu,  berdasarkan data pada kolom next stage, pasangan ini akan memperoleh anggota baru pada tahap 6.

Demikian seterusnya, sehingga pada setiap tahap berkurang satu klaster, sehingga pada tahap terakhir, yaitu tahap 19, semua responden menjadi satu klaster, seperti terlihat pada kolom jumlah klaster.  Kolom jumlah klaster ditambahkan oleh penulis sendiri untuk memudahkan pemahaman.  Data ini tidak diberikan oleh SPSS dalam agglomerative schedule.

Kalau begitu, analisis klaster tidak memustuskan jumlah klaster dong?  Ya.  Analisis klaster hanya menunjukkan kalau jumlah klaster sekian, anggotanya mana saja.  Keputusan berapa jumlah klaster yang diambil berada di tangan peneliti sendiri.

Output 1. Summary Processing

Output 2. Agglomeration Schedule

Keterangan: Kolom ‘jumlah klaster’ adalah tambahan penulis. Output SPSS tidak menyertakan informasi ini

Dalam pengklasteran hirarkis, jarak dapat digunakan sebagai kriteria. Untuk itu, perlu mengombinasikan hasil dari skedul aglomerasi da dendogram. Dari skedul aglomerasi, terlihat bahwa dari tahap pertama sampai tahap 16, peningkatan koefisien tidak drastis, akan tetapi lonjakan drastis sebesar 65,5 mulai terjadi pada tahap 17 dan 18, yaitu dari 85,292 (tahap 17) menjadi 150,792 (tahap 18). Ini terjadi pada saat proses agglomerasi menghasilkan tiga cluster.  Peningkatan koefisien ini bisa juga dilihat pada Gambar 7.6, di mana grafik koefisien menanjak secara drastis pada setelah tahap 16.  Jadi, berdasarkan perkembangan nilai koefisien, dapat disimpulkan bahwa solusi tiga klaster adalah yang terbaik.

Pada dendogram terlihat bahwa dari sisi “Rescaled Distance Cluster Combine”, maka dua tahap terakhir dari dendogram, yaitu tahap ‘tiga klaster’ dan ‘tahap dua klaster’ memiliki jarak paling besar. Dari kedua hasil ini dapat disimpulkan bahwa keputusan tiga klaster merupakan yang terbaik.

Jumlah relatif anggota klaster juga dapat dijadikan sebagai bahan pertimbangan.  Perhatikan dendogram.  Kalau solusinya empat klaster, maka salah satu klaster berisikan hanya 1 anggota, yaitu anggota nomor 18.  Tentu terasa aneh kalau ada sebuah grup yang anggotanya hanya satu.  Sedangkan dengan solusi tiga klaster yang telah kita pilih, jumlah anggota-anggotanya adalah enam (klaster 1), enam (klaster 2) dan delapan (klaster 3). Dalam metoda nonhirarkis, kriteria yang digunakan akan dijelaskan kemudian.

Kesimpulan.  Berdasarkan pertimbangan-pertimbangan di atas, jumlah klaster terbaik adalah tiga.  Dari dendogram terlihat anggota setiap klaster.  Apabila kita mulai dari atas, maka klaster satu beranggotakan responden-responden 14, 19, 4, 10, 16, dan 18.  Klaster 2 beranggotakan responden-responden 2, 13, 5, 20, 11, dan 9.  Terakhir, klaster 3 beranggotakan responden-responden 3, 8, 1, 6, 7, 12, 17, 15.

Interpretasi dan Pembuatan Profil

Pengelompokan tidak bermanfaat apabila kita tidak mengetahui profil setiap kelompok.  Untuk menginterpretasi klaster dan membuat profil mereka, gunakan rata-rata setiap klaster pada setiap variabel (yang dinamakan centroid).  Centroid memungkinkan kita memberi label untuk setiap klaster.

Tabel 7.7. Profil Klaster Satu

Sumber: Tabel 7.2

Tabel 7.8. Profil Klaster Dua

Sumber: Tabel 7.2

Sumber: Tabel 7.2

Seperti terlihat pada Tabel 7.7, klaster satu memiliki rata-rata yang tinggi pada pernyataan-pernyataan:

  • V2:  Saya banyak mendengarkan nasihat teman dalam memilih perguruan tinggi.
  • V4:   Bagi saya, kampus adalah tempat paling baik meluaskan pergaulan.
  • V6:  Di kampus, saya lebih  menghabiskan banyak waktu bersama teman-teman.

Berdasarkan pernyataan-pernyataan tersebutlah kita mengin-terpretasi profil klaster ini.  Memang dibutuhkan kreatifitas untuk membuat profil klaster.  Untungnya, ketiga pernyataan itu sama-sama berbicara tentang persahabatan atau pertemanan.  Mahasiswa dalam klaster ini lebih dipengaruhi oleh teman atau pertimbangan siapa teman saya dalam memilih perguruan tinggi.  Oleh karena itu, kita dapat menamai klaster ini, dalam bahasa ilmiah sebagai KLASTER SOSIAL, sedangkan dalam bahasa populer sebagai KLASTER GAUL.

Perhatikan Tabel 7.8 dan 7.9.  Dapatkah anda berikan  nama kedua klaster itu?

Uji Validasi

Akuratkah klaster-klaster yang saya peroleh?  Ini merupakan pertanyaan terakhir.  Setiap orang ingin mengetahui apakah pekerjaannya sudah benar.  Sayangnya, secara statistik keakuratan sulit dibuktikan.  Sekalipun berbagai usaha telah dilakukan, tetapi sampai saat ini, tidak satu uji statistik pun yang betul-betul siap pakai.

Karena tak ada uji statistik, kita tidak perlu menyerah.  Ada beberapa cara yang bisa dilakukan.  Pertama, kalau ukuran sampel besar, coba bagi sampel ke dalam dua grup secara acak.  Lalu, lakukan analisis klaster pada masing-masing grup.  Kalau hasilnya sama, bolehlah kita percaya pada keakuratan analisis klaster.

Kedua, dalam pemasaran, analisis klaster tentunya memberikan gambaran segmen-segmen pasar yang ada.  Kalau analisis klaster dapat memberikan profil yang jelas, sehingga pemasar dapat memprediksi perilaku setiap segmen, dapatlah kita percaya bahwa analisis klster akurat.

Ketiga, lakukan analisis klaster berulang kali dengan data yang sama, tetapi dengan memakai jarak dan metoda berbeda.  Bandingkan hasil dari masing-masing perlakuan.  Kalau hasilnya sama, pantaslah kita yakin bahwa analisis klaster yang kita lakukan akurat.

Langkah-langkah Melakukan Analisis Klaster Dengan SPSS.

  1. Buka SPSS. Pada layar, ketikkan data Tabel 7.2 atau Copy dari program lain (kalau sudah diketik pada program) lain, lalu Paste pada layar SPSS.
  2. Ubah nama variabel dan tampilan data dengan menggunakan view pada menu utama, maka tampak pada layar:

  1. Selanjutnya, pilih menu analyze, kemudian classify, lalu klik hierarchical cluster. Lalu, blok semua variabel, kemudian masukkan pada sel variable(s).

  1. Pada kotak dialog utama, buka menu Statistics, lalu klik Agglomeration schedule. Kemudian
  2. Lalu, klik plots, kemudian pada kotak dialog yang diberikan, klik Dendogram. Lalu, kembali ke kotak dialog utama dengan meng-klik Dengan pilihan ini, maka program akan memberikan Dendogram.
  3. Kemudian, klik menu method pada kotak dialog utama. Pada kotak dialog yang muncul, pilih pengukuran Interval (karena data memang interval) lalu Squared euclidean distance sebagai jarak, dan sebagai Cluster method pilih Ward’s method. Tampak di layar seperti di bawah. Lalu, klik Continue.
  1. Pada kotak dialog utama, klik OK. Lalu, diperolehlah hasil-hasil seperti telah dibahas.

Analisis Klaster dengan Variabel Nominal dan Ordinal

Sejauh ini, analisis klaster yang kita lakukan, menggunakan data interval.  Pertanyaan, bagaimana kalau data nominal ataupun ordinal?  Tidak masalah.  Analisis klaster tetap bisa dilakukan.

Dua profil dianggap serupa (similar) kalau memiliki sejumlah atribut yang sama.  Mari kita pegang prinsip ini.  Kalau ada dua alternatif pasangan Anto, yaitu Bilson dan Cici, apakah Anto kita pasangkan dengan Bilson (menjadi klaster Anto-Bilson) ataukah dengan Cici (menjadi klaster Anto-Cici), tergantung dengan pasangan mana Anto lebih banyak memiliki atribut yang sama.  Kalau dengan Bilson atribut Anto 80% sama, sedangkan dengan Cici atribut Anto yang sama 20%, dengan Bilsonlah Anto kita pasangkan.

Format data seperti pada Tabel 7.11 tidak bisa diolah pakai komputer.  Oleh karena itu, data-data itu perlu disimbolkan, angka 1 menyatakan keberadaan suatu atribut, angka 0 menyatakan ketidak-hadiran suatu atribut.  Atribut kedua pasangan dikatakan sama nilainya sama-sama 1 ataupun sama-sama 0.  Ukuran kesamaan dapat dinyatakan dengan rumus berikut:

 

 

 

 

 

Kalau atribut dibagi ke dalam dua kategori (dikotomi), maka ukuran kesamaan disebut koefisien asosiasi.  Bagaimana kalau atribut terbagi ke dalam lebih dua kategori (polycotomies)?  Tidak masalah.  Yang perlu kita lakukan sama seperti yang kita lakukan pada regresi berganda dengan variabel non-metrik, yaitu mewakilkan variabel tersebut ke dalam k-1 variabel pernyataan, di mana k adalah jumlah kategori.  Lalu, kesamaan kita ukur dengan rumus 8-3.

Bagaimana kalau variabel kita adalah gabungan variabel metrik dan non-metrik?  Menurut Green, et. al, kita dapat mengubah variabel metrik (interval dan rasio) menjadi kategorikal (non-metrik), lalu kita lakukan analisis keserupaan (matching type analysis).[ii]

Program-program komputer yang sudah sangat berkembang sebenarnya telah mengantisipasi situasi demikian. Program SPSS menyediakan pilihan two-step cluster analysis untuk menangani analisis klaster yang berisikan data non-metrik dan data metrik.  Hanya, interpretasi peneliti menjadi berkurang sebab komputer telah menentukan secara pasti keanggotaan setiap objek.  Tidak seperti metoda aglomeratif, di mana peranan peneliti sangat besar dalam nentukan jumlah klaster.

Standarisasi Data

Kebetulan pula dalam contoh-contoh terdahulu data yang kita gunakan berasal dari instrumen yang sama, yaitu skala numerik.

Bagaimana kalau satuan yang kita gunakan berbeda karena memang variabel-variabelnya menuntut demikian?  Bayangkan kalau variabel kita adalah variabel sikap (diukur dengan skala numerik 1 sampai 7), usia (diukur dengan satuan tahun), pendapatan (diukur dengan rupiah), seperti pada Tabel 7.13.  Kalau kita menggunakan korelasi sebagai ukuran jarak, maka bentuk data demikian memang tidak bermasalah.  Lain halnya kalau kita menggunakan jarak euclidean. Kalau  tetap dalam bentuk aslinya, maka variabel-variabel yang memiliki standar deviasi paling besar (pendapatan), akan tampil sebagai diferensiator utama. Artinya, segmentasi kita akan dipengaruhi paling besar oleh variavel itu, padahal belum tentu demikian.

Lihat Tabel 7.15.  Yang dikelompokkan pertama kali adalah responden 5 (Indro) dan 6 (Saliman), karena pendapatan kedua responden yang mirip atau  paling kecil selisihnya.  Kalau ditelusuri, pada agglometarion schedule ini, pengelompokan selanjutnya semata-mata didasarkan pada jarak pendapatan.  Variabel-variabel lain jadi tidak berguna sama sekali.

Tabel 7.13

Kalau data menggunakan skala yang berbeda, agar memperoleh kesempatan yang sama,  setiap variabel perlu distandarisasi terlebih dahulu (hasil standarisasi Tabel 7.14), barulah dilakukan analisis klaster. Hasil analisis klaster terhadap Tabel 7.14, berupa agglomeration schedule, disajikan pada Tabel 7.16.

Berbeda dengan analisis klaster tanpa standarisasi, pada kasus ini, responden paling dekat, yang dikelompokkan pertama kali adalah responden 1 (Dinan) dan responden 3 (Siska). Tentu, karena skala data sama, diskriminator tidak lagi hanya pendapatan.

 

Cara mengutip halaman ini (APA Style):

Simamora, Bilson. (2017). Analisis cluster. Sebuah halaman pada Bilson Simamora Marketing and Research Center. Diakses melalui https://www.bilsonsimamora.com/multivariat/cluster-analysis/, ……/……./……. (Tuliskan tanggal, bulan dan tahun halaman ini dibaca).