Apa Itu Cluster?

Analisis Cluster adalah teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek — objek berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling dekat kesamaanya) akan mengelompok ke dalam satu cluster (kelompok) yang sama.

Tujuan dari Analisis Cluster adalah mengelompokkan obyek berdasarkan kesamaan karakteristik di antara obyek-obyek tersebut. Dengan demikian, ciri-ciri suatu cluster yang baik yaitu mepunyai :

  • Homogenitas internal (within cluster) yaitu kesamaan antar anggota dalam satu cluster.
  • Heterogenitas external (between cluster) yaitu perbedaan antara cluster yang satu dengan cluster yang lain.

Metode Analisis Cluster

  1. Analisis Cluster Hirarki

Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam “pohon”, di mana ada hirarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip. Secara logika semua objek pada akhirnya akan membentuk sebuah cluster. Dendogram biasanya digunakan untuk membantu memperjelas proses hirarki tersebut.

Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative (pemusatan) dan divisive (penyebaran). Dalam metode agglomerative, setiap obyek atau observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap selanjutnya, dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah cluster baru demikian seterusnya. Sebaliknya, dalam metode divisive kita beranjak dari sebuah cluster besar yang terdiri dari semua obyek atau observasi. Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya kita pisahkan demikian seterusnya. Dalam agglomerative ada lima metode yang cukup terkenal, yaitu: Single Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.

  • Single Linkage

Prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan demikian saterusnya.

  • Complete Linkage

Berlawanan dengan Single Linkage prosedur ini pengelompokkannya berdasarkan jarak terjauh.

  • Average Linkage

Prosedur ini hampir sama dengan Single Linkage maupun Complete Linkage, namun kriteria yang digunakan adalah rata-rata jarak seluruh individu dalam suatu cluster dengan jarak seluruh individu dalam cluster yang lain.

  • Ward’s Method

Jarak antara dua cluster dalam metode ini berdasarkan total sum of square dua cluster pada masing-masing variabel.

  • Centroid Method

Jarak antara dua cluster dalam metode ini berdasarkan jarak centroid dua cluster yang bersangkutan.

2. Analisis Cluster Non-Hierarki

Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster atau yang lain). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hirarki. Metode ini biasa disebut dengan K-Means Cluster.

Kebalikan dari metode hirarki, metode non-hirarki tidak meliputi proses “treelike construction“. Justru menempatkan objek-objek ke dalam cluster sekaligus sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster selanjutnya dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada cluster asalnya.

Metode non — hirarki cluster berkaitan dengan K-means custering, dan ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi pada satu cluster.

  • Metode Sequential Threshold

Metode Sequential Threshold memulai dengan pemilihan satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.

  • Metode Parallel Threshold

Metode Parallel Threshold merupakan kebalikan dari pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.

  • Optimization

Metode ketiga adalah serupa dengan kedua metode sebelumnya kecuali bahwa metode ini memungkinkan untuk menempatkan kembali objek-objek ke dalam cluster yang lebih dekat.