K-MEANS
Dalam system klasifikasi terdapat 2 jenis klasifikasi yaitu:
- Supervised classification
- Unsupervised classification
Clustering dapat dianggap yang paling penting dalam masalah unsupervised learning. Sebuah cluster merupakan kumpulan objek-objek yang "sama" diantara mereka dan "berbeda" pada objek dari cluster lainnya.
K-Means merupakan algoritma untuk cluster n objek berdasarkan atribut menjadikan k partisi, dimana k < n. Secara Umum K-Means clustering merupakan salah satu metode data clustering non-hirarki yang mengelompokan data dalam bentuk satu atau lebih cluster/kelompok.
Tujuan K-Means
Tujuannya adalah untuk mendapatkan kelompok-kelompok dimana dalam 1 kelompok, memiliko tingkat homogen yang tinggi dan memiliki tingkat heterogen yang tinggi antar kelompok.
Analisis Cluster K-Means
Analisis Cluster K-Means adalah teknik statistika yang berguna untuk mengelompokkan objek ke dalam K-Cluster yang telah ditentukan iawal dimana setiap objek:
- Mempunyai tingkat homogenitas yang tinggi dalam satu kelompok.
- Mempunyai tingkat heterogenitas yang tinggi antar kelompok.
Algoritma K-Means Clustering
Langkah-langkah dalam Algoritma K-Means Clustering:
1) Menentukan jumlah cluster.
2) Menentukan nilai centroid.
Dalam menentukan nilai centroid untuk awal iterasi, nilai awal centroid dilakukan secara acak. sedangkan jika menetukan nilai centroid yang merupakan tahap dari iterasi, maka digunakan rumus sebagai berikut:
3) Menghitung jarak antara tiitk centroid dengan titik tiap objek
4) Pengelompokan objek untuk menentukan anggota cluster adalah memperhitungkan jarak minimum objek.
5)kembali ke tahap 2, dilakukan perulangan hingga nilai centroid yang dihasilkan tetap dan anggota cluster tidak berpindah ke cluster lain.
Transformasi Data
Metode K-Means Clustering hanya bisa mengolah data dalam bentuk angka, maka untuk data yang berbentuk nominal harus di Inisialisasikan terlebih dahulu dalam bentuk angka. Langkahnya adalah:
- Uruktan data berdasarkan frekuensi kemunculan.
- Inisialisasikan data tersebut mulai dari data tertinggi dengan nilai 1, kemudian data selanjutnya 2, 3 dan seterusnya
Tidak ada komentar:
Posting Komentar