Classification(Sınıflama)
Veri setinde bulunan her örneğin bir dizi niteliği vardır ve bu niteliklerden biri de sınıf bilgisidir. Hangi sınıfa ait olduğu bilinen nesneler (öğrenme kümesi- training set) ile bir model oluşturulur Oluşturulan model öğrenme kümesinde yer almayan nesneler (deneme kümesi- test set) ile denenerek başarısı ölçülür.
Clustering(Kümeleme)
Genelde K-Means algoritması kullanılır ve veri kümesini birbirinden ayrık kümelere böler. K değişkeninin başta belirtilmesi gerekir.
K-means kümeleme algoritmasının adımları;
Belirlenecek küme sayısı k seçilir. Veri kümesinden k adet örnek başlangıç küme merkezleri olarak rastgele seçilir. Öklid mesafesi kullanılarak kalan örneklerin en yakın olduğu küme merkezleri belirlenir. Her küme için yeni örneklerle küme merkezleri hesaplanır. Eğer kümelerin yeni merkez noktaları bir önceki merkez noktaları ile aynı ise işlem bitirilir. Değilse yeni küme merkezleri ile 3 adımdan itibaren işlemler tekrarlanır.
Bir sonraki yazımda 4.sınıf 1.dönem, Data Mining dersinde yaptığım "194 ülkenin bayrak renklerine göre hangi dil ve dinin baskın olduğu bilgisinin sınıflama ve kümeleme metodlarıyla bulunması" konulu proje örneğini yayınlayacağım.
Ekran görüntüsü: