ARAMA

Sponsorlar

Veri Madenciliği

08 Ekim 2013 tarihinde Emre ÇİNTAŞ tarafından yazılmıştır.

Günümüzde kullanılan veri tabanı yönetim sistemleri eldeki verilerden sınırlı çıkarımlar yaparken geleneksel çevrimiçi işlem sistemleri (on-line transaction processing systems) de bilgiye hızlı, güvenli erişimi sağlamaktadır. Fakat ikisi de eldeki verilerden analizler yapıp anlamlı bilgiler elde etme imkanını sağlamakta yetersiz kalmışlardır.

Verilerin yığınla artması ve anlamlı çıkarımlar elde etme ihtiyacı arttıkça uzmanlar Knowledge Discovery in Databases (KDD) adı altından çalışmalarına hız kazandırmışlardır. Bu çalışmalar sonucunda da veri madenciliği (Data Mining) kavramı doğmuştur. Veri madenciliğinin temel amacı, çok büyük veri tabanlarındaki ya da veri ambarlarındaki veriler arasında bulunan ilişkiler, örüntüler, değişiklikler, sapma ve eğilimler, belirli yapılar gibi bilgilerin matematiksel teoriler ve bilgisayar algoritmaları kombinasyonları ile ortaya çıkartılması ve bunların yorumlanarak değerli bilgilerin elde edilmesidir.

Tanım

İlişkisel veri tabanı sistemleriyle ulaşılan veriler tek başına bir anlam ifade etmezken veri madenciliği teknolojisi bu verilerden anlamlı bilgi üretilmede öncü rol oynamaktadır. Aşağıda bazı veri madenciliği tanımlarına yer verilmektedir.

1. “Veri madenciliği; veritabanında bilgi keşfi (KDD), eldeki verilerden önceden bilinmeyen fakat potansiyel olarak yararlı olabilecek bilgileri çıkarmaktır. Bu kümeleme, veri özetlemesi, öğrenme sınıflama kuralları, değişikliklerin analizi ve sapmaların tespiti gibi birçok farklı teknik bakış açısını içine alır.”

2. “Veri madenciliği, otomatik veya yarı otomatik çözüm araçları (tools) ile büyük ölçeklerdeki verinin anlamlı yapılar ve kurallar keşfetmek üzere araştırılması (exploration) ve analiz edilmesidir.”

3. “Veri madenciliği çok büyük tabanları içindeki veriler arasındaki bağlantılar ve örüntüleri araştırarak, gizli kalmış yararlı olabilecek verilerden değerli bilginin çıkarılması sürecidir.”

4. “Veri Madenciliği, büyük veri ambarlarından daha önceden bilinmeyen, doğru ve eyleme geçirilebilir bilgiyi ayrıştırma ve çok önemli kararların alınması aşamasında ayrıştırılan bu bilgiyi kullanma sürecidir.” Yukarıdaki tanımları toplayıp veri madenciliği kavramına ek bir tanım daha getirilebilir. Veri madenciliği; matematiksel yöntemler yardımıyla, biriken veri yığınları içerisinde bulunan dataların birbirleriyle ilişkisini ortaya çıkartmak için yapılan analiz ve kurulan modeller sonucunda elde edilecek bilgi keşfi sürecidir. Veri madenciliğinin, disiplinler arası bir teknoloji olarak dört ana başlıktan oluştuğu kabul edilmektedir. Bunlar sınıflama, kategori etme, tahmin etme ve görüntülemedir. Bu dört temel dışında istatistik, makine bilgisi, veritabanları ve yüksek performanslı işlem gibi temelleri de içerir.

Tarihsel Gelişim

Veri madenciliğinin kavram olarak oluşması 1960’lı yıllara kadar dayanmaktadır. Bu dönemlerde veri taraması (data dredging), veri yakalanması (data fishing) gibi isimler verilmiş ve bilgisayar yardımıyla gerekli sorgulama (query) yapıldığında istenilen bilginin elde edilebileceği düşünülmüştür. Fakat 1990’lar geleneksel istatistiksel yöntemlerinin yerine algoritmik bilgisayar modülleri ile veri analizinin gerçekleştirilebileceğinin kabul edildiği yıllar olmuştur.

Kullanım Alanları

Tarihsel süreç, gelişen teknoloji ile veri madenciliğinin işlevliğini etkin bir şekilde sürdürdüğünü göstermektedir. Veriler çok hızlı bir şekilde toplanabilmekte, depolanabilmekte, işlenebilmekte ve bilgi olarak kurumların hizmetine sunulabilmektedir. Günümüzde bilgiye hızlı erişim, firmaların sürekli yeni stratejiler geliştirip etkili kararlar almalarını sağlayabilmektedir. Bu süreçte araştırmacılar, büyük hacimli ve dağınık veri setleri üzerinde firmalara gerekli bilgi keşfini daha hızlı gerçekleştirebilmeleri için veri madenciliği üzerine çalışmalar yapmışlardır. Tüm bu çalışmalar doğrultusunda veri madenciliği günümüzde yaygın bir kullanım alanı bulmuştur. Hangi alanlarda veri madenciliğinin kullanıldığı belli bir şablon dahilinde aşağıda verilmiştir.

Perakende/ Pazarlama

Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması,

Tüketicilerin demografik karakteristikleri arasında örüntü elde edilmesi,

E-posta kampanyalarına hangi tip müşterilerin tepki verebileceğinin tahmin edilmesi,

Pazar analizi yapılarak piyasaya sürülecek bir ürüne verilecek tepkilerin tahmin edilmesi

Bankacılık

Kredi kartı kullanımı sonucunda dolandırıcılık durumlarının tespit edilmesi,

Bankaya sadık müşteri portföyünün oluşturulması,

Hangi kullanıcı gruplarının kredi kartı harcamalarını yüksek tuttuğunun belirlenmesi,

Farklı finansal göstergeler arasındaki gizli korelasyonların bulunması,

Tarihsel pazar verileri analiz edilerek belirli kuralların tespit edilmesi,

Sağlık hizmetleri ve sigortacılık

Sigorta poliçesi üzerinden ödenecek para analizinin yapılması,

Hangi tip müşterilerin hangi tür sigorta poliçesi alacağının tahmin edilmesi,

Riskli müşterilerin davranışlarının tespit edilmesi,

Dolandırıcılık davranışlarının tespit edilmesi,

Tıp

Hasta tepkilerinin tahmin edilip karakterize edilmesi,

Farklı hastalıklar üzerinde yapılan başarılı tıbbi tedavilerin tanımlanması,

Demografik ve tarihi veriler ışığında bölgelerin incelenerek yayılması, muhtemel hastalıkların potansiyel risklerinin tahmin edilmesi,

Ulaştırma

Hangi tip araçların uzun ya da kısa dağıtım kanallarında yol alacağının belirlenmesi,

Yük modeli analizinin yapılıp yükleme durumunun saptanması,

Eğitim

Hangi tip öğrenci için hangi tür eğitim modelinin uygulanması gerektiğinin belirlenip eğitimde başarıyı artırıcı durumların saptanması,

Öğretmen-ortam-öğrenci ilişkisi içerisinde verimlilik artışını sağlayacak değişikliklerin tespit edilmesi,

Ekonomi

Eldeki ekonomik verilerden tespitler çıkartılıp, eğilim ve düzensizliklerin tespit edilmesi,

Geçmiş yılların Gayri Safi Milli Hasıla (GSMH) verileri göz önünde tutularak yeni dönem ülke ekonomisi için ekonomik politikalar oluşturulması ve faiz, enflasyon oranı gibi veriler hakkında senaryo testi tahmininin yapılması,

Güvenlik

Uzaktan algılama ile yüksek çözünürlükte elde edilen görüntü datasını değerlendirerek düşman kuvvetlerin nerelerde hangi araç ve teçhizatlarda yoğunlaştığı tespit edilip konuşlanmaya uygun arazi tiplerinin belirlenmesi,

Anahtar kelimelerin tespit edilip İnternet’te taranarak lehte ve aleyhte propaganda yapan sayfaların belirlenmesi,

Elektronik ticaret

e-CRM uygulamalarının yönetimi,

Web sayfalarına yapılan ziyaretlerin çözümlenmesi.