Brain Storm for Big Data – Veri Madenciliği
Cloud teknolojinin hızla ilerlemesinin bir sonucu olarak verilerinde artarak big dataya dönüşmesiyle veri madenciliği doğdu. Geleceğin gözde mesleklerinden biri şüphesiz Veri Madenciliği olacak.

Büyük Veri
Big Data, Gelişen teknolojiyle birlikte günlük kullanılan akıllı cihazlar ve uygulamaların sayısı da hızla artış göstermektedir. Bu artışa bağlı olarak depolama ve depolanacak büyük miktarda verinin yönetimi ile ilgili problemler ortaya çıkmaktadır.
2010 yılından günümüze Cloud Teknolojinin gelişmesine paralel olarak depolama sorunu büyük ölçüde çözümlenmiş olsa da depolanan bu büyük verinin işlenmesi ve anlamlı bir şekilde yorumlanabilir duruma getirilmesi ile ilgili problemler kendini göstermeye başladı.
Bu makalede Büyük Veri üzerine birlikte beyin fırtınası yapacağız. Örnek olarak Bulut Teknolojiyi sonuna kadar kullanan birkaç şirket üzerinden anlatalım. İlk örnek olarak Facebook‘u ele alacak olursak.
Bulut teknolojinin önde gelen kullanıcılarından Facebook.Com sunucu ve storage altyapısının büyük kısmını Akamai Corp. adlı Cloud şirketinden sağlamaktadır.
Hatta geçtiğimiz günlerde şöyle bir olayla karşılaştım, Sanal Windows 2012 Data Center Edition güncellemelerini Firewall üzerinden takip ettiğimde Microsoft’un, güncelleme dosyalarını Akamai.Net üzerinden çektiğine şahit oldum. Üstelik Akamai’nin Türkiye’de konuşlandırdığı sunucularından download ettiğini gördüm.
DNS adresini çözümlediğimde ise IP adresini Facebook olarak teyit ettim. Bunun anlamı, Microsoft ile Facebook aynı fiziksel sunucu üzerinde buluştuğunu ancak farklı sanal sunuculardan yayın yaptıklarını gösterir.
Bulut teknolojisini kısaca özetleyip makalemize devam etmek gerekirse, sadece uygulama ve yazılım geliştirerek hiçbir sistem donanımı ve network altyapısına sahip olmadan sadece kiralama yoluyla size tüm bu saydıklarımı belirli kapasite ve belirli süre zarfında kullanım hakkı tanıyan sanal sistemlerdir.
Özünde Grid yapıda bir araya getirilmiş Cluster sunucular üzerinde çalışan sanal sunucular vardır. Sözleşme şartlarına göre bu sanal sunucunun tüm yetki ve yönetimi size bırakılır ve talep edilen bant genişliği atanarak internet ortamında hizmet vermesi sağlanır.
Bulut teknoloji sayesinde düşen maliyetler ve artan fiyat avantajlarıyla daha fazla yatırım ve uygulama geliştirme imkanı bulan IT şirketleri dev ölçeklerde veri biriktirmeye başladılar. Ancak bir süre sonra çok büyük kapasitelerde veri depolanmasına karşın bu veriler yeterince işlenemediğinden değersiz data-çöp dağları ortaya çıkmıştır. Sonrasında “veri madenciliği” olarak ta bilinen meslek dalı ortaya çıkmıştır.
Veri madenciliği, hem sistem uzmanlığı hem de network uzmanlığı ve hatta yazılım geliştirme uzmanlığına ihtiyaç duyduğu için Veri Madencilerinin sayısı çok azdır. Dünyanın önde gelen üniversiteleri bu meslek dalı üzerine bölüm açarak eğitime başladı hatta ilk mezunlarını bile verdi. Ancak ülkemizdeki üniversitelerin Veri Madenciliği ile ilgili bir atılımları olmadı.
Veri madenciliği ve big data yönetimi dünya genelinde ve özellikle de gelişmiş ülkelerin IT sektöründe önümüzdeki 20 yıl süresince en çok aranan meslek dalı olarak karşımıza çıkacaktır. İşletmeler ve kurumlar şu hali ile ellerinde değersiz yığınlar halindeki verileri depolamakla meşgul. Bu verileri işlemediğiniz sürece amiyane tabirle sadece veri hamallığı yapmaktan bir adım öteye geçemeyeceksiniz.
IBM’in 2015 Big Data Raporu
Dünya genelindeki tüm veri üretiminin önümüzdeki 5 sene zarfında yıllık 35 ZB (1 zettabyte = 1.073.741.824 terabyte) artış göstereceğini ve toplama endekslendiğinde %60‘lık bir dilime denk geldiği ifade edilmektedir.
Bununla birlikte salt boyutu artan medya dosyalarının (yüksek çözünürlüklü resim, ses ve HD video dosyaları) sayısıda artacağından yıllık 2.7 ZB boyutuna ulaşması düşünülmektedir. Ayrıca toplam artışı günlük bazda değerlendirecek olursak tüm dünyada 2 günde yaklaşık 5 EB (1 Exabyte = 0.1 Zettabyte) olacağı değerlendiriliyor.
Bu big datanın içerisinde Mobil ve akıllı cihazların sayısının artışına, imaj ve medya dosyalarının neden olduğu düşünülmektedir. Sosyal medyanın kullanıcıları buna yönlendirdiği ve bu sebeple önümüzdeki yıllarda da big data içerisindeki payı istikrarlı bir şekilde artacaktır.
IBM’in Big Data üzerine 2011 Maliyet Analizi
2011 yılında günlük 100 TB veri artışı, 294 milyar E-posta, 230 milyon tweet ve 4.8 trilyon reklam gösterimi yapılmaktaydı. Mobil akıllı cihazların alışveriş sistemine entegre olmasıyla birlikte yine 2011 yılı içerisinde mobil cihazlar üzerindeki reklamlara 2.1 milyar $ harcanırken 2012 yılı için kişisel bilgisayarlar üzerinde gösterilen reklamlara 83.2 milyar $ harcanmıştır.
2011 yılı için mobil kullanım günümüzdeki kadar yaygın olmadığından harcama ve yatırımlar arasında uçurum vardı. Ancak bugün mobil kullanım ve harcamalar online kullanım oranını neredeyse yakaladı ve aradaki uçurumu kapattı. Kullanıcıların para harcamak ve alışveriş yapmak için daha çok mobil uygulamalara yönelmesi en baş etkendir.
Alışveriş şirketlerinin mobil uygulamalara özel ürün indirimleri ise kullanıcıları online mobil alışverişe yönlendirmekte etkili olmuştur. Google Seo, tercihini mobil uygulama ve mobil görünümden (bootstrap) yana kullanmıştır.
Video Paylaşım sitesi Youtube’u ele alacak olursak; Big Data üzerinde veri madenciliğini en başarılı şekilde uygulayan sitelerden bir tanesidir. İzlediğiniz videoları daha upload aşamasında analiz ederek uygunsuz içerik yada telif hakkı olup olmadığını tespit eden bir robota sahiptir.
Benzer şekilde başka bir robot uygulama ile gönderilen video aksiyon mu, dramatik mi, sanatsal mı olduğunu belirliyor ve kategorize ederken kullanıcıların girmiş olduğu parametrelerin yanısıra robotun tespit ettiği verileride göz önünde bulunduruyor ve bu şekilde kategori belirleniyor.
Aynı şekilde Linked.in sosyal iş ağı sizin bilgi-becerilerinizden, eğitiminizden, iş çevrenizden ve daha adını sayamayacağımız bir çok parametreden faydalanarak size tekliflerde bulunmaktadır. Standart Giriş Paketinde bu tekliflerin bir çoğuna erişemezken, lisans ücreti ödeyen premium kullanıcılara çeşit çeşit tekliflerde bulunmaktadır.
Bu teklif kimi zaman iş teklifi, kimi zaman eğitim, arkadaş, topluluk ya da iş kolu teklifi olabiliyor. Veri madenciliğini en iyi uygulayan ve ekonomik olarak karşılığını misliyle kazanan bir sistemdir Linked.in.
Üzülerek söylemeliyim ki ülkemizde henüz model-proje yada başlangıç aşamasında Veri Madenciliği. Şimdilik Kamu Kurumları arasında en başarılı www.turkiye.gov.tr olarak bilinen e-devlet projesi, Adalet Bakanlığı Uyap projesi ve İçişleri Bakanlığı Nüfus Genel Müdürlüğünün Kimlik Paylaşım Sistemi sayılabilir.
Özel Kurumlarda Veri Madenciliği daha çok Banka ve Online Alışveriş Sektöründe boy göstermektedir. Bankalar, kredi kartı kullanıcılarının yaptığı alışveriş türüne göre indirim, para-puan gibi uygulamalar yapmaktadır.
2015 yılı içerisinde HOPİ adlı alışveriş-puan-indirim uygulaması veri madenciliği dalında en başarılı uygulama denebilir. Üye müşterilerin yaptığı alışverişlere göre mağazaya ya da müşteriye özel indirim ve puan uygulaması yapmaktadır.
Ülkemizde henüz emekleme aşamasında olan Veri Madenciliği üzerine Üniversitelerde bölümler açılması veya en azından uygulamalı derslerin oluşturulması, özel Bilişim Akademilerinde bu yönde yeni eğitim modellerinin oluşturulması sağlanmalıdır.