Big Data’yı (yazının devamında BD olarak ifade edeceğim) bisiklete bindirmeden önce bu arkadaşım kim olduğundan biraz bahsetmek lazım. Türkçe adı ile “Büyük Veri” kavramına denk gelen BD, işlenmemiş yoğun veri anlamına gelmektedir. “Big” kavramı onun disklere, bilgi depolama birimlerine sığmayacak kadar büyük olduğunu değil sadece geleneksel yöntem ve araçlarla işlenmemiş ham veri olduğunu dile getirir. BD data genellikle nicelikseldir yani sayı veya adetlere dayanır. Onu önemli kılan tarafı da işlendiği takdirde niteliksel hale dönüşebilmesi yani bize istatistiğin ötesinde belirgin bir resim ortaya çıkarabiliyor olmasıdır.
Günümüz dünyasında, bilgi çağı olarak ifade edilen bugünlerde veri dediğimiz kavram artık her yerdedir. Biz bile gün içinde tek başımıza her gün her an aslında birer BD üreticisi konumuna geldik diyebiliriz. İnternetin hayatın her noktasına temas eder hale geldiği dünyada bir birey yaptığı her alış verişte, internetteki her tıklamasında, giriş çıkış yaptığı her metroda, otobüste, geçtiği her otoban gişesinde yani aklınıza gelen sayılabilecek her hamlesinde aslında bir BD üreticisi konumundadır. Hatta sadece bir yere dokunmanız bile bir BD verisi olabilir.
Kısaca BD’nın tarihine baktığımızda ilk kullanıldığı yılın 2009 olduğu söylenebilir. 2009 yılında H1N1 virüsünün yayılması ile ilgili bir veri elde edilmesi çabası sonucu Google’ın yaptığı bir çalışma ilk defa işlenmemiş bir veri topluluğunun derlenmesi ve görülmek istenen büyük resmin ortaya çıkması olarak gösterilebilir. Özetle; Google internet üzerinden arama yapılan kelimeler ile ilgili 2008 ve 2007 yılında elde ettiği modeli 2009 yılında H1N1 virüsünün belirtilerini araştıran internet kullanıcılarının tespiti için kullanmış ve virüsün yayılma hızı ve haritası böylece ortaya çıkarılmıştır. Böylece kamu sağlığı alanında sahaya inmeden bir veri akışı elde edilmiş ve bu veriler derlenerek virüsün önüne geçilmesi için yapılacak hamlelerde etkin şekilde kullanılmıştır.
Sağlık alanında çarpıcı bir BD uygulaması örneği vererek konuya devam edebilirim.
Projenin adı PathoMap Project. Projenin işleyişi ve amacı kısaca şöyle; Her gün 5.5 milyon insanın kullandığı New York’un metro sisteminde yer alan mikrobiyolojik oluşumların incelenmesi temelinde şekillenen bir araştırma. Proje kapsamında New York’taki tüm metro istasyonlarından (466 istasyon) insanları dokunduğu temas ettiği, gezdiği her yerden örnekler alınıyor. Bu örnekler mikrobiyolojik bakteri içerdiği gibi aynı zamanda insan DNA’sı da içeriyor. Bakteri ve DNA çeşitliliği sayısı toplam yaklaşık 10 milyon adet. Bu bakteriler ve DNA örnekleri her bir istasyon için gruplandırıldığında ve harita üzerine yerleştirildiğinde ortaya çıkan tablo aslında bize bir çok şeyi gösteriyor. Demografik yapıya göre yaygın hastalık tehlikeleri, bakteri tür ve yoğunluğuna bağlı olarak bölgenin yaşam koşulları, DNA bağlamında bazı hastalıklara veya bakterilere yatkınlık veya hastalanma tehlikeleri,…. gibi bilim insanlarının çeşitlendirebileceği bir çok veriyi bu proje ile elde etmiş oluyorsunuz. Ulaşım tabanlı kamu sağlığı adına yapılan bu veri derleme çalışması çarpıcı sonuçlar içeriyor. Detaylı bilgi için şu link ziyaret edilebilir: PathoMap Projesi
Günümüzde dünyada BD derlemeleri daha bir çok alanda kullanılmaktadır. BD’nın önemi geniş alanda ortaya çıkan verinin ölçüm yapan basit cihazlar ya da tutulan kayıtlar sayesinde sahaya inmeden elde ediliyor olmasıdır. Geniş alan kavramı aynı zamanda insanların yer değişimini, hareketliliği ve şehirleri akla getiriyor. Bu kavramların da ortak buluşma noktası ulaşımdır. Metro sistemleri, otobüs sistemleri, özel araç hareketleri, bisikletli ulaşım aktivitesi günümüz teknolojileri ile rahatça ölçülebilir durumdadır. Buna ilave olarak ulaşım esnasında yaşanan kazalar, navigasyon harita verileri de bu ölçümlere dahildir. Büyük şehirlerin büyük nüfusları dolayısı ile büyük ulaşım sorunları vardır ve bu sorunlar ancak anlık olarak takip edilebildiği ve ölçülebildiği miktarda size sorunu ve çözüm yollarını gösterebilir.
Ulaşım konusunda örneklerden birisi yine bir BD uygulama ve kaynak cenneti olan New York’tan. New York’taki ulaşım altyapısının fiziki verileri New York Belediyesi tarafından halihazırda bilinen bir veri.
Aynı zamanda bu altyapı üzerinde kullanılan araç verileri de türlerine göre trafiğe kayıt ve ulaşım birimlerine ait araç sayıları da kolay elde edilebilir, derlenmiş veri kapsamında.
Burada önemli olan nokta şu. Bu araçlar bu altyapı üzerinde nereden nereye ve kaç km sürat ile hareket ediyor? New York şehrini yönetenler 2012 yılında şehir içinde hareket eden tüm (özel araç dışındaki ) araçların hareket verilerinin iletilmesi için bir sistem oluşturdular ve bu verilerinde düzenli olarak açık veri havuzu şeklinde bir yerde toplanmasını sağladılar. Böylece açık veriler bu konuda araştırma yapan veya çözüm odaklı sorun tespiti yapmak isteyenlerin kullanımına açıldı. Sonrasında çeşitli uygulamalar ile önemli tespitler elde edildi. Örneğin Taksi ve limuzinlerin hareket verileri ile New York’un ulaşımda yoğun saatleri (Rush Hour) ortaya çıkarıldı. Bu basit bir veri derlemesi olarak gelebilir ancak açık veri portalı sayesinde daha önemli sonuçlar da ortaya çıktı.
Örneğin New York polis departmanının tuttuğu trafik kazaları verileri NYPD sitesinden PDF formatında indirilebiliyor. Bu kaza verileri güncel tutuluyor ve bu aynı zamanda bir kanun ile mecbur kılınmış durumda.
Bu güncel kaza verileri içerisinden bisikletlilerin araçlar ile yaşadığı kaza verileri süzüldüğünde ortaya şöyle bir harita çıktı.
Haritada kırmızı ile belirtilen yerler sıkça bisiklet kazasının yaşandığı noktaları gösteriyor. İşte bu BD’nın bize sunduğu büyük resim. Bu resim sayesinde New York belediyesi kırmızı bölgelerdeki araç yolları ile bisiklet yollarının kesişim noktalarında altyapı ya da sinyalizasyon anlamında önlemler alması gerektiğini görebiliyor. Önlemlerin alınması sonrasında ise kayıtlar güncellenerek önlemlerin etkin bir sonuca sebep olup olmadığı ya da ilave tedbirlere gerek duyulup duyulmadığı görülebiliyor. Yani Big Data New York’ta bisiklete biniyor. Böylece insanın değeri önem kazanıyor ve belki de bir çok insanın hayatı bu şekilde kurtuluyor.
Son örnek proje yine bir ulaşım BD’sının görselleştirilmesi üzerine. Takip edenler bilecektir ” ‘Yol Diyeti’ ve Demokratik Ulaşım Hakkı” başlıklı yazımda şehrin yollarını bir insanın damarlarına benzetmiştim ve trafik tıkanıklığını da damar tıkanıklığı diye nitelendirip trafiğe çözümün aynı kardiyolojik çözüm gibi olması gerektiğini söylemiştim. Tam da verdiğim örneğe denk gelecek bir BD derlemesi ile karşılaştım. Bu sefer Londra’dayız.
BD görselleştirmesinin adı “Tube Heartbeat” Londra Üniversitesi’nde Oliver O’Brien Londra’nın metro hatlarını birer kalp damarı gibi düşünerek her gün 4.8 milyon yolcunun kullandığı bu yollardaki yolcu sayısına dair verileri kullanarak şehrin ulaşımdaki kalp atışı görüntüsünü elde etmiş. Damar olarak nitelediği yollarda yoğunluk artınca damar basıncı artıyor ve damarlar genişliyor. Yolcu sayılarını da kan miktarı olarak hayal etmiş. Ortaya çıkan görsellik bize Londra’da hangi saatlerde hangi istasyonlarda ve hangi hatlarda yoğunluğun arttığını açıkça gösteriyor. Bu da BD’nın aynı zamanda etkileyici görselleştirilebilir özelliğini de gösteriyor. Proje detaylı olarak şu adreste anlatılmakta : Tube Heartbeat
BD’nın öneminin ve günümüzde ülkemizde kullanım olanaklarının anlaşıldığını söylemek maalesef çok güç. BD’nın öneminin anlaşılması için öncelikle düzenli ve güncel veri toplama ve yayma işleminin yapılması gerekmekte. Bugün ulusal veri işleme konusunda en büyük ve tek devlet kurumu olan TÜİK’in sitesinde bile bir çok konuda güncel bilgi bulmanın zorluğu ortada. Oysa ilk yapılacak iş bilginin derlenmesi konusunda devletin tekel olmaktan çıkartılmasıdır. Derleme ile zaman kaybetmeden veriler düzensiz şekilde zamana bağlı istatistik olarak açık kaynak şeklinde yayınlansa bir çok sivil kuruluş ya da bireyler bu verileri işleyebilir ve kullanışlı hale getirebilir. Açık kaynak BD’nın bir önemi de bilimsel araştırmalarda yön verici bilginin elde edilmesi konusundaki rolüdür.
Kurumların veri olarak şeffaflaşmasının demokrasiye olan katkısını da ifade etmeden bitirmeyelim. Aşağıda New York Belediyesi’nin yaptığı harcamaları gösteren 2015 yılı verisini görüyorsunuz. Bu da kurumların hesap verebilirliği ve şeffaflık adına önemli bir duruma işaret ediyor.
Son söz de bu yazıyı okuyan ve henüz üniversiteye yeni başlamış kişiler için. BD’nın yaygınlaşması ve gerekliği sayesinde artık dünyada “Big Data Mining” yani “Büyük Veri Madenciliği” diye bir iş kolu da oluşmuş durumda. BD Madencileri internette ve veri tabanlarında dağınık halde bulunan verileri toparlayarak BD derlemek isteyen kişi ve kurumlara iletiyor. Bu konuya ilgi duyanlara duyurulur.