Veri analizi

 

Biliminsanları tarafıdan kullanılan analizler, yazılımlar ve hattâ donanımlar sayısızdır. Disiplinden disipline, araştırma sorusundan hipotezlere göre çok farklılıklar gösterebilir. Günümüzde her ne kadar kişisel bilgisayarlarla analiz yapılmaktaysa da, fizik, astronomi, meteoroloji vb. birçok disiplinde dağıtımlı hesaplama veya bulut bilişim gibi bilgisayımsal araçlar da kullanılmaktadır.

 

Dağıtımlı hesaplama, ortak bir hedefe ulaşmak için birden fazla konumdan gelen bilgisayar kaynaklarının birleştirilmesinden meydana gelir. Bu sistemde bilgisayarların aynı ağda bulunma zorunluluğu yoktur. Önemli olan sisteme belirli bir hızda erişme garantisidir [1]. Aşağıdaki şekilde en basit dağıtımlı hesaplama sistemi örnek olarak sunulmuştur [2]. Sistemde bilgisayımsal cihazlar, veri uygulamaları ve bilimsel araçlar birbirlerine entegre bir şekilde çalışabilmektedir.

Şekil 1 – Dağıtımlı hesaplama sistemi

Bulut bilişim ise “bilgi işlem hizmetlerinin (sunucu, depolama, veritabanı, ağ, yazılım, analiz, makine zekâsı ve daha fazlası) İnternet (“bulut”) üzerinden” sağlanmasıdır [3]. Bu iki sistemde de veri analizleri istatiksel hesaplamalar, modellerin çalıştırılması, parametre tahminleri, konumsal verilerin grafiklere aktarılması ve diğer görselleştirmeler için kullanıbilir [1].

Veri analiz edilirken, ilk aşama veri işleme sokulmasıdır. İşleme sokmak kabaca üç parçadan oluşur:

  • veri setinden bir alt küme seçilmesi
  • veri setinin başka veri setleri ile birleştirilmesi
  • veri setinin manipüle edilmesi

Veri Entegrasyonu

Araştırma soruları gerektirdiğinde, araştırmacılar, farklı veri setlerini birleştirerek daha büyük veri setini kullanmak zorunda kalabilirler. Bu bağlamda dikkat edilmesi gereken ilk konu veri provenansıdır (özellikle dönüştürmeler ve kazara yapılan duplikasyonlara) [6]. Üstveri, bağlam, yöntem ve anlam uyumu açısından gözden geçirilmelidir. Bu aşamada ölçü birimlerinin aynılığına (örneğin sıcaklık birimi olarak Celsius – Fahrenheit ayrımına), sayısal hassasiyete (örneğin virgünden sonra kaç birim hassasiyet mevcut ve hatta virgül mü yoksa nokta mı kullanılmış ondalık belirtmek için gibi) ve eksik değerlerin standartize edilmesine bakılmalıdır. Veri setine ait tüm varsayımlar dokümante edilmeli ve gerektiğinde revize edilmelidir. Bu bağlamda veri seti yaşam döngüsünün adımları tekrar edilebilir. Her adımı yeni oluşturduğunuz veri seti açısından değerlendirmek ileriye dönük hataların önüne geçmenize yardımcı olacaktır.

Veri miktarı elbette çok önemlidir ama ihtiyaca göre veri setini küçültmek, işlem süresini azaltabilir. Göçmen bir kuşun üzerine yerleştirilen GPS sensörü verisini düşünelim. GPS her on saniyede bir veri gönderiyor olabilir ama araştırmacı için mevsimsel hareket önemli ise, haftalık ya da aylık veri yeterli olacaktır. Bu durumda veri setinden bir alt küme seçerek, işlenecek veri miktarı önemli ölçüde azaltılabilir ve analiz çok daha hızlı yapılabilir.

Veri setinin birimlerinin değiştirilmesi, farklı sensörlerden toplanan verilerin normalizasyonu ve ham verinin kullanılabilir hâle getirilmesi gibi işlemlerin de tamamlanması gerekecektir. Örneğin:

Veri Gün Ay Yıl Saat Enlem Kuzey Boylam Doğu
130920180318370301145227 13 Eylül 2019 03:18 37o03’01” 14o52’27”
140920180450370302145227 14 Eylül 2019 04:50 37o03’02” 14o52’27”
150920181318370303145227 15 Eylül 2019 13:18 37o03’03” 14o52’27”
160920181611370302145228 16 Eylül 2019 16:11 37o03’02” 14o52’28”
170920180318370304145229 17 Eylül 2019 03:18 37o03’03” 14o52’29”
           

Burada rakamlardan oluşan ve anlamsız gibi gözüken bir dizi rakam, üstveri ve protokol yardımı ile tarih, saat ve coğrafî veri olarak yeniden yazılmıştır. Tablo verisi, insanlar için daha anlaşılırdır.

Benzer şekilde bu veriler görselleştirilebilir de. Grafikler ve haritalar üzerinde de bu veriler görselleştirilebilir. Bugörselleştirmeler, bir anlamda verinin sağlamasını da yapmamıza yardımcı olmaktadır. Anlamsız gözüken bir grafik, belki veri setinin hatalı olduğunu veya bizim dönüştürme yaparken hata yaptığımızı farketmemizi sağlayabilir.  Örneğin aşağıdaki şekil, Türkiye’deki Suriyeli göçmenlerin Trabzon/Çaykara’dan yaptıkları telefon görüşmeleri verisinin güncelleştirilmesidir [4]. Kırmızı renkli çizgiler göçmenlere, mavi renkli çizgiler göçmen olmayanlara aittir. Kesikli çizgiler ise SMS verisidir.

Şekil 2 – Suriyeli göçmenlerin telefon görüşmesi verisi

Analiz Tipleri

Geleneksel istatistikî yöntemlerden ANOVA, MANOVA, doğrusal ve doğrusal-olmayan regresyon ve betimsel istatistikî yöntemlerden gözlemsel veya betimsel istatistik (örneğin çeşitlilik indeksi, küme analizi, temel bileşen analizi) kullanılabilir [1]. Ayrıca zaman serileri, uzamsal analiz, parametrik olmayan yaklaşımlar, risk analizi gibi yöntemlere de başvurulabilir. Özellikle çok büyük veri setlerinde, veri madenciliği ve keşfi ve diğer büyük veri yöntemlerinin, araştırmacılarına çalışmalarında fayda sağlayacağını söyleyebiliriz.

Bazı veri ambarları, kendi görselleştirme desteklerini de vermektedirler. Veri ambarları dışında ise örneğin R isimli açık kaynaklı kodlu istatistik ve grafik yazılımı kullanılabilir. Son yıllarda R kullanımı düzenli olarak artmaktadır [5], özellikle açık kaynak kodu, veri görselleştirme ve Python bilgisayar dili ile uyumu sayesinde bu trendin önümüzdeki yıllarda daha da güçleneceğini söylemek yanlış olmaz.

 

 

 

Şekil 3– R yazılımı ve diğer istatistik yazılımları kullanımı

Elbette, araştırmacılar tescilli ve tescilsiz başka yazılımları da kullanabilirler. Bazı disiplinlerin norm hâline gelmiş tescilli yazılımları kullanıyor olması sıklıkla rastlanan bir durumdur. Ancak, uzun dönemli veri saklama ve yeniden kullanım söz konusu olduğunda açık kaynaklı yazılımların daha doğru bir tercih olduğu söylenmektedir [7] .

Kaynaklar

[1] DataONE. (2012). DataONE Education Module: Analysis and Workflows. DataONE, USA.

[2] İstanbul Teknik Üniversitesi Bilgi İşlem Daire Başkanlığı. (2013). Dağıtımlı Hesaplama Sistemi. İstanbul Teknik Üniversitesi .

[3] Microsoft Azure. (2019). Bulut bilişim nedir?.

[4] Kilic, O.O., Akyol, M.A., Isik, O., Gunel, B., Aydinoglu, A.U., Surer, E., Duzgun, S., Kalaycioglu, S., Taskaya Temizel, T. (2019). Data Analytics without Borders: Multi-Layered Insights for Syrian Refugee Crisis. [Sunulduğu toplantı: Data for Refugees (D4R) Challenge Workshop, Istanbul, Turkey.]

 

[5] Muenchen, R.A. (2019). The popularity of data science software.

[6] DataONE. (2012). DataONE Education Module: Data Entry and Manipulation. DataONE, USA.

[7] Stony Brook University Library (2018). Research data. Stony Brook University, New York.

* Bu sayfa Orta Doğu Teknik Üniversitesi Bilim ve Teknoloji Politikaları Bölümü öğretim üyesi Arsev Umur Aydınoğlu tarafından 2019 yılında hazırlanmıştır.