Veriyi tekrar kullanma

Aslında buraya kadar anlatılan tüm faaliyetlerinin amacının araştırma verilerinin tekrar kullanılabilmesi için olduğunu söylemek yanlış olmaz. Veriyi yeniden kullanmanın faydaları açıktır [1]. Örneğin daha önceden kullanılmış veriler ile yeni çalışmalar yapmak ve/veya birleştirilerek oluşturulan yeni ve daha büyük veri setleri ile daha hassas bilimsel bulgulara ulaşmak mümkün olabilir. Aynı şekilde bazı verileri tekrar toplamaya gerek kalmadığından araştırma fonları çok daha etkin kullanılmış olur.

Verileri yeniden kullanmadan önce dikkat edilmesi gereken hususlar şöyle özetlenebilir [2]:

  • Veri setlerinin lisans ve yeniden kullanım şartlarını kontrol etmek.
  • Verilerle ilgili hangi dokümantasyon ve üstveri bilgilerinin olduğunu kontrol etmek.
  • Araştırma için veri setlerindeki onam derecesini kontrol etmek, eğer onam derecesi yeterli değilse veri setini yükleyen araştırmacı ile temasa geçip katılımcılardan tekrar onam almanız gerekbilir.
  • Veri formatlarını kontrol etmek. Veri formatları çalışmanız için uygun değilse, bu formatlardan sizin çalışmanız için gerekli formata dönüştürülüp dönüştürülemeyeceğini kontrol etmek.
  • Hassas veri içeren verilerin saklama koşullarını kontrol etmek.

Veriyi yeniden kullanabilmenin ilk şartı, aradığının verinin bulunabilir ve erişilebilir olmasıdır. FAIR prensiplerinin (findable=bulunabilir & accessible=erişilebilir) önemi de burada tekrar ortaya çıkmaktadır. Her ne kadar Aperta Türkiye’deki ilk araştırma verisi ambarı olsa da, Türkiye İstatistik Kurumu (TÜİK) gibi ulusal veya Birleşmiş Milletler Kalkınma Programı gibi uluslarlararası kuruluşların verilerini de araştırmacılar sıklıkla kullanmaktadır [3, 4]. Türkiye dışında ise birçok veri ambarı mevcuttur [5].

Veri arama arayüzleri her bir veri ambarında farklı olmakla birlikte anahtar kelime üzerinden arama yapmak mümkündür. Ancak arama yapılan disipline göre detaylı arama ekranında üstveriye göre farklı seçenekler çıkacaktır.

Örnekler:

Archaeology Data Service [6], arkeoloji ile ilgili verilerin saklandığı ve paylaşıldığı bir veri ambarıdır. Burada üstveriye göre verilerin nerede bulunduğuna (Kıta Avrupasi, İngiliz adaları, Orta Doğu, Asya vb.), hangi zaman kesitine ait olduğuna (tarih öncesi, Roma İmparatorluğu, Orta Çağ, İngiliz tarihi dışı kategorizasyon), verileri çıkartan bilimsel çalışmaya fon sağlayan kurum veya programa göre arama yapılabilmektedir. Hattâ bir olay, obje, tarihi eser vb. gibi alanlar seçilerek de arama yapılabilmekte ve verilere erişilebilmektedir.

Şekil 1 – Archaeology Data Service arama ekranı

Diğer taraftan NASA’nın The Planetary Data System [7] adlı veri ambarı uzay çalışmaları ile ilgili bir veri ambarı olarak çok daha farklı bir şekilde veri sağlamaktadır. Arama ekranında kuyruklu yıldızdan, gezegenlere, uydulara veya tozlara göre arama yapılabildiği gibi, ilgili misyonlara göre de arama yapılabilmektedir.

Şekil 2 – NASA the Planetary Data Service arama ekranı

Aperta’dan da, diğer tüm veri ambarları gibi, çalışmalarınızda kullanmak için veri seti indirilebilmektedir.

Veriyi indirdikten sonra

İlk yapmanız gereken üstveri kayıtlarını dikkatlice okumak olacaktır. Bu kayıt, örneklem, katılımcılar, veri toplama yöntemleri, veri formatı vb. hakkında detaylı bilgi içermelidir. Konunuzu ne kadar iyi bilirseniz bilin, bu ikincil veri setidir. O yüzden aşağıdaki hususlara dikkat etmenizini öneririz:

  • Veri toplama sürecinin tasarımı ve uygulanışı hakkındaki kullanıcı kılavuzlarını okumak
  • Veri toplarken kullanılan cihazlar hakkında bilgi sahibi olmak
  • Anket/mülakat soruları ile ilgili protokolleri okumak
  • Örneklemin hangi şartlarda, neye göre seçildiğini anlamak
  • Verinin orijinal hâli üzerinden ne gibi modifikasyonlar geçirdiğini anlamak (ağırlandırma, anonimleştirme, eksik verilerin tamamlanması vb.)
  • Veri setine ait değişkenlerin nasıl yapılandırıldığını ve ilişkilendirildiğini anlamak.

Bir veri ambarından veri setini indirmiş olmanız, o veri setinin sizin araştırmanız için yeterli olduğu anlamına gelmez. Nasıl ki bir dergide yayınlanmış bir makalede çeşitli hatalar olabiliyorsa, benzer sıkıntılar veri setlerinde olabilir. O yüzden veri setinin güvenilir bir kaynaktan geldiğine, örneklem seçiminin doğru olduğuna, yöntemin uygun olduğuna, verinin tutarlı bir biçimde toplandığına, dokümantasyonun yeterli açıklama içerdiğine emin olmanız gerekmektedir.

Aperta’ya yüklenmiş bir veri seti lisanslanmış olacaktır. Lisansın veriyi kullanma amacınızla örtüştüğünden emin olmalısınız. Örneğin, ticarî amaçlar için kullanıma kapalı bir lisans alındıysa, bu veri setini ticarî amaçlı kullanamazsınız. Bu bilgiler üstveri kayıtlarında görülebilir.

Üstveri dönüştürme

Belli bilimsel camialar ve disiplinler için üstveri standartları olsa da, çalışmaların öznel yapısı sebebiyle bilim insanları farklı üstveriler kullanmaktadır [10]. Hattâ yapılan çalışmalarda genelde laboratuarların kendi çalışmaları için kendi üstveri standartlarını geliştirdikleri gözlenmiştir [8]. Buna rağmen araştırma verisi yönetimi için geliştirmiş çeşitli araçlar yaygın üstveri standartları arasında dönüştürme işlemi gerçekleştirmektedir. Örneğin Norveç Araştırma Verileri Merkezi tarafından geliştirilmiş olan Nesstar Publisher adlı veri yönetimi programı ile üstveri dönüştürme işlemini gerçekleştirebilirsiniz [9, 11]. Nesstar’dan dokümantasyon hazırlama konusunda da faydalanabilirsiniz.

Veri atıfı ve İşbirliği

Son olarak da kullandığınız veri setine çalışmalarınızda atıfta bulunmayı unutmayın. Bu verileri toplayan araştırmacılar, emekleri karşılığı atfı hakediyorlar. Veri atfı ile ilgili detaylar için 6.3 Veriyi duyurma ve veri atıfı bölümüne bakabilirsiniz. Ayrıca, orijinal veri setini yükleyen araştırmacılarla temasa geçip işbirliği seçeneklerini de değerlendirebilirsiniz. Bu veri setini kullanıyorsanız, benzer alanlarda çalışıyorsunuz demektir. İşbirliği yaparak daha büyük ölçekli bir çalışma yapmanız mümkün olabilir. Biliminsanları ile yapılan veri paylaşmaya dair tutumlarla ilgili çalışmalarda; veri atıfı ve işbirliği fırsatları gibi konuları biliminsanlarının veri paylaşma motivasyonlarından biri olarak öne çıkmaktadır [11, 12]. Birlikte etkisi daha yüksek çalışmalar yapmanız mümkün olabilir.

Kaynaklar

[1] Piwowar, H.A. and T.J. Vision. Data reuse and the open data citation advantage. PeerJ, 1:e175,7872013.

[2] University of Leeds. (2019). Find, reuse and cite data.

[3] Türkiye İstatistik Kurumu (2019). Resmi İstatistik Portalı.

[4] Birleşmiş Milletler Kalkınma Programı (2019). Turkey.

[5] Scientific Data. (2019). Recommended Data Repositories.

[6] Archaeology Data Service. (2019). Archives.

[7] NASA. (2019). The Planetary Data System.

[8] Tenopir, C., Allard S., Douglass K., Aydinoglu A. U., Wu L., Read E., et al. (2011). Data Sharing by Scientists: Practices and Perceptions. PLoS ONE. 6(6).

[9] Norwegian Centre for Research Data (2019). Nesstar Publisher.

[10] Heuvel, H. van den, Oostdijk, N.H.J., Sanders, E.P., Lint, V. de. (2015). Data curations by the Dutch Data Curation Service. Overview and future perspective. Article in monograph or in proceedings (Odijk, J. (ed.), Proceeding of Selected Papers from the CLARIN 2014, pp. 54-62)

[11] Lee DJ, Stvilia B (2017) Practices of research data curation in institutional repositories: A qualitative view from repository staff. PLOS ONE 12(3): e0173987. 7

[12] Aydinoglu, A.U., Dogan, G. & Taskin, Z. (2017). Research data management in Turkey: Practices and attitudes. Library Hi Tech, 35(2), doi: 10.1108/LHT-11-2016-0134

* Bu sayfa Orta Doğu Teknik Üniversitesi Bilim ve Teknoloji Politikaları Bölümü öğretim üyesi Arsev Umur Aydınoğlu tarafından 2019 yılında hazırlanmıştır.