Giriş
Araştırma verisi, orijinal araştırma bulgularını doğrulamak için toplanmış, üretilmiş, gözlenmiş veya yaratılmış her türlü veriye verilen addır. Araştırma verilerinin dijital formatta olması zorunluluğu yoktur. Laboratuar defterlerinden karalamalara, doku örneklerinden kayalara kadar bir çok şey araştırma verisi olarak değerlendirilebilse de, günümüzde araştırma verileri genel olarak dijitaldir.
Bilimsel araştırmanın temel bileşenleri deney, teori ve veridir. Bazı araştırmacılar bilim tarihini bu bileşenlerin önemine göre sınıflandırmıştır [1]. Günümüz veri-yoğun araştırma dönemi olarak adlandırılmaktayken, daha öncesi için üç dönem tanımlanmıştır: Bilim uzun yıllar boyunca deneysel idi, doğal fenomenlerin tanımlanmasından ibaretti. Son iki yüz yıl ise teorik bilimin ortaya çıktığı dönem olmuştur. Bu noktada modeller, genellemeler ve teori ön plândadır. Bilgisayarların bilimsel araştırmalarda kullanılmasıyla birlikte bilgisayımsal dönem başlar ve karmaşık fenomenlerin simülasyonları yapılabilir hâle gelmiştir.
Son yirmi yıldır içinde yaşadığımız dördüncü paradigma da denilen veri-yoğun araştırma döneminde ise deney, teori ve simülasyonu birleştirmek mümkün oldu. Bu noktada veriler ya çeşitli aygıtlar tarafından toplanmakta ya da bir simülatör tarafından üretilmektedir. Üretilen bu veriler bir yazılım tarafından işlenmekte ve üretilen malûmat ve bilgi bir bilgisayarda veya sunucu da dijital olarak saklanmaktadır. Bu veri yoğun dönemde de veri yönetime dair faaliyetler bilimsel aktivitenin ayrılmaz bir parçası hâline gelmektedir. Bilgi teknolojilerinin bilim insanlarıyla birleştiği bu döneme Avrupa’da e-Bilim denirken ABD’de cyberinfrastructure/siberaltyapı adı verilmektedir [2, 3]. Yeni gelen dönemin eskisi ortadan kaldırmadığını, bilimsel faaliyetlere yeni bir yol açtığını belirtmekte fayda var.
Büyük Hadron Çarpıştırıcısı, İnsan Genom Projesi, ve Hubble ve Keppler Uzay Teleskopları düşünüldüğünde, bilimin nasıl bilgisayımsal ve veri ayıklamaya bağıllı hâle geldiğini anlamak mümkündür. Sensör teknolojilerinin gelişmesi, istatistik yazılımlarınındaki yenilikler ve genel olarak bilişim ve iletişim teknolojilerindeki gelişmeler, yeni bir tip bilimsel araştırma yöntemini gündeme getirdi, çünkü artık eskisi ile kıyaslanamayacak kadar çok fazla veri toplamak mümkün hem bunları analiz etmek için gerekli araçlar ve algoritmalar var hem de birbirlerini hiç tanımayan bilim insanlarının işbirliği yapması yaygınlaşmış durumdadır. Bu durum insanlık için uzun yıllardır çözülemeyen birçok probleme yönelik çözüm geliştirmek için bir fırsat sunmakta ise de, kendi problemlerini de getirmiştir.
Problemler
Bu bağlamda ilk gündeme gelen problem, üretilen bilimsel veri miktarının çok artmış olmasıdır. Ucuz, minimum enerji gerektiren ve uzaktan çalışan sensörler ile üretilen veri miktarı üssel biçimde artmaktadır. O kadar ki, ürettiğimiz verilerin ancak küçük bir kısmını saklayabiliyoruz [4]. 2025 için yapılan tahmine göre ürettiğimiz veri miktarı 175 zetabit olacaktır ve biz, bunun ancak %1’ini saklayabilecek kapasitedeyiz [5]. Bilimsel veriler de bunun için de ciddi bir miktarı kapsıyor. Yâni, vergilerle finanse edilen kamu destekli bilimsel faaliyetlerde bilim insanlarının emekleri sonucu ortaya çıkacacak verilerin ancak küçük bir kısmını saklayabilecek kapasitedeyiz.
Saklayabileceğimiz verilerle ilgili karşımıza çıkacak diğer bir problem arşivleme ile ilgilidir. Saklayabileceğimiz verilerin hangilerinin saklanabileceğine karar vermek, verilerin kalitesini değerlendirmek saklanmaması gereken verileri ayıklamak (güvenlik vb. sebeplerle), ne kadar süre saklayacağımıza belirlemek gibi sorunlarla başbaşa kalırız [6]. Veri kaybı, özellikle uzun dönemli veri saklama mevzubahis olduğunda, ciddi bir problem olarak karşımıza çıkmaktadır. Doğal afetlerden yazılım-donanım sorunlarına, siber saldırılardan insan kaynaklı hatalara kadar birçok nedenden ötürü veri kaybı yaşanabilmektedir. O yüzden verilerin birden fazla kopya hâlinde saklanması önemlidir.
Bu noktada donanım ve yazılım sorunları da dikkate alınması gereken bir konu olarak karşımıza çıkmaktadır. Eski yıllarda kullanılan manyetik teyplerin ömrü 10-20 yıl, altın ile desteklenmiş optik disklerin 50-100 yıl ömrü olduğu iddia edilmektedir [7, 9]. Tabii burada insan ihmalinden kaynaklanan sıkıntılar dikkate alınmamaktadır. Birkaç yıl önce anaakım medyada da kendine yer bulan NASA’nın aya iniş ile ilgili manyetik teyplerinin başına gelenleri hatırlamakta fayda var, insanlık tarihinin en önemli bilimsel gelişmelerinden birine ait orijinal kayıtlar kullanılamaz hâle gelmiştir [8]. Bir diğer sorun da verilerin saklandığı medyaları okuyacak cihazların eksikliği olacaktır. Bu yüzden, örneğin manyetik teypleri okuyacak sürücülerin de saklanması ve çalışır durumda olması gerekmektedir. Benzer şekilde bunları okuyacak yazılımların da gelecekte erişilebilir olması gerekmektedir. Sürekli daha verimli veri formatlarının geliştirilmesi gelecekte verilerin hangi formatta saklanması gerektiği sorununu da gündeme getirmektedir [9, 10]. Resim, ses, video dosyaları, bunların sıkıştırılması gibi konular da yazılım sorunları içinde değerlendirilmektedir.
İnsan faktörü de veri yönetimi anlamında dikkate alınması gereken bir konudur. Öncelikle hem dünyada [11, 22] hem de ülkemizde [12] biliminsanlarının veri yönetimi anlamında farkındalıklarının düşük olduğu ve bu konudaki alışkanlarının zayıf olduğu görülmektedir. Veriler genelde tek kopya saklanmakta ve bu kopyada buluta bağlı değildir. O yüzden bir donanım bozukluğunda veya yangın, sel, hırsızlık vs. gibi durumlarda araştırma verileri yerine konulamaz bir biçimde kaybolmaktadır. Bu bağlamda farkındalık kadar bilgi eksikliği ciddi bir sıkıntı olarak karşımıza çıkmaktadır. Örneğin, üstveri konusundaki bilgi eksikliği verilerin bulunması önünde ciddi bir engel teşkil etmektedir ve biliminsanları üstveri konusunda oldukça kayıtsızdır [7, 11, 12].
Son olarak tüm bu aktivitelerin ve bahsi geçen sorunların çözülmesi için kaynak gerekmektedir. Bilimsel projelerin gittikçe daha rekabetçi hâle geldiği ve araştırmacı başına düşen fon miktarının giderek azaldığı düşünüldüğünde, bu kaynak ihtiyacının hangi bütçeden fonlanacağı sorunu ortada durmaktadır.
Tarihçe
Özellikle araştırma verilerinin saklanmasının ve paylaşılmasının önemi anlaşılmaya başlandığından beri fon sağlayıcı kuruluşlar bu yönde teşvik edici politikalar geliştirmeye başladılar. Bu anlamda Amerika Birleşik Devletleri ve Avrupa benzer hedefler için farklı uygulamalar geliştirdiler. Temel fark, ABD’de araştırmacılar proje teklifleri ile birlikte araştırma verileri yönetim plânını sunmaktayken, Avrupa Birliği fonlarına başvuran araştırmacılar, eğer projeleri kabul edilirse projelerine başladıktan sonraki ilk altı ay içinde (sosyal bilimler ve için ilk 12 ayda) araştırma verileri yönetimi plânını sunmak zorundalar [20]. ABD’de birden fazla fon sağlayıcı kuruluş olduğu için her kurum kendi araştırma veri yönetim plânını ve beklentilerini oluşturdu [17, 18, 19].
Bazı bilimsel disiplinlerdeki araştırmacılar (meteoroloji, iklim çalışmaları, parçacık fiziği, astronomi), araştırma verilerini saklama ve paylaşma konusunda oldukça tecrübeliyken, bazı disiplinlerdeki araştırmacılar ise oldukça muhafazakârdır [11]. O yüzden akademisyenlerden, fon sağlayıcı kuruluşlardan, özel sektörden ve yayıncılardan oluşan geniş katılımlı bir grup 2016 yılında FAIR prensiplerini tanıtarak bu konudaki kafa karışıklığını giderme yönünde önemli bir adım attı [21]. FAIR =
- Findable / Bulunabilir,
- Accessible / Erişilebilir,
- Interoperable / Birlikte Çalışabilir,
- Reusable / Tekrar Kullanılabilir
kelimelerinin İngilizcelerinin başharflerinden oluşan prensipler, aslında herkesin aklında kolayca kalacak şekilde araştırma verisi yönetimi ve paylaşımınının özünü tanımlamış oldular.
Faydalar
Araştırma verileri yönetimi hem bireysel hem de toplumsal anlamda fayda sağlamaktadır. En temel fayda verilerin uzun süre saklanması ile bilimsel verilerin yeniden üretilmesi maliyetlerini ortadan kaldırmasıdır. Bu verilerin paylaşılması ve birleştirilmesi daha büyük veri setlerinin oluşturulmasına ve neticede daha doğru sonuçlar verecek bilimsel anlayışın geliştirilmesine katkı sağlayacaktır. Araştırma verisi yönetiminde öncü inisiyatiflerden biri olan Birleşik Krallık Veri Arşivine göre veri paylaşmanın faydaları şöyle özetlenebilir [15]:
“Bilimsel sorgulama ve tartışmayı teşvik etmek
- Yenilikçiliği ve verinin yeni kullanımlarını desteklemek
- Veri üreten ve kullananlar arasında yeni işbirliklerine yol açmak
- Şeffaflık ve hesap verilebilirliği maksimize etmek
- Araştırma bulgularının detaylı incelenmesine olanak sağlamak
- Araştırma yöntemlerinin geliştirilmesini ve doğrulanmasını teşvik etmek
- Tekrar veri toplamanın maliyetini düşürmek”
- Araştırmanın etkisini ve görünürlüğünü arttırmak
- Araştırmayı üreten verileri ve çıktılarını tanıtmak
- Araştırmayı yapan araştırmacıya direkt bir araştırma çıktısı olarak itibar kazandırmak
- Eğitim ve öğretim faaliyetleri için önemli bir kaynak sağlamak.”
Bireysel anlamda, öncelikle bilim insanları daha etkin ve verimli çalışabilecekler ve veri kayıplarına karşı kendilerine korumuş olacaklardır. Ayrıca, yukarıda da belirtildiği gibi, veri setleri paylaşan biliminsanlarının araştırmaları daha görünür olmakta ve yayınlarının daha çok atıf aldığına dair çok sayıda çalışma mevcuttur [13, 14].
Tanımlar
Bu aşamada bu eğitim modüllerinde sıkça duyacağınız bazı kavramları tanımlamakta fayda var.
Araştırma verisi: Orijinal araştırma bulgularını doğrulamak için toplanmış, üretilmiş, gözlenmiş veya yaratılmış her türlü veridir.
Araştırma verisi yönetimi: Bir araştırma projesinde toplanan ve kullanılan verilerin organizasyonunu, saklanmasını, korunmasını ve paylaşımını tanımlayan bir terimdir.
Üstveri: Veri hakkında veri olarak tanımlanabilir. Araştırma verileri hakkında şu sorulara cevap vermesi gerekir: Verileri kim, ne zaman, nerede, hangi protokoller ile, hangi amaçla topladı/üretti; verinin içeriğe nelerden oluşuyor?
Veri paylaşımı: Bir araştırma projesinde üretilen verilerin, projede yer almayan kişilerin kullanımına açılmasıdır.
Veri saklama: Verilerin kısa ve uzun dönemli saklanması için veri ambarlarına konmasıdır.
Veri yeniden kullanımı: Bir araştırma projesinde üretilen verilerin, projede yer alan veya yer almayan kişiler tarafından erişilmesi, başka veri setleriyle birleştirilmesi ve kullanılmasıdır.
Veri atıfı: Tıpkı diğer araştırmacıların yayınlarına, tebliğlerine ve raporlarına atıf verilmesi gibi, orijinal araştırma verilerine atıf verilmesidir.
Veri yaşam döngüsü: Bir araştırma projesinin ilk başlangıcından tamamlanmasına kadar olan sürede üretilen ve yönetilen araştırma verilerinin geçtiği aşamaların tanımlanmasıdır [16]. Farklı bakış açıları farklı aşamalar tanımlayabilirler. Bu aşamalardan bazıları plânlama, toplama/üretme, kontrol, tanımlama, saklama, keşfetme, analiz vb. olabilir.
Ambargo: Araştırma verisi üreten araştırmacıların ve/veya fon sağlayıcı kuruluşun ve/veya veri ambarı yönetiminin, bilimsel projede üretilen verilerin başkaları tarafından ne zaman kullanılabileceğini söyledikleri süredir.
Kaynaklar
[1] Hey, T., Tansley, S., & Tole, K. (2009). The fourth paradigm: Data-intensive scientific discovery.
[2] Hey, T. (2006). e-science and cyberinfrastructure: A middleware perspective. WWW ’06 Proceedings of the 15th International Conference on World Wide Web.
[3] Hey, T. & Trefethen, A. (2008). E-Science, cyberinfrastructure, and scholarly communication. In (eds.) Olson, G.M., Zimmerman, A., & Bos, N. Scientific Collaboration on the Internet. MIT Press. Doi. 10.7551/mitpress/9780262151207.001.0001
[4] Gantz, J. (2007). The expanding digital universe. A forecast of worldwide information growth through 2010. IDC Beyaz Kitap.
[5] Reinsel, D., Gantz, J., Rydning, J. (2018). The digitization of the world from edge to core. IDC Beyaz Kitap #US4413318.
[6] Driscoll, E. (2006). Copyright and legal risks in digital preservation.
[7] Bogart, J. van. (1995). Magnetic Tape Storage and Handling: A Guide for Libraries and Archives / 4. Life Expectancy.
[8] Kushner, D. (2007). One giant screwup for mankind. Wired.
[9] Atos (2014). Digital preservation in the age of cloud and big data. Atos Beyaz Kitap.
[10] Houghton, B. (2016). Preservation challenges in the digital age. D-Lib Magazine, 22(7-8).
[11] Tenopir, C., Allard S., Douglass K., Aydinoglu A. U., Wu L., Read E., et al. (2011). Data Sharing by Scientists: Practices and Perceptions. PLoS ONE. 6(6).
[12] Aydinoglu, A.U., Dogan, G. & Taskin, Z. (2017). Research data management in Turkey: Practices and attitudes. Library Hi Tech, 35(2), doi: 10.1108/LHT-11-2016-0134
[13] Piwowar, H.A. and T.J. Vision. (2013). Data reuse and the open data citation advantage. PeerJ, 1:e175,7872013. doi:10.7717/peerj.175
[14] Ioannidis et al. (2009). Repeatability of published microarray gene expression analyses. Nature Genetics, 41, 149-155
[15] Van den Eynden, V., Corti, L., Woollard, M., Bishop, L. and Horton, L. (2011). Managing and sharing data: A best practice guide for researchers.Colchester, United Kingdom: Data Archive, University of Essex.
[16] DataONE (2012). Data Life Cycle.
[17] NASA (2011) Data & Information Policy. NASA, Washington, D.C.
[18] NIH (2008) Revised Policy on Enhancing Public Access to Archived Publications Resulting from NIH-Funded Research. National Institutes of Health (NIH), Bethesda, MD.
[19] NSF. (2010). Scientists Seeking NSF Funding Will Soon Be Required to Submit Data Management Plans. Press Release 10-777, National Science Foundation (NSF), Arlington, VA.
[20] European Commission. Open Access & Data Management.
[21] Wilkinson, M.D., Dumontier, M, Aalbersberg, I.J.J. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3, p. 160018.
[22] Tenopir, C., Dalton, E.D., Allard, S., Frame, M., Pjesivac, I., Birch, B., et al. (2015). Changes in Data Sharing and Data Reuse Practices and Perceptions among Scientists Worldwide. PLoS ONE 10(8): e0134826.
*Bu sayfa Orta Doğu Teknik Üniversitesi Bilim ve Teknoloji Politikaları Bölümü öğretim üyesi Arsev Umur Aydınoğlu tarafından 2019 yılında hazırlanmıştır.