Araştırma verisi “Bilimsel çalışmalarda birincil kaynak olan ve araştırma sonuçlarını doğrulamak için kullanılan sayısal çıktılar, metinsel kayıtlar, görseller ya da sesler gibi maddi kayıtlar” olarak tanımlanabilir [1]. Bu tanıma laboratuvar notları, ilk analizler, makale taslakları, araştırma planları, hakem değerlendirmeleri, kişisel yazışmalar veya fiziksel nesneler gibi veriler dahil edilmemiştir. Tüm bilim literatürünün ve bilimin tüm verisinin İnternet üzerinden erişilebilir olduğu ve tüm bu unsurların birbirleri ile konuşabildiği bir ortamın hayal edilmesi ile başlayan süreçte [2] “erişilebilir” araştırma verileri en önemli konulardan biri haline gelmiştir. Bilimsel araştırmaların nasıl yapıldığı ve araştırma verilerinin nasıl hazırlanması gerektiği ile ilgili bilgiler bir önceki kısımda sunulmuştu (bkz. Bölüm 2). Bu bölümde ise araştırma verisi hazırlama sürecinde dikkat edilmesi gereken noktalar detaylı olarak aktarılmaktadır.
Veriyi yaratma sürecinde gerçekleştirilmesi gereken temel aşamalar aşağıda sıralandığı gibidir [3]:
- Araştırmayı tasarla
- Veri yönetimini planla (biçim, saklama vb.)
- Verinin paylaşım izinlerini planla
- Mevcut verileri bul
- Veri topla (deney, gözlem, ölçüm, simülasyon vb.)
Araştırma Tasarımı: Araştırma yapmanın temel amaçları keşfetme, tanımlama veya açıklamadır [4]. Bu noktada ilgi, fikir veya teoriden ortaya çıkan araştırma sorusu üzerine kurulacak araştırmanın henüz başlangıçta tasarlanması önemlidir çünkü başlangıcında iyi planlanmamış bir araştırmanın sonuca ulaştırılması oldukça zordur. Bu bağlamda araştırmaya henüz başlanmadan neyin, nasıl ve hangi yöntemler kullanılarak araştırılacağının tasarlanması önemlidir. Araştırma tasarımında kavramsallaştırma, araştırma yönteminin seçimi, veri toplanması, işlenmesi ve analizi süreçlerinin tamamının planlanması önemlidir [4]. Bu planın önemli aşamalarından biri de veri kararlarının verilmesidir.
Veri Yönetiminin Planlanması: Veriyi toplamadan ya da oluşturmadan önce verilerin hangi biçimlerde/türlerde elde edileceğine ve saklanacağına karar verilmelidir. En bilinen araştırma verisi türleri deney (experimental), gözlem (observational), simülasyon (simulation) ve derleme (compiled) verileridir [5]. Metinsel, sayısal, görsel, işitsel veya makineler tarafından üretilen veriler gibi çeşitli formlarda bulunan bu veriler günümüzde dijital ortamda varlık bulmaktadırlar. Dijital veriler ise bir yazılımın okuyabilmesi ve yorumlayabilmesi için kodlanmış verilerdir [6]. Araştırma verilerinin ömürlerinin uzun olabilmesi için standart, değiştirilebilir/güncellenebilir ve açık kaynak kodlu dijital veri formatlarını kullanmak önemlidir. Aksi halde veriler çok kısa sürede kullanılmaz hale gelebilecektir. Öte yandan veri dosyalarının isimlendirilmesi, düzenlenmesi, anonimleştirilmesi vb. konular da başlangıçta planlanması gereken unsurlardır. Bu sebeple veri yönetiminin planlanması süreçlerinin tüm sözleşmelere, talimatlara, kılavuzlara veya şablonlara uyularak gerçekleştirilmesi hayati önem taşır [6]. Veri yönetiminin nasıl planlanması gerektiği eğitim portalının ikinci bölümünde detaylı olarak sunulmaktadır (bkz Bölüm 2.2).
Veri Paylaşım İzinlerinin Planlanması: Verinin nasıl toplanacağı ve saklanacağı kadar önemli bir diğer konu da verinin kimlerle ve hangi şartlarda paylaşılacağının planlanmasıdır. Bu süreçte lisans modelleri ve özel verilerin korunması gibi konular dikkate alınarak planlama yapılmalıdır. Verinin paylaşılması ile ilgili detaylı bilgiler ikinci bölümde detaylı olarak aktarılmaktadır (bkz Bölüm 2.3).
Mevcut Verilerin Saptanması: Bazı araştırmalar için kullanılabilecek veriler daha önceki çalışmalarla üretilmiş olabilir. Bu bağlamda araştırmalara başlanırken mevcut veri ambarlarının taranması önemlidir. Portalın 2.4. Bölümünde mevcut verilerin saptanması için kullanılabilecek web sayfalarından bahsedilmektedir. Öte yandan en bilinen araştırma verisi kaynakları aşağıda listelenmektedir:
- Zenodo: CERN tarafından üretilen veriler bu arşivde tutulmaktadır.
- Re3Data: Bu kaynak araştırma verisi arşivlerinin rehberidir. 2019 yılı Şubat ayı itibariyle 2000’den fazla veri arşivi hakkında bilgi vermektedir.Çalışılan konularla ilgili mevcut veri depolarını bulmak için kolaylıkla kullanılabilir. Sistemde konuya göre ve ülkeye göre filtreleme seçenekleri bulunmaktadır.
- EU Open Data Portal: AB kurumlarına ait pek çok doküman ve veriye açık şekilde erişim sağlamayı amaçlamaktadır.
Veri Toplama: Araştırma yapılırken hangi veri toplama yöntemlerinin (deney, gözlem, anket, ölçüm vb.) kullanılacağına karar verilmesi ve buna göre sistematik bir çalışmanın yapılması önemlidir. Veri toplama araçları hakkında detaylı bilgi portalın 2.5. Veri Toplama Araçları bölümünde sunulmaktadır.
Araştırma verileri araştırmaya yönelik olarak sıfırdan üretiliyorsa farklı fiziksel dosya formatları veya içerik türleri hakkında bilgi sahibi olunmalıdır. En bilinen araştırma verisi türleri ve bu türlere uygun dosya biçimi örnekleri aşağıda sunulmaktadır [7]:
- Metin verisi: Düz metin (plain text), EMBL dosya formatı, MS Word, taşınabilir belge biçimi (PDF), zengin metin (RTF), hiper metin biçimlendirme dili (HTML), genişletilebilir işaret dili (XML) vb.
- Sayısal veri: SPSS, MS Excel, SAS, ayrılmış dosya biçimi (delimited), sabit alanlı dosya biçimi (fixed field format) vb.
- Çoklu ortam (multimedya) verileri: JPEG, TIFF, GIF, Dicom, MPEG, Quicktime, BitMap, PNG vb.
- Modeller: 3 boyutlu, istatistiksel, benzerlik, makro-ekonomik, nedensel modeller vb.
- Yazılımlar: Java, C, Perl, Python, PHP vb.
- Disipline özel veriler: Astronomi için Flexible Image Transport System (FITS); kimya için Crystallographic Information File (CIF), meteoroloji için GRIdded Binary (GRIB) vb.
- Araca özgü veriler: Olympus Confocal Microscope Data Format, Carl Zeiss Digital Microscopic Image Format (ZVI) vb.
Elde edilen araştırma verileri (geleneksel veya elektronik) aşağıda belirtilen formlarda varlık bulabilirler [7]:
- Belgeler (metin) ve elektronik tablolar (sayısal)
- Laboratuvar ve alan defterleri, günlükler
- Anketler, transkriptler, kod kitapları
- Ses kayıtları, video kasetler
- Fotoğraflar, filmler
- Test sonuçları
- Slaytlar, eserler, örnekler
- Araştırma sürecinde edinilen ve üretilen dijital objeler
- İstatistiksel veya diğer veri dosyaları
- Veri tabanı içeriği (video, ses, metin, görüntü)
- Modeller, algoritmalar, komutlar
- Bir uygulamanın içeriği (girdi, çıktı, log dosyaları, simülasyon yazılımı, şemalar)
- Metodolojiler ve iş akışları
- Standart işlem prosedürleri ve protokolleri
- …
Araştırma verilerinin üretilmesi sürecinde veriler ne şekilde elde edilmiş olursa olsun (yürütülen araştırmaya yönelik olarak ilk kez toplanmış ya da önceki araştırmalarda kullanılan verilerin yeniden analiz edilmesi) veri işleme, kodlama ve tanımlama süreçleri önemlidir. Üçüncü Bölüm, 3.2. Veri Kodlama ve Düzenleme bölümü ile okumaya devam edebilirsiniz.
Kaynakça
[1] OECD. (2007). OECD Principles and guidelines for access to research data from public funding. Erişim adresi: http://www.oecd.org/sti/sci-tech/38500813.pdf
[2] Hey, T., Tansley, S. ve Tole, K. (2009). The fourth paradigm: Data-intensive scientific discovery. Erişim adresi: http://research.microsoft.com/enus/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf
[3] UK Data Archive. Research data lifecycle. Erişim adresi: http://www.data-archive.ac.uk/create-manage/life-cycle
[4] Babbie, E. (2007). The practise of social sciences (11. bs). Belmont, CA: Thomson Wadsworth.
[5] LibGuides@Macalister. (2018). What is research data? Erişim adresi: https://libguides.macalester.edu/c.php?g=527786/&p=3608643
[6] UK Data Archive. Format your data. Erişim adresi: https://www.ukdataservice.ac.uk/manage-data/format.aspx
[7] Mantra Research Data Management Training. (2018). Research data explained: Research data formats. Erişim adresi: https://mantra.edina.ac.uk/researchdataexplained/
*Bu sayfa Hacettepe Üniversitesi Bilgi ve Belge Yönetimi Bölümü öğretim üyesi Zehra Taşkın tarafından 2019 yılında hazırlanmıştır.