Kaynaklarına göre veriler
Araştırma verileri birçok farklı tipolojide düşünmek mümkündür. Hatta her verinin dijital olmadığını belirtmekte fayda var. Örnek olarak jeologların kaya, iklim değişikliği araştırmacılarının buz, okyanus bilimcilerin su veya medikal araştırmacıların doku örneklerini sayabiliriz. Tabii bu örneklerin özel koşullarda saklanması (soğuk hava deposu, klima kontrollü ortam vb.) gerekmektedir. Bunun dışında dokümanlar, laboratuar defterleri, saha notları, günlükler, anketler, mülakat deşifreleri, ses ve görüntü kayıtları, resimler, yansılar, veri dosyaları, algoritmalar, yazılım ve kodlar, şemalar, iş akışları vb. birçok veri bilim insanların tarafından üretilmektedir.
Kaynaklarına göre veriler dört türe ayrılmaktadır [1]:
Gözlemsel: Bir olay ya da davranışın gözlenmesi sonucu ortaya çıkan veridir. Astronomiden antropolojiye bir çok disiplin gözlemsel veri üretmektedir. Gerçek zamanlı olarak veri toplandığı için çok kıymetlidir, çünkü veri kaybolursa tekrar toplanma ihtimali yoktur. Örneğin bir süpernovanın patlama anı veya bir protesto gösterisindeki tepkiler veya belli bir zamandaki ve coğrafyadaki rüzgar hızı ve yönü gibi veriler tek bir kez toplanabilmektedir.
Deneysel: Genellikle laboratuarda kontrollü şartlar altında üretilen verilerdir. Değişkenler arasındaki nedensellik ilişkisi ölçmek için yapılan çalışmalarda ortaya çıkan veriler, deneyler tekrar edildikçe tekrar üretilebilirler ama tekrarların bir maliyeti olduğu unutulmamalıdır. Gen sekansı çıkartmak, manyetik alan okumaları, kimyasal tepkimeler gibi örnekler verilebilir.
Simülasyon: Genellikle bir gerçek hayat sürecini veya sistemi taklit eden bilgisayar destekli test modellerinden çıkan verilerdir. Belli şartlarda sistemin ne tepki vereceğini öngörmek için yapılan bu çalışmaların sonuçlarını tekrar üretmek oldukça kolaydır. İklim modelleri, ekonomik modelleri veya kozmostaki cisimlerin oluşumlarına dair modelleri simülasyon verisi örneği olarak sayabiliriz.
Türetilmiş / Derlenmiş: Adından da anlaşılacağı gibi mevcut veri setlerinden türetilmiş veya derlenmiş veri setlerinin transformayonu ile üretilmektedirler. Genellikle yerine konulmakla birlikte, karmaşık ve emek yoğun bir süreç gerektirdiğinden, tekrar üretilmesi oldukça masraflıdır. Metin ve veri madenciliği, üç boyutlu modellemeler, nüfus yoğunluğu tahminleri gibi örnekler düşünülebilir.
Veri türleri
Araştırma verileri çok farklı türlerde olabilmektedir: metin, sayısal, multimedya, modelleme, yazılım dili ve hatta kullanılan araştırma aygıtına özel bir biçimde [2]. Uzun dönem veri saklama ile öngörü yapmak çok doğru olmayacağından, bu bağlamda bu bölümdeki bilgiler tavsiyede niteliğindedir. Uzun dönem veri korunması ve paylaşılması için dikkat edilmesi gereken hususlar, formatın tescilsiz olması, açık ve dokümente edilmiş standartlarda olması, araştırmacılar tarafından kullanılıyor olması, standart karakter kodlamalarını (ASCII, UTF-8 gibi) kullanıyor olması ve tercihen sıkıştırılmamış olmasına dikkat edilmelidir.
Veri tipi ve türü hakkında aşağıdaki bilgiler tavsiye edilmektedir [2, 3, 4] .
Veri tipi | Paylaşmak, tekrar kullanmak ve koruma için tercih edilen dosya türü | Diğer kabul edilebilir formatlar |
Detaylı üstveriye sahip sayısal tablo verileri Verinin matrisine ek olarak, değişken etiketleri, kod etiketleri ve eksik değerlerin tanımlandığı bir veri seti |
Taşınabilir SPSS formatı (.por) Ayrılmış metin ve komut (‘setup’) dosyası Üstveri bilgisi içeren (SPSS, Stata, SAS, vb.) Üstveri bilgisi içeren yapılandırılmış metin ya da biçimlendirme dosyası, örn. DDI XML dosyası |
MS Access (.mdb/.accdb) |
Minimum üstveriye sahip sayısal tablo verileri Sütun başlıkları ya da değişken isimleri olan ya da olmayan bir matris verisi (ama başka bir üstdata veya etiketleme mevcut değil) |
virgülle ayrılmış değerler (CSV) dosyası (.csv) sekmeyle ayrılmış dosya (.tab) | verili karakter setinin ayrılmış metni – yalnızca verilerde bulunmayan karakterler ayırıcı olarak kullanılmalıdır (.txt) yaygın kullanımda olan formatlar, e.g. MS Excel (.xls/.xlsx), MS Access (.mdb/.accdb), dBase (.dbf) and OpenDocument Spreadsheet (.ods) |
Mekânsal veri Vektör ve tarama verisi |
ESRI Shapefile (zorunlu: .shp, .shx, .dbf; opsiyonel: .prj, .sbx, .sbn) geo-referanslı TIFF (.tif, .tfw) CAD verisi (.dwg) tablolu CBS nitelikli bilgi |
ESRI Geodatabase formatı (.mdb) Vektör verisi için MapInfo Interchange Formatı (.mif) |
Nitel veri metin |
Uygun bir doküman tipi tanımına (DTD) veya şemaya (xml) uygun eXtensible Mark-up Language (XML) metin Zengin metin biçimi (.rtf) Düz metin verisi, UTF-8 (Unicode; .txt) |
Düz metin verisi, ASCII (.txt) Hipermetin biçimlendirme dili (HTML) (.html) Yaygın tescilli formatlar, e.g. MS Word (.doc/.docx) LaTeX (.tex) |
Dijital görüntü verisi | Sıkıştırılmamış TIFF versiyon 6 (.tif) | JPEG (.jpeg, .jpg) TIFF (diğer versiyonlar; .tif, .tiff) JPEG 2000 (.jp2) Taşınabilir Doküman Formatı (PDF/A, PDF) (.pdf) |
Dijital ses verisi | Ücretsiz kayıpsız ses kodeği (FLAC) (.flac) Waveform Audio Format (WAV) (.wav) MPEG-1 Audio Layer 3 (.mp3) |
MPEG-1 Audio Layer 3 (.mp3) Audio Interchange File Format (AIFF) (.aif) |
Dijital video verisi | MPEG-4 High Profile (.mp4) motion JPEG 2000 (.jp2) |
JPEG 2000 (.mj2) |
Dokümantasyon ve komut dosyası | Zengin metin biçimi (.rtf) Open Document Text (.odt) HTML (.htm, .html) |
Düz metin (.txt) Yaygın tescilli formatlar, e.g. MS Word (.doc/.docx) or MS Excel (.xls/ .xlsx) Uygun DTD ya da şemaya göre XML biçimlendirilmiş metin (.xml), e.g. XHMTL 1.0 PDF/A or PDF (.pdf) |
Kimya verisi Kontur ile tepe konumu ve yoğunluğunu yansıtma kapasitesine sahip spektroskopi verisi ve diğer grafikler |
NMR, IR, Raman, UV ve Kütle Spektroskopisi dosyalarını kolayca paylaşabilmek için JCAMP formatına dönüştürün. JCAMP dosyasını açmak için: JSpecView, ChemDoodle |
Kaynaklar
[1] University of California Curation Center. (2019). DMPTool.
[2] Stony Brook Universite Library (2018). Research data.
[3] Princeton University Library. (2019). Research Data Management at Princeton. Princeton University.
[4] Wellcome Open Research. (2019). How to Publish: Data Guidelines. Wellcome Open Research.
* Bu sayfa Orta Doğu Teknik Üniversitesi Bilim ve Teknoloji Politikaları Bölümü öğretim üyesi Arsev Umur Aydınoğlu tarafından 2019 yılında hazırlanmıştır.