Verilerin başka sistemlerce anlaşılabilir/okunabilir olması üst veri (metadata) standartları sayesinde mümkündür. Üst veri “veri hakkında veri” anlamına gelmektedir. Üst verinin önemini en iyi anlatan görsel Şekil 1’de sunulmaktadır.
Yukarıdaki şekilde yer alan ilk görselde hiçbir bilgi bulunmazken, ikinci görselde ise çok az bilgi tutulmaktadır. Öte yandan üçüncü görselde zengin ve tutarlı bir şekilde yapılandırılmış bilgileri görmek mümkündür. Üzerinde herhangi bir şey yazmayan bir kutuyu açıp tüketmek ne kadar zor ise üzerinde tüm ilgili verinin bulunduğu bir kutuyu açıp tüketmek bir o kadar kolaydır. Bu sebeple verinin ne hakkında olduğuna ilişkin bilgilerin hazırlanması ve erişilebilir hale getirilmesi önemlidir.
Verilerin doğru bir şekilde tanımlanması ve belgelenmesi, kullanıcıların (veri sahibi dahil) çalışmanın önemli ayrıntılarını anlamalarını ve etkili bir şekilde izlemelerini sağlar. Verilerle ilgili üst verilere sahip olmak aynı zamanda bir veri havuzunda verilere daha kolay ulaşılmasını olanaklı hale getirir [3]. Her üst veri kaydı veri kümesi hakkında kontrollü bir bilgi listesi içerir. Sıkı bir şekilde tanımlanmış kayıt yapısı çok sayıda üst veri kaydında daha kolay arama yapılmasını ve böylece daha fazla sayıda veri kümesinin aranmasını sağlar [4].
Kapsamlı ve doğru üst veri nasıl hazırlanır?
Hangi üst veri standardı kullanılıyor olursa olsun araştırma verilerine ait kapsamlı ve doğru hazırlanmış üst verinin aşağıdaki unsurlara ait tanımlayıcı bilgiler içermesi beklenir [4]. Bu tanımlayıcıları detaylı olarak açıklayan veriler verilerin keşfedilebilirliğini sağlamalarının yanında verinin etkili tanımlanmasını ve veri birliğinin oluşturulmasını da mümkün hale getirmektedir.
Üst veri türleri
Ulusal Bilgi Standartları Enstitüsü (NISO) üst veriyi dört temel sınıfa ayırmıştır [5]. Buna göre ilk tür tanımlayıcı üst veridir. Tanımlayıcı üst veride bir kaynağı bulmak veya anlamak hedeflenir. Yönetimsel üst veri sınıfında ise teknik, koruma ve haklar üst verisi olmak üzere üç alt kategori bulunmaktadır. Teknik üst veri dosyaların kodunu çözmek ve oluşturmak için; koruma üst verisi verilerin uzun süreli yönetimini sağlamak için; haklar üst verisi ise içeriğe iliştirilmiş entelektüel mülkiyet haklarına ait bilgilerin sağlanması için kullanılmaktadır. Verilerin veya kaynakların diğer kaynaklarla ilişkisini sağlamak için kullanılan üst veri türü yapısal üst veri olarak adlandırılmaktadır. Son olarak işaretleme dili (markup language) olarak adlandırılan son sınıfta ise içeriğin yapısal veya anlamsal özellikleri kullanılarak işaretler ve üst verilerin bütünleştirilmesi hedeflenmektedir. Her bir tür ile ilgili örnekler Tablo 1’de sunulmaktadır.
Tablo 1. Üst veri türleri ve özellikleri [5]
Üst veri standartları
Üst verilerin belirli bir düzende toplanması ve sunulması için çeşitli standartlar geliştirilmiştir. En çok bilinen ve en sık kullanılan üst veri standartları Dublin Core Metadata Initiative (DC) ve Data Documentation Intiative (DDI) olsa da pek çok disipline özel geliştirilmiş üst veri standartları da vardır. Amaca en uygun üst veri standardına karar vermek için http://rd-alliance.github.io/metadata-directory/standards/ adresinde yer alan liste kullanılabilir. Aşağıda her bir konu alanı için kullanılabilecek üst veri standartları listelenmektedir [6].
- Araştırma verileri için genel konulu üst veri standartları: Dublin Core, Data Cite,
CERIF (Common European Research Information Format), DCC, DCAT (Data Catalog Vocabulary), OAI-ORE (Open Archives Initiative Object Reuse and Exchange), PREMIS, RDF Data Cube Vocabulary, … - Sanat ve insan bilimleri alanı için üst veri standartları: Encoded Archival Description (EAD), DDI (Data Documentation Initiative), MIDAS-Heritage, …
- Mühendislik alanı için üst veri standartları: CIF (Crystallographic Information Framework), CSMD (Core Scientific Metadata Model), ISA-Tab, MIBBI (Minimum Information for Biological and Biomedical Investigations), NeXus, …
- Yaşam bilimleri alanı için üst veri standartları: ABCD (Access to Biological Collection Data), Darwin Core, EML (Ecological Metadata Language), Genome Metadata, ISA-Tab, Observ-OM, OME-XML (Open Microscopy Environment XML), PDBx/mmCIF (Protein Data Bank Exchange Dictionary and the Macromolecular Crystallographic Information Framework), Protocol Data Element Definitions, UKEOF, …
- Fiziksel bilimler ve matematik alanları için üst veri standartları: AgMES (Agricultural Metadata Element Set), AVM (Astronomy Visualization Metadata), CF (Climate and Forecast) Metadata Conventions, CIF (Crystallographic Information Framework), CIM (Common Information Model), CSMD (Core Scientific Metadata Model), DIF (Directory Interchange Format), FGDC/CSDGM (Federal Geographic Data Committee Content Standard for Digital Geospatial Metadata), FITS (Flexible Image Transport System), International Virtual Observatory Alliance Technical Specifications, ISO 19115, Observations and Measurements, PDBx/mmCIF (Protein Data Bank Exchange Dictionary and the Macromolecular Crystallographic Information Framework), SDAC (Standard for Documentation of Astronomical Catalogues), SPASE Data Model, …
- Sosyal bilimler ve davranış bilimleri alanları için üst veri standartları: DDI (Data Documentation Initiative), MIDAS-Heritage, OAI-ORE (Open Archives Initiative Object Reuse and Exchange), QuDEx (Qualitative Data Exchange Format), SDMX (Statistical Data and Metadata Exchange), …
Üst verilerin oluşturulması
Günümüzde Zenodo ve Aperta gibi sistemler veriye ait üst veri bilgisini verinin sisteme girilmesi sürecinde tamamlanan formlar aracılığı ile otomatik olarak oluşturmakta ve sisteme tanımlanan üst veri standartlarına dönüştürme yapabilmektedir. Bu bölümde Aperta TÜBİTAK Kurumsal Arşivi’ne veri yükleme aşamasında veri ile ilgili tanımlayıcı alanlar tanıtılmaktadır.
Yeni veri yükleme sayfası açıldığında veriye ait bilgilerin tanımlanması gereklidir. Yeni veri yükleme sayfasında yer alan ögelerin adım adım açıklamaları aşağıdaki şekillerde detaylandırılmaktadır.
Şekil 2’de gösterilen ilk sekmenin temel amacı araştırma verilerinin sisteme yüklenmesidir. Sistemde en fazla 50 GB’lık verinin yüklenmesi desteklenmektedir. 50 GB’tan fazla boyutu olan veriler için TÜBİTAK ile iletişime geçilerek alternatifler değerlendirilebilir. Bu bölüm zorunlu alandır ve en az bir veri setinin yüklenmesi zorunludur.
Verinin yüklenmesinin ardından yükleme türü seçiminin yapılması gereklidir (bkz. Şekil 3). Yükleme türünün seçimi ile verilerin tanımlanması süreçlerine başlanmaktadır. Aperta’ya yayın, afiş, sunum, veri seti, resim, video, yazılım ve ders materyali gibi unsurlar eklenebilmektedir. Bu bölümde yalnızca veri seti yüklemesi konusunda bilgi verilmektedir.
Yükleme türü seçimi ardından verinin temel tanımlayıcılarının sisteme girilmesi zorunludur. Bu bağlamda yayın tarihi, başlık, yazarlar ve öz bilgileri girilmeden sisteme veri yüklenmesi mümkün olmamaktadır. Öte yandan doi, sürüm bilgileri, dil, anahtar kelimeler ve fonlayıcı destekleri gibi bilgiler de bu bölümde belirtilmelidir.
Araştırma verilerinin yönetimi süreçlerinde veri için hangi lisansların kullanılacağı konusu önemlidir. Veriyi yükleyen kişi lisansını da belirleme hakkında sahiptir. Lisanslar ile ilgili genel bilgiler altıncı bölümde detaylı olarak sunulmaktadır (bkz Bölüm 6). Erişim yöntemleri açık erişim, ambargolu erişim, kısıtlı erişim ve erişime kapalı şeklinde belirlenmiştir. Öte yandan veriye en uygun Creative Commons lisansını da bu alandan seçmek mümkündür.
Veri tanımlama süreçlerinde isteğe bağlı olarak tanımlanabilen bazı alanlar da bulunmaktadır (bkz Şekil 6). Bu alanlar alternatif tanımlayıcılar, katkı sağlayanlar ve referanslar gibi alanlardır.
Verinin yüklenmesinin ardından veriye ilişkin tüm üst veri bilgilerinin sisteme önceden tanımlanmış farklı standartlarla dışa aktarılması mümkündür (bkz. Şekil 7).
Kaynakça
[1] Hines, K.C. (2013). Metadata management and tools August 1, 2013 data curation course. Erişim adresi: https://slideplayer.com/slide/8266173/
[2] Johns Hopkins Libraries Data Management Services. Metadata for effective research data management. Erişim adresi: http://dms.data.jhu.edu/data-management-resources/manage-and-analyze/documentation-and-metadata/metadata-for-effective-research-data-management/
[3] Cornell University Research Data Management Service Group. Metadata and describing data. Erişim adresi: https://data.research.cornell.edu/content/writing-metadata
[4] The University of Western Australia. (2018). Research data management toolkit: Metadata standards. Erişim adresi: https://guides.library.uwa.edu.au/c.php?g=325196&p=2178564
[5] Riley, J. (2017). Understanding metadata: What is metadata, and what is it for? A Primer Publication of National Information Standards Organization. Erişim adresi: https://groups.niso.org/apps/group_public/download.php/17443/understanding-metadata
[6] Chen, S., Alderete, K.A. & Ball, A. RDA Metadata Directory. Erişim adresi: http://rd-alliance.github.io/metadata-directory/standards/
*Bu sayfa Hacettepe Üniversitesi Bilgi ve Belge Yönetimi Bölümü öğretim üyesi Zehra Taşkın tarafından 2019 yılında hazırlanmıştır