S otevřeným přístupem k vědeckým publikacím úzce souvisí také otevřený přístup k vědeckým datům. Problematika správy vědeckých dat (Reserch Data Management — RDM) se v souladu s principem „as open as possible, as closed as necessary“ dostává do ústředí zájmu nejen poskytovatelů financí, ale i samotných vědeckých institucí. Zlepšení viditelnosti a dostupnosti výzkumných dat povede k lepší reproducibilitě a transparentnosti vědeckého výzkumu a pomůže také zviditelnit výsledky daného vědce i celé instituce. Na základě toho vznikla na Univerzitě Tomáše Bati ve Zlíně směrnice Bezpečná správa výzkumných dat.
Součástí směrnice je také Data management plan, který je základní pomůckou pro správu výzkumných dat.
Nevíte si rady? Kontaktujte nás na open@k.utb.cz
1. Co jsou výzkumná data?
Výzkumná data jsou ty údaje, které jsou vytvořeny a shromažďovány za účelem získání, ověření či lepšímu porozumění výsledků výzkumu. Výzkumná data mohou být kvalitativní nebo kvantitativní, faktická nebo nefaktická, číselná, textová nebo audiovizuální. Výzkumná data mohou mít digitální i nedigitální podobu a kategorizujeme je jako veřejná, interní, diskrétní a citlivá. Bližší specifikaci najdete v tabulce.
Může se jednat např. o:
- data z pozorování, která jsou získávána v reálném čase a jsou jedinečná a nenahraditelná (např. sken mozku, rozhovor),
- experimentální data z laboratorních přístrojů,
- simulační data a modely (ekonomické či klimatické modely),
- odvozená nebo kompilovaná data, která jsou výsledkem zpracování nebo kombinace jiných “surových” dat (text mining).
Výzkumná data tedy nejsou jen tabulky, ale mohou to být i audio či video nahrávky, laboratorní deníky, dotazníky, fotografie, stejně tak jako software a skripty.
Všechna tato data musí být bezpečně uložena, spravována a sdílena a podléhají požadavkům na ochranu stanovených v GDPR. V případě potřeby můžete svá data anonymizovat. K anonymizaci dat můžete využít nástroj Amnesia.
2. Správa výzkumných dat
Pod správou výzkumných dat je možné si představit především jejich získávání, organizování, dlouhodobé uchovávání a případné sdílení. Na počátku a v průběhu výzkumu je dobré se této oblasti věnovat. Užitečnou pomůckou vám může být plán správy dat (Data Management Plan — DMP).
DMP je živý dokument, který průběžně aktualizujete tak, aby skutečně popisoval, co se s vašimi daty děje. DMP obsahuje informace o tom, jak a jaká data budete zpracovávat – jak data získáte, kde budou uložena, kdo k nim má přístup a za jakých podmínek je lze znovu využít. S DMP a bezpečnou správou výzkumných dat jde ruku v ruce také výběr vhodného datového uložiště. Jejich vhodný výběr najdete v přiložené tabulce. Pro správný výběr vhodného oborového repozitáře můžete využít národní registr datových repozitářů re3data.org. Pokud nenajdete vhodný oborový repozitář, můžete využít repozitáře obecné. Mezi nejpoužívanější patří Zenodo, Figshare nebo Dryad. Jejich srovnání nejdete v této tabulce.
K tvorbě DMP můžete využít online nástroj DMPonline či Data Stewardship Wizard, případně šablonu od Science Europe.
Jak vytvořit DM v Data Stewardship Wizzard se naučíte v našem webináři.
Proč byste měli správě výzkumných dat měli věnovat pozornost a čas?
- Sdílením svých dat umožníte replikovat svůj výzkum a výsledky — snadno obhájíte své závěry a vyhnete se případným snahám o jejich znevěrohodnění v budoucnu.
- Dobré plánování vám pomůže předpovídat případné problémy (např. jak se k výsledkům dostanou vaši spolupracovníci z jiných institucí; dlouhodobé uchování a příp. anonymizace dat) i potřebné náklady (např. na úložný prostor), které můžete zahrnout do grantových žádostí.
- I s časovým odstupem data snadno znovu naleznete a můžete využít.
- DMP vyžadují někteří poskytovatelé financí (např. Evropská Komise v rámci programu Horizon Europe).
Hlavní důvody pro dobrý RDM shrnul ve svém videu i Florian Markowetz z University of Cambrigde: https://doi.org/10.1186/s13059-015-0850-7.
Zájemcům o problematiku doporučujeme také e-learningový kurz Centra pro podporu Open Science Univerzity Karlovy. Je možné se do něj přihlásit jako host a projít si podrobně zpracované materiály.
Můžete se také podívat na webinář, který pro nás autoři kurzu připravili.
3. FAIR data
Výzkumná data nemusí být všechna otevřená a sdílená, ale měla by být FAIR. Co to znamená? Fair je akronymem slov Findable, Accessible, Interoperable and Reusable. FAIR data tedy jsou:
- Dohledatelná — jak lidé, tak stroje jsou schopni vaše data nalézt. K tomu slouží především dobrý strojově čitelný metadatový popis dat – metadata popisují, o jaká data se jedná, co je obsahem vašich dat. Kromě toho jsou vaše data i metadata opatřeny jedinečným a trvalým identifikátorem (např. DOI) a jsou registrována ve zdrojích, které jsou indexovány vyhledávači. Svá data můžete např. uložit a zaregistrovat v repozitáři Zenodo, kde máme zřízený univerzitní účet
- Dostupná — metadata by měla být dostupná vždy. Samotná data pouze v případech, kdy tomu nebrání jiné skutečnosti (ochrana osobních údajů apod.). Potenciální uživatel by měl být schopen jednoduše zjistit, za jakých podmínek se může k datům dostat a případně je využít.
- Interoperabilní — lze je propojit s jinými aplikacemi a systémy (např. s jinými datasety). To např. znamená , že data i metadata splňují oborové standardy a jsou zpřístupněna ve vhodných formátech.
- Opětovně využitelná jinými zájemci — sdílená pod otevřenou licencí. Data také musí být dobře popsána, aby bylo každému jasné, jak jste data získali a zpracovali.
Jak FAIR jsou vaše data si můžete ověřit za pomoci jednoduchého checklistu.
4. Licence
V případě, že budete své dílo veřejně sdílet, doporučujeme ho opatřit licencí tak, aby uživatelé věděli, za jakých podmínek mohou vaše data použít.
Než vyberete správnou licenci, ověřte si, zda nemáte povinnost dílo publikovat pod určitou licencí, kterou stanovují například podmínky poskytovatele financí nebo nakladatele. Pokud jste neidentifikovali žádné omezení, můžete dílo opatřit některou ze standardizovaných veřejných licencí. Nejčastěji používané jsou licence Creative Commons 4.0.
Licence Creative Commons jsou veřejné licence, které autorovi přináší nové možnosti v oblasti publikování. Autor jejich prostřednictvím nabízí neurčitému počtu potenciálních uživatelů licenční smlouvu, která jim poskytuje či vyhrazuje některá práva k dílu.
5. Uchovávání dat
Výzkumná data by se měla uchovávat v takové podobě, aby bylo možné průběh a výsledky výzkumné práce kdykoli rekonstruovat. Výzkumník by měl uchovávat veškerá metadata, která jsou pro prokázání původu dat relevantní, a metadata, která jsou důležitá pro rekonstrukci průběhu výzkumu.
Metadaty se rozumí data popisující datovou sadu, zejména její věcný obsah, časové, územní a další souvislosti.
Není možné uchovávat veškerá digitální data a dlouhodobé uchovávání a správa dat s sebou nesou další výdaje, které by musely být vynakládány i po skončení projektu. Proto existuje návod, který výběr dat pro dlouhodobé uchovávání usnadní.
Kde data uchovávat?
Knihovna UTB spravuje Repozitář publikační činnosti UTB, který slouží jako úložiště publikační činnosti autorů z Univerzity Tomáše Bati ve Zlíně. Repozitář se soustředí pouze na hodnocené výsledky vědy a výzkumu UTB – články v časopisech, monografie a příspěvky v konferenčních sbornících. Prostřednictvím repozitáře zajišťuje UTB okamžitý a neomezený přístup k vědeckým informacím a poznatkům, které univerzita vytvořila.
Podrobnější informace o repozitáři včetně možností uložení a zpřístupnění vašeho výsledku vědy a výzkumu najdete na stránce repozitáře.
Zenodo je univerzální otevřené úložiště, které bylo vyvinuto v rámci evropského programu OpenAIRE a je provozované CERNem. Umožňuje výzkumným pracovníkům ukládat výzkumné práce, datové sady, výzkumný software, zprávy a další digitální artefakty související s výzkumem.
FileSender je webová služba pro uchovávání a předávání souborů mezi dvojicí účastníků, kdy alespoň jeden z nich musí být ověřen prostřednictvím eduID.cz Soubor je v systému uložen nejvýše měsíc a maximální velikost jednoho souboru je 500 GB. Jak používat FileSender pro potřeby UTB se dozvíte v návodu.