Elektronické informační zdroje na VUT a vědecké publikování - FSI
Data management a jak psát data management plan
1. Data management a jak psát
data management plan (DMP)
Petra Dědičová
Ústřední knihovna VUT
dedicova@lib.vutbr.cz
2. Obsah
• Vysvětlení základních pojmů
• Data management – proč a kdo
• DMP – struktura, příklady, nástroje
• Požadavky poskytovatelů - Horizon 2020
3. Vědecká data - definice
„Výzkumná data jsou zaznamenané informace (bez ohledu na
formu a médium) nezbytné pro podporu nebo validaci
pozorování, závěrů nebo výstupů výzkumu. Efektivní a účinná
správa výzkumných dat je základem vědecké a akademické
integrity. (Engineering and Physical Sciences Research Council:
policy framework on research data)
Za vědecká data se dají považovat:
• Primární data získaná z přístrojů
• Sekundární data: dokumenty, tabulky, databáze, laboratorní
protokoly, vizualisace, modely, software, obrázky, měření
výpočty aj.
4. Data management - definice
Je aktivní správa a zhodnocení dat během jejich životního
cyklu. (Engineering and Physical Sciences Research Council
policy framework on research data)
Pod pojmeme si představíme všechny prkatiky, manipulace,
vylepšení a procesy, které zajistí vysokou kvalitu vědeckých
dat, která jsou dobře zorganizována, zdokumentována,
uložena, udržitelně uchovávána, dostupná a
znovuvyužitelná.(Corti, 2014)
Zahrnuje aktivity: plánování a popisu práce s daty, popis
dat, uložení během výzkumu a po jeho uzavření, případné
zveřejnění dat a prolinkování na publikace vztahující se k
výzkumu.
5. DMP - definice
• DMPlanning - je proces plánování, popisu a
informování o životním cyklu dat a činností
spojených s jejich správou v průběhu
výzkumu.
• DMPlan – je dokument, který popisuje tyto
činnosti. Dokumenty často vyžadují
poskytovatelé dotací či grantů.
6. Open data - definice
Jsou data, která jsou volně dostupná pro
kohokoliv na internetu a dále vytěžována,
využívána, reprodukována a šířena.
• Navazuje na tradici Open Access
• Hlavní oblastí tzv. government data, ale nyní i
scinetific data
• Nové využití tzv. citizen science (např.
Zooniverse)
7. Data management – Proč?
• Transparentnost
• Efektivita
• Řízení rizika
• Uchování
• Splnění grantových požadavků
8. Data management – Proč?
Také pro vás!
• Organizace dat
• Fluktuace zaměstnanců/vědců
• Neduplikování činnosti
9. Open data – Proč?
• Validace vašich výsledků – případ
• Možnosti nových objevů - případ
• Vyšší citovanost – studie
10. Životní cyklus dat
Zdroj: http://www.data-archive.ac.uk/create-manage/life-cycle
11. Životní cyklus dat – případová studie
Naplánování výzkumu.
Souhlas účastníku s
primárním užitím dat.
Účastníci si píší deníky.
Nahrávky rozhovorů.
Přepis rozhovorů. Přepis
deníků.
Zpracování dat pro
výzkum. Uchovávání dat
diskutováno s účastníky.
Souhlas účastníků s
uchováváním dat.
Přepisy a nahrávky
uloženy do Data Archive
UK. Vytvořen
katalogizační záznam a
návod pro uživatele.
Data znovu využita v nové
studii.
Data zveřejněna.
Zdroj: Corti, 2014, str.21
12. Data Management – kdo?
• Vědci –tvůrci dat
• IT – technické zajištění sběru a uchování
• Právníci – etické a právní otázky
• Knihovníci – popis dat, uchování, sdílení
• Projektový manažeři – podmínky daných
projektů
• Nakladatelé a poskytovatelé grantů – dávají
požadavky
13. Data Management Plan - obsah
• U každého poskytovatele může být odlišné
zadání.
• Základ by však měl být stejný:
http://www.dcc.ac.uk/resources/data-management-
plans/checklist
14. Data Management Plan – základní
oblasti
• Typy, formáty, standardy dat a metody jejich
sběru
• Etické standardy a právní stránka
• Přístup, sdílení a znovu užití dat
• Krátkodobé uchování a data management
• Dlouhodobé uchování
• Zajištění zdrojů
15. DMP - Typy, formáty, standardy dat a
metody jejich sběru
• Jaká data budete váš výzkum produkovat?
(formáty, typ, objem, obsah, kvalita)
Doporučené formáty pro dlouhodobé uchovávání:
– Formáty široce používaných software (MS Word,
rtf, MS Excel, SPSS)
– Otevřené formáty (PDF/A, CSV, TIFF, ODF, ASCII,
tabel-delimited format, comma-separated values,
XML)
16. DMP - Typy, formáty, standardy dat a
metody jejich sběru
• Jak bude třeba data popsat?
(jména a struktura souborů, metadatové a přílohové
materiály ke správné interpretaci)
Pojmenování souborů
– Používejte konzistentně a všichni v projektu
– Mělo by obsahovat tyto elementy: zkratku projektu, popis
obsahu, informaci o typu dokumentu, datum, iniciály
tvůrce, číslo verze, status např. draft nebo final
– Např. FG1_CONS_12-02-2010.rtf (přepis rozhovorů first
focus group with consumers konaných dne 12.02.2012)
17. DMP - Typy, formáty, standardy dat a
metody jejich sběru
• Jaké standardy a metodologie bude třeba
použít při sběru dat?
(má instituce nějaké standardy, poskytovatel,
metadatové standardy apod.)
18. DMP - Etické standardy a právo
• Ochrana osobních dat
• Bezpečnost (utajované informace)
• Dodržování základních lidských práv
• Komerční a průmyslové využití dat
• Autorské a majetkové právo
Další info.:
http://www.h2020.cz/cs/storage/e38c919be0564a5290b5b0d84db1a977c17
5d51c?uid=e38c919be0564a5290b5b0d84db1a977c175d51c
19. DMP - Přístup, sdílení a znovu užití dat
• Kdo a pro jaké účely využije vaše data?
• Jak data zpřístupníte?
(kde, jak budou vyhledatelná, kdy)
• Jak budete data licencovat?
(za jakých podmínek je může někdo využít, licence
Creative Commons)
20. DMP - Krátkodobé uchování a data
management
• Bezpečnost a uchování
(kde se budou data ukládat, jaká forma ukládání, je
možné data uložit i mimo instituci, jak je zajištěna
jejich bezpečnost, kdo kontroluje jejich kvalitu)
• Přidělení rolí
(kdo má za co odpovědnost)
21. DMP - Dlouhodobé uchování
• Která data jsou vhodná pro dlouhodobé
uchování?
(http://www.dcc.ac.uk/resources/how-guides/
appraise-select-data, u většiny projektů se
jedná hlavně o data doplňující publikační činnost)
• Jak a kde budete data uchovávat?
(strojově čitelná podoba metadat, dlouhodobý
přístupu, linkování)
22. DPM – zajištění zdrojů
• Finančních
• Personálních
• Pomůcka pro vytváření rozpočtu:
http://www.data-archive.
ac.uk/media/247429/costingtool.pdf
23. DMP dobrá praxe
• Napište si DMP
• Vytvářejte zálohy. Pomůcka automatická synchronizace např.
Dropbox (pouze pro necitlivá data ).
• Popisujte data již při sběru. Kvalita metadat klesá s časem.
Uživatelé i vy v budoucnu budete snadněji rozumět svým
datům.
• Ukládejte data v otevřených formátech, kdykoliv je to možné.
Pro popis používejte standardizovanou metadatovou
strukturu.
• Ukládejte svá data v datových centrech a repozitářích.
Odkazujte na ně ve svých publikacích.
24. DMP - příklady
• USA: https://dmptool.org/public_dmps
• Rural Economy and Land Use (Relu):
http://relu.data-archive.ac.uk/data-sharing/
planning/examples
• Yale: http://ydc2.yale.edu/documentation/data-management-
plan-examples
• Další: http://www.dcc.ac.uk/resources/data-management-
plans/guidance-examples
26. DMP - kurzy
• Univerzity of Edinburgh:
http://datalib.edina.ac.uk/mantra/
• University of Minnesota:
https://sites.google.com/a/umn.edu/data-management-
course_structures/home-1
28. Požadavky poskytovatelů
• US: https://dmptool.org/guidance
• Nakladatelé: Plos, BioMed Central, Nature
publishing, Elsevier a další
• Evropská komise - Horizon 2020
29. Horizon 2020 – proč?
• dlouhodobá podpora Open Access přístupu
(FP7 program, podpůrná infrastruktura OpenAIRE plus, Horizon
2020)
• Open data další krok
(Horizon 2020 – open data pilot)
• Povinnost otevřeného přístupu k vědeckým publikacím a
výzkumným datům je právně ošetřena v článku 29.2 a 29.3
modelové grantové smlouvy.
• Základní dokumenty k OA a datům:
http://ec.europa.eu/research/participants/data/ref/h2020/grants_
manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf
http://ec.europa.eu/research/participants/data/ref/h2020/grants_
manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf
30. Horizon 2020 – kdo?
Oblasti pilotu:
• Future and Emerging Technologies
• Research infrastructures – part e-Infrastructures
• Leadership in enabling and industrial technologies –
Information and Communication Technologies
• Societal Challenge: Secure, Clean and Efficient Energy – part
Smart cities and communities
• Societal Challenge: Climate Action, Environment, Resource
Efficiency and Raw materials – with the
• exception of raw materials topics
• Societal Challenge: Europe in a changing world – inclusive,
innovative and reflective Societies
• Science with and for Society
Ostatní oblasti mohou dobrovolně
31. Horizon 2020 – kdo?
Důvody pro vyvázání z podmínky:
• Ochrana projektových výsledků
• Povinnost mlčenlivosti
• Projekty z oblasti bezpečnosti
• Ochrana osobních údajů
• Zpřístupnění konkrétních vědeckých dat (již vzniklých v projektu)
– by ohrozilo dosažení hlavního cíle projektu podle popisu v
Annexu I.
– nezpřístupnění je popsáno a odůvodněno v Data Management
Plan
• Existuje-li jiný oprávněný důvod pro „opt-out“
32. Horizon 2020 – co?
• Data která jsou nutná pro interpretaci
výsledků u vědeckých publikací tzv. Underlying
data
• Ostatní data, která se vědecký tým rozhodne
publikovat
• Nutné publikovat vždy se souvisejícími
metadaty
33. Horizon 2020 - postup
• Povinnost uložit data v repozitáři
• Povinnost přijmout opatření k tomu, aby třetí
strany měly možnost bezplatného přístupu,
využití, šíření a reprodukování těchto dat
• Povinnost poskytnout informace o nástrojích
a instrumentech - potřebné pro ověření
výsledků
(pokud je to možné, poskytnout tyto nástroje a
instrumenty)
34. Horizon 2020 - DM
• Všechny projekty v H2020 musejí obsahovat
základní informace o data managementu ve svých
přihláškách
• Tyto informace poslouží pro evaluaci projektu
pod kritériem „impact“
• Je třeba zodpovědět tyto základní dotazy:
Jaká data budou v projektu generována a sbírána?
Jaký standard bude na sběr použit?
Jak budou data zveřejněna a sdílena? Pokud ne proč?
Jak budou tyto data spravována a uchovávána?
35. Horizon 2020 - DMP
• Pilotní projekty musí obsahovat Data
Management Plan
• Plán není částí přihlášky a neslouží k evaluaci
• První verze do 6 měsíců od započetí projektu
• Další verze v polovině projektu a v závěrečné
zprávě
36. Horizon 2020 - obsah
• Vzor DMP pro Horizon 2020 – Annex 1 -
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h202
0-hi-oa-data-mgt_en.pdf
• Jednotlivé informace v DMP pro každý dataset:
– Data set reference and name: základní popis a jméno datasetu
– Data set description: popis dat, jejich původu, kde budou generována a sbírána. Kdo by je v
budoucnu mohl využívat. Informace o tom zda existují nebo neexistují podobná data a možnosti je
znovu využít.
– Standards and metadata: odkazy na existující využitelné standardy popisu dat, pokud neexistují,
návrh jak budou data metadatově popisována.
– Data sharing: jak budou data sdílena – otevřeně nebo s nějakou restrikcí pro specifickou skupinu.
Důvod proč popřípadě nemohou být sdílena. Popis přístupu k datům. Uvedené embargo, pokud
existuje. Popsané technické mechanismy přístupu k datům, popřípadě speciální software.
– Archiving and preservation (including storage and backup): kde budou data uložena, archivována a
ochráněna (repozitář). Jak dlouho budou data uložena, jak se zařídí dlouhodobé uchování. Finální
objem dat. Popis finančního a personálního zajištění.
37. Horizon 2020 - obsah
• Více propracovaný DMP
• Discoverable: jsou data snadno vyhledatelná – např. použitím
jednoznačného identifikátoru DOI.
• Accessible: jsou data snadno dostupná – kdo má práva, jaké jsou
licence, jsou embarga?
• Assessable and intelligible: jsou data a potřebný software snadno
dostupný třetím stranám pro znovuvyužití, validaci, interpretaci?
• Use beyond the original purpose for which it was collected: budou
data dostupná a využitelná i v budoucnosti . Jednouché formáty,
software, zajištěn upgrade.
• Interoperable to specific quality standards: jsou data a software
interoperabilní, byly použity standardizované formáty, formáty
široce využívané, které se dají zaměnit nebo v průběhu času
neztrácejí data.
38. Horizon 2020 - licencování
EC doporučuje licence cc pro data:
https://creativecommons.org/licenses/by/3.0/cz/
http://creativecommons.org/publicdomain/zero/1.0/
40. Kde? - Open data repozitáře
Registry repozitářů:
Registry of research data repozitories:http://www.re3data.org/
Databib: http://databib.org/
Velké datové repozitáře:
Dryard:http://datadryad.org/
GitHub: https://github.com/
Zenodo https://zenodo.org/
Oborové
http://oad.simmons.edu/oadwiki/Disciplinary_repositories
https://www.libraries.psu.edu/psul/researchguides/pubcur/data_r
esources.html#open-data
41. Situace na VUT
Open Access a Horizon2020
• Digitální knihovna VUT využitelná k naplnění podmínek publikování
Open Access zelenou cestou u projektů Horizon2020. Veškeré info o
vkládání článku do DK a OA: https://www.vutbr.cz/openaccess
Open data na VUT a Horizon2020
• Digitální knihovny VUT bude uzpůsobena k ukládání a zveřejňování
vědeckých dat, dle požadavků projektů Horizon2020 – termín červenec
až srpen 2015
• Vytvoření vzoru DMP pro VUT, směrnice a dalších dokumentů
• Základní informace k této oblasti lze nalézt na Portálu
knihoven: https://www.vutbr.cz/knihovny/openaccess/projekty-eu.
• Školení Data Management a vytvoření Data Management Plan. Školení
je možné domluvit u p. Dědičové při účasti 5 a více účastníků.