Prezentace k přednášce v předmětu Informační pondělky ze dne 19. 4. 2020. Více informací o cyklu přednášek naleznete na: https://uisk.ff.cuni.cz/cs/pro-verejnost/informacni-pondelky/
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
David Novák: Historické vědy a počítačové zpracování dat
1. Historické vědy a počítačové
zpracování dat
Možnosti aplikace digitálních technologií při výzkumu v humanitních
oborech
David Novák, Archeologický ústav AV ČR, Praha
6. Informační (datová) věda -> způsob přemýšlení
• Každá realita (minulá i současná) lze popisovat daty
• Data vznikají rozkladem reality na dílčí konceptuální úrovně
• Informace získáváme hledáním nenáhodností v datech (data s nízkou
entropií -> struktury a trendy)
• Znalosti odvozujeme z interpretace informací (teorie a metoda)
Takový postup je přirozenou součástí poznávacího procesu
(nesouvisí s využitím digitálních nástrojů)
Digitalizace však přináší:
• Zjednodušení sběru dat (při co nejpřesnějším popisu reality)
• Možnost propojení informací různého původu, kvality i formy
• Nástroje pro efektivnější vyhledávání informací a jejich zpracování
8. Proč digitální databáze?
• Verbální popis (narace):
• efektivní „úložiště“ a médium pro zpracování
člověkem, ALE
• vysoká komplexita (lze obtížně strukturovat)
• nevhodný pro automatizované zpracování
(absence systému a významové
jednoznačnosti)
• obtížná reference a reprodukovatelnost
• Formalizovaný popis (datový přístup)
• jednotná pravidla záznamu
• umožňuje hromadné zpracování, řazení,
třídění, klasifikaci a aplikaci statistických
metod
• otevírání nových otázek
• podpora principů FAIR a Open Science
9.
10. Data a jejich vztahy v pojetí relačních databází
• Entity = předměty, události,
osoby, místa, periody…
• Kvality = formální vlastnosti,
četnost, popis, typologie,
datace…
• Relace = formální i významové
vztahy
-------------------------
• Prostorové vlastnosti = kontext
(uvnitř i vně souboru)
14. Vytváření datového modelu
• Základem je definice účelu databáze (vědecká otázka, cíl evidence…)
• Databáze nikdy není všeobjímající a z principu je zjednodušením
přirozených vztahů – abstrahuje od reálného světa
• Měla by dodržovat přirozené a logické vazby přítomné v datech,
vycházející z reálného světa a z povahy studovaného problému -> díky
tomu je možné přidávat další datové třídy bez nutnosti složitých úprav
• Datový model ovlivňuje spektrum možných otázek a aplikovatelnost
konkrétních metod
Nutí k pečlivému plánování postupu
Dobrý model posiluje reprodukovatelnost, interoperabilitu, sdílení…
16. Databázové dotazy jako způsob vytěžování dat
• Dotazování dat napříč datovým modelem ->
možnosti dány zejména strukturou dat (nikoli
původního zdroje)
• Od základních dotazů (počty, průměry, sloučení
nespojitých dat) po komplexní statistické analýzy
(podmíněné dotazy, matematické operace,
agregační funkce)
• Manipulace s daty (editace, importy, exporty…)
• Preprocessing dat pro další zpracování ve
specifických nástrojích
17. Počet rodů / kumulativní doba držby sídel
Počet existujících sídel po obdobích
18. Majetková držba sídel existujících v 15. století.
1 – panovnické rody a korunní držba; 2 – církevní instituce a hodnostáři; 3 – městské obce a měšťané;
4 – ostatní pozemkoví magnáti; 5 – ostatní držitelé.
Majetková držba sídel existujících v 17. století.
19. Prostorová data
• Jsou nedílně spojena s jakoukoli informací (lze lokalizovat
přinejmenším prostřednictvím původce, příjemce a média)
• Jsou nutně spojena s časovou složkou (vztah k prostoru je vždy závislý
na čase) -> implikuje dynamiku
• Jsou univerzální -> umožňují široké provázání s daty mimo rámec
konkrétních oborů
• Jsou definována
• Polohou objektu v souřadnicovém systému
• Prostorovými vztahy mezi objekty (topologie)
• Tvarem (typem) objektu (0D až 3D)
• Neprostorovými atributy
20. Geografické informační systémy (GIS)
Informační systémy pro získávání, ukládání,
analýzu a vizualizaci prostorových
(geografických) dat
• Tvořeny geodaty organizovanými pomocí
mapových vrstev (podobně jako vrstvy ve
Photoshopu), které jsou často
tematizované (vodstvo, osídlení, události
apod.)
• Výhodou jsou široké analytické možnosti a
proměnlivé měřítko (=> výrazná flexibilita)
• Založené na databázi obohacené o
prostorová data (vektorové objekty) a
definici spojitých povrchů (rastrová data)
21.
22. Princip integrace datových vrstev v
GIS leží v jejich ukotvení ve
stanoveném souřadnicovém
systému (zde WGS-84 / UTM).
Kombinovat lze různé druhy vrstev
od kolmých leteckých snímků (1),
přes staré mapy (2), data leteckého
laserového skenování (3), výsledky
archeologických pozorování (4) až
po současná mapová díla (5)
Zobrazeno hradiště Češov (okr.
Jičín; další informace o lokalitě viz
zobrazený QR kód).
23. Evidence sídel v GIS na různých úrovních
podrobnosti (vpravo v pozadí červeně
hustota středověkého osídlení)
25. Příklad analýzy sídla v GIS (hrad Křivoklát;
okr. Rakovník).
Červené/černé izolinie – zázemí dostupné
do hodiny chůze (podle frikčního povrchu)
rozdělené po 10 minutách;
žluté linie – významné koridory vymezené
podle přirozené komunikační sítě;
bílé šrafování – oblasti viditelné ze sídla;
černé kruhy – osídlení vážené podle
předpokládané velikosti;
modré plochy – modelované rozlivy a
vodní toky.
35. Uzly a hrany
• Uzly mohou
vyjadřovat:
• osoby
• místa
• události
• předměty
• vlastnosti
• typy
• …
(+ kombinace
předchozích)
• Hrany mohou
vyjadřovat:
• sociálních vztahy
• ekonomické
vazby
• hierarchii
• podobnost
• vztah v prostoru
• viditelnost
• pohyb
• chronologii
• interakci
http://gtm.math.umd.edu/networks2019.html
36. Typy sítí a metriky v
síťové analýze
https://www.kbmanage.com/concept/social-network-analysys
https://www.semanticscholar.org/paper/Graph-theory-analysis-of-complex-brain-
networks%3A-in-Hart-Ypma/c50d5216ab35e9321ee92cc5d9b05b0ca8233a58/figure/2
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-
introduction/introduction-graph-theory/graph-0
37. Síť vztahů mezi sídly založená na jejich
podobnosti. Vazby byly stanoveny na
základě rozdílu jejich potenciálu v dílčích
oblastech (produkční, obranný,
společenský, organizační, komunikační,
vizuální). Barevně rozlišeny zánikové
horizonty sídel:
žlutá – 13. stol.
oranžová – 14. stol.
červená – 15. století
fialová – 16. století
modrá – 17. století
černá – mladší horizonty
šedý čtverec – nedatováno
V grafu se projevuje typologické
rozložení spojené s chronologickým
vývojem sídel i jejich dílčí kategorie v
rámci jednotlivých horizontů.
38. Příklad analýzy sociálních vazeb ve středověké společnosti
https://oeaw.academia.edu/MappingMedievalConflict
41. Příklady užitečných nástrojů a webů
• https://books.google.com/ngrams
• výskyt pojmů v literatuře
• https://voyant-tools.org/
• analýza textů
• https://openrefine.org/
• čištění neutříděných a nehomogenních dat
• https://ocr.indihu.cz/
• online OCR
• https://exhibition.indihu.cz/
• tvorba virtuálních výstav
• https://earthengine.google.com/
• analýza prostorových dat v cloudovém prostředí
• https://lindat.mff.cuni.cz/
• významná NLP infrastruktura
• https://gephi.org/
• SW pro síťovou analýzu
• https://gsuite.google.com/marketplace/app/wikipedia_and_wikid
ata_tools/595109124715?pann=cwsdp&hl=en
• nástroj pro užití Wipedie a Wikidat pro obohacování vlastních dat
• https://www.qgis.org/
• skvělý GIS SW zdarma
• http://timemapper.okfnlabs.org/
• vizualizace časových map
• http://linkeddata.org/
• základy k Linked Data
• http://historicalnetworkresearch.org/
• vše pro síťovou analýzu (příklady, nástroje…)
• https://www.czadh.cz/
• Česká asociace pro DH
• https://digitalhumanities.cz/
• DH a datové zdroje na AV ČR
• https://caa-international.org/
• obrovské množství případových studií z oblasti archeologie