SlideShare a Scribd company logo
1 of 41
Historické vědy a počítačové
zpracování dat
Možnosti aplikace digitálních technologií při výzkumu v humanitních
oborech
David Novák, Archeologický ústav AV ČR, Praha
Digital Humanities?
Digital Humanities – relevantní okruhy
• Spatial Humanities (GIS)
• studium prostorových aspektů historických fenoménů (událostí, subjektů, objektů,
procesů…), zapojení krajinného kontextu, proxy data
• Network Analysis
• síťové modely založené na podobnosti, prostorovém kontextu, interpretačních modelech,
přirozených vztazích…
• Natural Language Processing
• tagování, překlady, textová analýza, text mining, vizualizace obsahu, distanční čtení
• Big Data
• vyhodnocení komplexních datasetů, pokročilá statistika, algoritmy strojového učení
• 3D data
• vizualizace, dokumentace, modelování, virtuální rekonstrukce, gamifikace
• Digitální archivy a infrastruktury
• tvorba datových korpusů a nástrojů k jejich vytěžování
Informatika?
Informační (datová) věda -> způsob přemýšlení
• Každá realita (minulá i současná) lze popisovat daty
• Data vznikají rozkladem reality na dílčí konceptuální úrovně
• Informace získáváme hledáním nenáhodností v datech (data s nízkou
entropií -> struktury a trendy)
• Znalosti odvozujeme z interpretace informací (teorie a metoda)
 Takový postup je přirozenou součástí poznávacího procesu
(nesouvisí s využitím digitálních nástrojů)
 Digitalizace však přináší:
• Zjednodušení sběru dat (při co nejpřesnějším popisu reality)
• Možnost propojení informací různého původu, kvality i formy
• Nástroje pro efektivnější vyhledávání informací a jejich zpracování
https://blogs.informatica.com/2019/08/20/data-processing-pipeline-patterns/
Proč digitální databáze?
• Verbální popis (narace):
• efektivní „úložiště“ a médium pro zpracování
člověkem, ALE
• vysoká komplexita (lze obtížně strukturovat)
• nevhodný pro automatizované zpracování
(absence systému a významové
jednoznačnosti)
• obtížná reference a reprodukovatelnost
• Formalizovaný popis (datový přístup)
• jednotná pravidla záznamu
• umožňuje hromadné zpracování, řazení,
třídění, klasifikaci a aplikaci statistických
metod
• otevírání nových otázek
• podpora principů FAIR a Open Science
Data a jejich vztahy v pojetí relačních databází
• Entity = předměty, události,
osoby, místa, periody…
• Kvality = formální vlastnosti,
četnost, popis, typologie,
datace…
• Relace = formální i významové
vztahy
-------------------------
• Prostorové vlastnosti = kontext
(uvnitř i vně souboru)
Datový model
evidenční databáze
vrchnostenských
sídel a jejich
držitelů
Vytváření datového modelu
• Základem je definice účelu databáze (vědecká otázka, cíl evidence…)
• Databáze nikdy není všeobjímající a z principu je zjednodušením
přirozených vztahů – abstrahuje od reálného světa
• Měla by dodržovat přirozené a logické vazby přítomné v datech,
vycházející z reálného světa a z povahy studovaného problému -> díky
tomu je možné přidávat další datové třídy bez nutnosti složitých úprav
• Datový model ovlivňuje spektrum možných otázek a aplikovatelnost
konkrétních metod
 Nutí k pečlivému plánování postupu
 Dobrý model posiluje reprodukovatelnost, interoperabilitu, sdílení…
Entity-Relation
(E-R) Model
https://sites.google.com/site/merasemester/dbm/chapter-3
Databázové dotazy jako způsob vytěžování dat
• Dotazování dat napříč datovým modelem ->
možnosti dány zejména strukturou dat (nikoli
původního zdroje)
• Od základních dotazů (počty, průměry, sloučení
nespojitých dat) po komplexní statistické analýzy
(podmíněné dotazy, matematické operace,
agregační funkce)
• Manipulace s daty (editace, importy, exporty…)
• Preprocessing dat pro další zpracování ve
specifických nástrojích
Počet rodů / kumulativní doba držby sídel
Počet existujících sídel po obdobích
Majetková držba sídel existujících v 15. století.
1 – panovnické rody a korunní držba; 2 – církevní instituce a hodnostáři; 3 – městské obce a měšťané;
4 – ostatní pozemkoví magnáti; 5 – ostatní držitelé.
Majetková držba sídel existujících v 17. století.
Prostorová data
• Jsou nedílně spojena s jakoukoli informací (lze lokalizovat
přinejmenším prostřednictvím původce, příjemce a média)
• Jsou nutně spojena s časovou složkou (vztah k prostoru je vždy závislý
na čase) -> implikuje dynamiku
• Jsou univerzální -> umožňují široké provázání s daty mimo rámec
konkrétních oborů
• Jsou definována
• Polohou objektu v souřadnicovém systému
• Prostorovými vztahy mezi objekty (topologie)
• Tvarem (typem) objektu (0D až 3D)
• Neprostorovými atributy
Geografické informační systémy (GIS)
Informační systémy pro získávání, ukládání,
analýzu a vizualizaci prostorových
(geografických) dat
• Tvořeny geodaty organizovanými pomocí
mapových vrstev (podobně jako vrstvy ve
Photoshopu), které jsou často
tematizované (vodstvo, osídlení, události
apod.)
• Výhodou jsou široké analytické možnosti a
proměnlivé měřítko (=> výrazná flexibilita)
• Založené na databázi obohacené o
prostorová data (vektorové objekty) a
definici spojitých povrchů (rastrová data)
Princip integrace datových vrstev v
GIS leží v jejich ukotvení ve
stanoveném souřadnicovém
systému (zde WGS-84 / UTM).
Kombinovat lze různé druhy vrstev
od kolmých leteckých snímků (1),
přes staré mapy (2), data leteckého
laserového skenování (3), výsledky
archeologických pozorování (4) až
po současná mapová díla (5)
Zobrazeno hradiště Češov (okr.
Jičín; další informace o lokalitě viz
zobrazený QR kód).
Evidence sídel v GIS na různých úrovních
podrobnosti (vpravo v pozadí červeně
hustota středověkého osídlení)
http://www.gitta.info/AnalyConcept/en/html/Overview_learningObject3.html
Příklad analýzy sídla v GIS (hrad Křivoklát;
okr. Rakovník).
Červené/černé izolinie – zázemí dostupné
do hodiny chůze (podle frikčního povrchu)
rozdělené po 10 minutách;
žluté linie – významné koridory vymezené
podle přirozené komunikační sítě;
bílé šrafování – oblasti viditelné ze sídla;
černé kruhy – osídlení vážené podle
předpokládané velikosti;
modré plochy – modelované rozlivy a
vodní toky.
relační <-> objektově orientovaný model
Linked (Open) Data
https://pds.blog.parliament.uk/2018/01/24/accessing-semantic-data-with-odata-web-interface/
relační data <-> sémantické trojice (XML/RDF)
(databáze <-> triplestore)
CIDOC CRM
formální
ontologický
model pro
kulturní dědictví
http://www.cidoc-crm.org/
https://openatlas.eu/
https://oeaw.academia.edu/MappingMedievalConflict
https://openatlas.eu/
(Social / Complex) Networks Analysis
http://www.social-life.co/blog/post/social_network_analysis/
Uzly a hrany
• Uzly mohou
vyjadřovat:
• osoby
• místa
• události
• předměty
• vlastnosti
• typy
• …
(+ kombinace
předchozích)
• Hrany mohou
vyjadřovat:
• sociálních vztahy
• ekonomické
vazby
• hierarchii
• podobnost
• vztah v prostoru
• viditelnost
• pohyb
• chronologii
• interakci
http://gtm.math.umd.edu/networks2019.html
Typy sítí a metriky v
síťové analýze
https://www.kbmanage.com/concept/social-network-analysys
https://www.semanticscholar.org/paper/Graph-theory-analysis-of-complex-brain-
networks%3A-in-Hart-Ypma/c50d5216ab35e9321ee92cc5d9b05b0ca8233a58/figure/2
https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data-
introduction/introduction-graph-theory/graph-0
Síť vztahů mezi sídly založená na jejich
podobnosti. Vazby byly stanoveny na
základě rozdílu jejich potenciálu v dílčích
oblastech (produkční, obranný,
společenský, organizační, komunikační,
vizuální). Barevně rozlišeny zánikové
horizonty sídel:
žlutá – 13. stol.
oranžová – 14. stol.
červená – 15. století
fialová – 16. století
modrá – 17. století
černá – mladší horizonty
šedý čtverec – nedatováno
V grafu se projevuje typologické
rozložení spojené s chronologickým
vývojem sídel i jejich dílčí kategorie v
rámci jednotlivých horizontů.
Příklad analýzy sociálních vazeb ve středověké společnosti
https://oeaw.academia.edu/MappingMedievalConflict
http://www.aiscr.cz/
Příklady užitečných nástrojů a webů
• https://books.google.com/ngrams
• výskyt pojmů v literatuře
• https://voyant-tools.org/
• analýza textů
• https://openrefine.org/
• čištění neutříděných a nehomogenních dat
• https://ocr.indihu.cz/
• online OCR
• https://exhibition.indihu.cz/
• tvorba virtuálních výstav
• https://earthengine.google.com/
• analýza prostorových dat v cloudovém prostředí
• https://lindat.mff.cuni.cz/
• významná NLP infrastruktura
• https://gephi.org/
• SW pro síťovou analýzu
• https://gsuite.google.com/marketplace/app/wikipedia_and_wikid
ata_tools/595109124715?pann=cwsdp&hl=en
• nástroj pro užití Wipedie a Wikidat pro obohacování vlastních dat
• https://www.qgis.org/
• skvělý GIS SW zdarma
• http://timemapper.okfnlabs.org/
• vizualizace časových map
• http://linkeddata.org/
• základy k Linked Data
• http://historicalnetworkresearch.org/
• vše pro síťovou analýzu (příklady, nástroje…)
• https://www.czadh.cz/
• Česká asociace pro DH
• https://digitalhumanities.cz/
• DH a datové zdroje na AV ČR
• https://caa-international.org/
• obrovské množství případových studií z oblasti archeologie

More Related Content

Similar to David Novák: Historické vědy a počítačové zpracování dat

KGE/GIS: přednáška 1 - úvod do problematiky
KGE/GIS: přednáška 1 - úvod do problematikyKGE/GIS: přednáška 1 - úvod do problematiky
KGE/GIS: přednáška 1 - úvod do problematikyJiří Šmída
 
Denisa Parkosová: Knowledge management a jeho vazba na rozhodovací a plánovac...
Denisa Parkosová: Knowledge management a jeho vazba na rozhodovací a plánovac...Denisa Parkosová: Knowledge management a jeho vazba na rozhodovací a plánovac...
Denisa Parkosová: Knowledge management a jeho vazba na rozhodovací a plánovac...ÚISK FF UK
 
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyBlok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyMoravskaZemskaKnihovna
 
LTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CRLTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CRdp-blog-cz
 
Techniky a nástroje pro propojená data (Linked Data)
Techniky a nástroje pro propojená data (Linked Data)Techniky a nástroje pro propojená data (Linked Data)
Techniky a nástroje pro propojená data (Linked Data)Martin Necasky
 
Prague data management meetup 2016-09-22
Prague data management meetup 2016-09-22Prague data management meetup 2016-09-22
Prague data management meetup 2016-09-22Martin Bém
 
Infoveda, informace, zahlceni
Infoveda, informace, zahlceniInfoveda, informace, zahlceni
Infoveda, informace, zahlceniMartin Soucek
 
Geoportál „pro každého“
Geoportál „pro každého“Geoportál „pro každého“
Geoportál „pro každého“Karel Charvat
 
Lehký úvod do metod vizualizace komplexity sociálních sítí
Lehký úvod do metod vizualizace komplexity sociálních sítíLehký úvod do metod vizualizace komplexity sociálních sítí
Lehký úvod do metod vizualizace komplexity sociálních sítíMichal Novák
 
Výzva jménem data science
Výzva jménem data scienceVýzva jménem data science
Výzva jménem data scienceJakub Mráček
 
Workshop - Sasinka - Metodologické aspekty empirického výzkumu v oblasti kogn...
Workshop - Sasinka - Metodologické aspekty empirického výzkumu v oblasti kogn...Workshop - Sasinka - Metodologické aspekty empirického výzkumu v oblasti kogn...
Workshop - Sasinka - Metodologické aspekty empirického výzkumu v oblasti kogn...swenney
 
Metadata a metadatové formáty používané v knihovnách
Metadata a metadatové formáty používané v knihovnáchMetadata a metadatové formáty používané v knihovnách
Metadata a metadatové formáty používané v knihovnáchpavluskas
 
Integrální taktový grafikon v ČR 2013
Integrální taktový grafikon v ČR 2013Integrální taktový grafikon v ČR 2013
Integrální taktový grafikon v ČR 2013Zdeněk Michl
 

Similar to David Novák: Historické vědy a počítačové zpracování dat (18)

KGE/GIS: přednáška 1 - úvod do problematiky
KGE/GIS: přednáška 1 - úvod do problematikyKGE/GIS: přednáška 1 - úvod do problematiky
KGE/GIS: přednáška 1 - úvod do problematiky
 
Denisa Parkosová: Knowledge management a jeho vazba na rozhodovací a plánovac...
Denisa Parkosová: Knowledge management a jeho vazba na rozhodovací a plánovac...Denisa Parkosová: Knowledge management a jeho vazba na rozhodovací a plánovac...
Denisa Parkosová: Knowledge management a jeho vazba na rozhodovací a plánovac...
 
02 OAIS.pptx
02 OAIS.pptx02 OAIS.pptx
02 OAIS.pptx
 
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, PojektyBlok expertů KISK: Ditigalizace, Metadata, Pojekty
Blok expertů KISK: Ditigalizace, Metadata, Pojekty
 
LTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CRLTP Pilot - Archivematica Projekt v CR
LTP Pilot - Archivematica Projekt v CR
 
Techniky a nástroje pro propojená data (Linked Data)
Techniky a nástroje pro propojená data (Linked Data)Techniky a nástroje pro propojená data (Linked Data)
Techniky a nástroje pro propojená data (Linked Data)
 
Data management
Data managementData management
Data management
 
Learning analytics
Learning analyticsLearning analytics
Learning analytics
 
Závěrečný úkol KPI
Závěrečný úkol KPIZávěrečný úkol KPI
Závěrečný úkol KPI
 
Prague data management meetup 2016-09-22
Prague data management meetup 2016-09-22Prague data management meetup 2016-09-22
Prague data management meetup 2016-09-22
 
Infoveda, informace, zahlceni
Infoveda, informace, zahlceniInfoveda, informace, zahlceni
Infoveda, informace, zahlceni
 
Geoportál „pro každého“
Geoportál „pro každého“Geoportál „pro každého“
Geoportál „pro každého“
 
Lehký úvod do metod vizualizace komplexity sociálních sítí
Lehký úvod do metod vizualizace komplexity sociálních sítíLehký úvod do metod vizualizace komplexity sociálních sítí
Lehký úvod do metod vizualizace komplexity sociálních sítí
 
Otevřená data a kam s nimi
Otevřená data a kam s nimiOtevřená data a kam s nimi
Otevřená data a kam s nimi
 
Výzva jménem data science
Výzva jménem data scienceVýzva jménem data science
Výzva jménem data science
 
Workshop - Sasinka - Metodologické aspekty empirického výzkumu v oblasti kogn...
Workshop - Sasinka - Metodologické aspekty empirického výzkumu v oblasti kogn...Workshop - Sasinka - Metodologické aspekty empirického výzkumu v oblasti kogn...
Workshop - Sasinka - Metodologické aspekty empirického výzkumu v oblasti kogn...
 
Metadata a metadatové formáty používané v knihovnách
Metadata a metadatové formáty používané v knihovnáchMetadata a metadatové formáty používané v knihovnách
Metadata a metadatové formáty používané v knihovnách
 
Integrální taktový grafikon v ČR 2013
Integrální taktový grafikon v ČR 2013Integrální taktový grafikon v ČR 2013
Integrální taktový grafikon v ČR 2013
 

More from ÚISK FF UK

Martina Košanová: Komunikace s problémovými uživateli knihoven
Martina Košanová: Komunikace s problémovými uživateli knihovenMartina Košanová: Komunikace s problémovými uživateli knihoven
Martina Košanová: Komunikace s problémovými uživateli knihovenÚISK FF UK
 
Vojtěch Vojtíšek & Laďka Zbiejczuk Suchá: Redesign knihovních služeb: webové ...
Vojtěch Vojtíšek & Laďka Zbiejczuk Suchá: Redesign knihovních služeb: webové ...Vojtěch Vojtíšek & Laďka Zbiejczuk Suchá: Redesign knihovních služeb: webové ...
Vojtěch Vojtíšek & Laďka Zbiejczuk Suchá: Redesign knihovních služeb: webové ...ÚISK FF UK
 
Eva Novotná: Kartografické dědictví v Mapové sbírce Přírodovědecké fakulty UK
Eva Novotná: Kartografické dědictví v Mapové sbírce Přírodovědecké fakulty UKEva Novotná: Kartografické dědictví v Mapové sbírce Přírodovědecké fakulty UK
Eva Novotná: Kartografické dědictví v Mapové sbírce Přírodovědecké fakulty UKÚISK FF UK
 
Iva Horová: Sto let pokusů o vybudování národního zvukového archivu
Iva Horová: Sto let pokusů o vybudování národního zvukového archivuIva Horová: Sto let pokusů o vybudování národního zvukového archivu
Iva Horová: Sto let pokusů o vybudování národního zvukového archivuÚISK FF UK
 
Andrea Jelínková: Knihovědní detektivové
Andrea Jelínková: Knihovědní detektivovéAndrea Jelínková: Knihovědní detektivové
Andrea Jelínková: Knihovědní detektivovéÚISK FF UK
 
Martina Košanová: Vizuální smog v knihovnách
Martina Košanová: Vizuální smog v knihovnáchMartina Košanová: Vizuální smog v knihovnách
Martina Košanová: Vizuální smog v knihovnáchÚISK FF UK
 
Jana Šeblová: Samizdatová literatura a hudební publicistika
Jana Šeblová: Samizdatová literatura a hudební publicistikaJana Šeblová: Samizdatová literatura a hudební publicistika
Jana Šeblová: Samizdatová literatura a hudební publicistikaÚISK FF UK
 
Jiří Nechvátal: Projekt Obálkyknih.cz
Jiří Nechvátal: Projekt Obálkyknih.czJiří Nechvátal: Projekt Obálkyknih.cz
Jiří Nechvátal: Projekt Obálkyknih.czÚISK FF UK
 
Marie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritMarie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritÚISK FF UK
 
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?ÚISK FF UK
 
Anna Hoťová: Školní knihovny
Anna Hoťová: Školní knihovnyAnna Hoťová: Školní knihovny
Anna Hoťová: Školní knihovnyÚISK FF UK
 
Magdalena Paul: Fake news
Magdalena Paul: Fake newsMagdalena Paul: Fake news
Magdalena Paul: Fake newsÚISK FF UK
 
Rudolf Rosa: Milníky umělé inteligence
Rudolf Rosa: Milníky umělé inteligenceRudolf Rosa: Milníky umělé inteligence
Rudolf Rosa: Milníky umělé inteligenceÚISK FF UK
 
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021) Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021) ÚISK FF UK
 
Pavel Herout: Datová centra (18. 10. 2021)
Pavel Herout: Datová centra (18. 10. 2021)Pavel Herout: Datová centra (18. 10. 2021)
Pavel Herout: Datová centra (18. 10. 2021)ÚISK FF UK
 
Anna Štičková: Čuchni ke knize
Anna Štičková: Čuchni ke knizeAnna Štičková: Čuchni ke knize
Anna Štičková: Čuchni ke knizeÚISK FF UK
 
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovnyHana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovnyÚISK FF UK
 
Open data (Civic Tech)
Open data (Civic Tech) Open data (Civic Tech)
Open data (Civic Tech) ÚISK FF UK
 
Vojtěch Ripka: Taking Mediality Seriously
Vojtěch Ripka: Taking Mediality SeriouslyVojtěch Ripka: Taking Mediality Seriously
Vojtěch Ripka: Taking Mediality SeriouslyÚISK FF UK
 

More from ÚISK FF UK (20)

Martina Košanová: Komunikace s problémovými uživateli knihoven
Martina Košanová: Komunikace s problémovými uživateli knihovenMartina Košanová: Komunikace s problémovými uživateli knihoven
Martina Košanová: Komunikace s problémovými uživateli knihoven
 
Vojtěch Vojtíšek & Laďka Zbiejczuk Suchá: Redesign knihovních služeb: webové ...
Vojtěch Vojtíšek & Laďka Zbiejczuk Suchá: Redesign knihovních služeb: webové ...Vojtěch Vojtíšek & Laďka Zbiejczuk Suchá: Redesign knihovních služeb: webové ...
Vojtěch Vojtíšek & Laďka Zbiejczuk Suchá: Redesign knihovních služeb: webové ...
 
Eva Novotná: Kartografické dědictví v Mapové sbírce Přírodovědecké fakulty UK
Eva Novotná: Kartografické dědictví v Mapové sbírce Přírodovědecké fakulty UKEva Novotná: Kartografické dědictví v Mapové sbírce Přírodovědecké fakulty UK
Eva Novotná: Kartografické dědictví v Mapové sbírce Přírodovědecké fakulty UK
 
Iva Horová: Sto let pokusů o vybudování národního zvukového archivu
Iva Horová: Sto let pokusů o vybudování národního zvukového archivuIva Horová: Sto let pokusů o vybudování národního zvukového archivu
Iva Horová: Sto let pokusů o vybudování národního zvukového archivu
 
Andrea Jelínková: Knihovědní detektivové
Andrea Jelínková: Knihovědní detektivovéAndrea Jelínková: Knihovědní detektivové
Andrea Jelínková: Knihovědní detektivové
 
Martina Košanová: Vizuální smog v knihovnách
Martina Košanová: Vizuální smog v knihovnáchMartina Košanová: Vizuální smog v knihovnách
Martina Košanová: Vizuální smog v knihovnách
 
Jana Šeblová: Samizdatová literatura a hudební publicistika
Jana Šeblová: Samizdatová literatura a hudební publicistikaJana Šeblová: Samizdatová literatura a hudební publicistika
Jana Šeblová: Samizdatová literatura a hudební publicistika
 
Jiří Nechvátal: Projekt Obálkyknih.cz
Jiří Nechvátal: Projekt Obálkyknih.czJiří Nechvátal: Projekt Obálkyknih.cz
Jiří Nechvátal: Projekt Obálkyknih.cz
 
Jak na video?
Jak na video? Jak na video?
Jak na video?
 
Marie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autoritMarie Balíková: Databáze věcných autorit
Marie Balíková: Databáze věcných autorit
 
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
Eva Lesenková: Zdravotní gramotnost : Jak můžeme lépe získat informace o zdraví?
 
Anna Hoťová: Školní knihovny
Anna Hoťová: Školní knihovnyAnna Hoťová: Školní knihovny
Anna Hoťová: Školní knihovny
 
Magdalena Paul: Fake news
Magdalena Paul: Fake newsMagdalena Paul: Fake news
Magdalena Paul: Fake news
 
Rudolf Rosa: Milníky umělé inteligence
Rudolf Rosa: Milníky umělé inteligenceRudolf Rosa: Milníky umělé inteligence
Rudolf Rosa: Milníky umělé inteligence
 
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021) Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
Pavel Berounský: Prohlídka datacentra Kokura (18. 10. 2021)
 
Pavel Herout: Datová centra (18. 10. 2021)
Pavel Herout: Datová centra (18. 10. 2021)Pavel Herout: Datová centra (18. 10. 2021)
Pavel Herout: Datová centra (18. 10. 2021)
 
Anna Štičková: Čuchni ke knize
Anna Štičková: Čuchni ke knizeAnna Štičková: Čuchni ke knize
Anna Štičková: Čuchni ke knize
 
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovnyHana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
Hana Šandová: Centrum technického vzdělávání Půda jako třetí oddělení knihovny
 
Open data (Civic Tech)
Open data (Civic Tech) Open data (Civic Tech)
Open data (Civic Tech)
 
Vojtěch Ripka: Taking Mediality Seriously
Vojtěch Ripka: Taking Mediality SeriouslyVojtěch Ripka: Taking Mediality Seriously
Vojtěch Ripka: Taking Mediality Seriously
 

Recently uploaded

Project Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projektyProject Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projektyTaste
 
Project Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. stoletíProject Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. stoletíTaste
 
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...Taste
 
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?Taste
 
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...Taste
 
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retence
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retenceE-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retence
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retenceTaste
 
Project Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizaceProject Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizaceTaste
 
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...Taste
 
E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...
E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...
E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...Taste
 
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...Taste
 

Recently uploaded (10)

Project Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projektyProject Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projekty
 
Project Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. stoletíProject Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. století
 
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...
 
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
 
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
 
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retence
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retenceE-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retence
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retence
 
Project Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizaceProject Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizace
 
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
 
E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...
E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...
E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...
 
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
 

David Novák: Historické vědy a počítačové zpracování dat

  • 1. Historické vědy a počítačové zpracování dat Možnosti aplikace digitálních technologií při výzkumu v humanitních oborech David Novák, Archeologický ústav AV ČR, Praha
  • 3. Digital Humanities – relevantní okruhy • Spatial Humanities (GIS) • studium prostorových aspektů historických fenoménů (událostí, subjektů, objektů, procesů…), zapojení krajinného kontextu, proxy data • Network Analysis • síťové modely založené na podobnosti, prostorovém kontextu, interpretačních modelech, přirozených vztazích… • Natural Language Processing • tagování, překlady, textová analýza, text mining, vizualizace obsahu, distanční čtení • Big Data • vyhodnocení komplexních datasetů, pokročilá statistika, algoritmy strojového učení • 3D data • vizualizace, dokumentace, modelování, virtuální rekonstrukce, gamifikace • Digitální archivy a infrastruktury • tvorba datových korpusů a nástrojů k jejich vytěžování
  • 5.
  • 6. Informační (datová) věda -> způsob přemýšlení • Každá realita (minulá i současná) lze popisovat daty • Data vznikají rozkladem reality na dílčí konceptuální úrovně • Informace získáváme hledáním nenáhodností v datech (data s nízkou entropií -> struktury a trendy) • Znalosti odvozujeme z interpretace informací (teorie a metoda)  Takový postup je přirozenou součástí poznávacího procesu (nesouvisí s využitím digitálních nástrojů)  Digitalizace však přináší: • Zjednodušení sběru dat (při co nejpřesnějším popisu reality) • Možnost propojení informací různého původu, kvality i formy • Nástroje pro efektivnější vyhledávání informací a jejich zpracování
  • 8. Proč digitální databáze? • Verbální popis (narace): • efektivní „úložiště“ a médium pro zpracování člověkem, ALE • vysoká komplexita (lze obtížně strukturovat) • nevhodný pro automatizované zpracování (absence systému a významové jednoznačnosti) • obtížná reference a reprodukovatelnost • Formalizovaný popis (datový přístup) • jednotná pravidla záznamu • umožňuje hromadné zpracování, řazení, třídění, klasifikaci a aplikaci statistických metod • otevírání nových otázek • podpora principů FAIR a Open Science
  • 9.
  • 10. Data a jejich vztahy v pojetí relačních databází • Entity = předměty, události, osoby, místa, periody… • Kvality = formální vlastnosti, četnost, popis, typologie, datace… • Relace = formální i významové vztahy ------------------------- • Prostorové vlastnosti = kontext (uvnitř i vně souboru)
  • 11.
  • 12.
  • 14. Vytváření datového modelu • Základem je definice účelu databáze (vědecká otázka, cíl evidence…) • Databáze nikdy není všeobjímající a z principu je zjednodušením přirozených vztahů – abstrahuje od reálného světa • Měla by dodržovat přirozené a logické vazby přítomné v datech, vycházející z reálného světa a z povahy studovaného problému -> díky tomu je možné přidávat další datové třídy bez nutnosti složitých úprav • Datový model ovlivňuje spektrum možných otázek a aplikovatelnost konkrétních metod  Nutí k pečlivému plánování postupu  Dobrý model posiluje reprodukovatelnost, interoperabilitu, sdílení…
  • 16. Databázové dotazy jako způsob vytěžování dat • Dotazování dat napříč datovým modelem -> možnosti dány zejména strukturou dat (nikoli původního zdroje) • Od základních dotazů (počty, průměry, sloučení nespojitých dat) po komplexní statistické analýzy (podmíněné dotazy, matematické operace, agregační funkce) • Manipulace s daty (editace, importy, exporty…) • Preprocessing dat pro další zpracování ve specifických nástrojích
  • 17. Počet rodů / kumulativní doba držby sídel Počet existujících sídel po obdobích
  • 18. Majetková držba sídel existujících v 15. století. 1 – panovnické rody a korunní držba; 2 – církevní instituce a hodnostáři; 3 – městské obce a měšťané; 4 – ostatní pozemkoví magnáti; 5 – ostatní držitelé. Majetková držba sídel existujících v 17. století.
  • 19. Prostorová data • Jsou nedílně spojena s jakoukoli informací (lze lokalizovat přinejmenším prostřednictvím původce, příjemce a média) • Jsou nutně spojena s časovou složkou (vztah k prostoru je vždy závislý na čase) -> implikuje dynamiku • Jsou univerzální -> umožňují široké provázání s daty mimo rámec konkrétních oborů • Jsou definována • Polohou objektu v souřadnicovém systému • Prostorovými vztahy mezi objekty (topologie) • Tvarem (typem) objektu (0D až 3D) • Neprostorovými atributy
  • 20. Geografické informační systémy (GIS) Informační systémy pro získávání, ukládání, analýzu a vizualizaci prostorových (geografických) dat • Tvořeny geodaty organizovanými pomocí mapových vrstev (podobně jako vrstvy ve Photoshopu), které jsou často tematizované (vodstvo, osídlení, události apod.) • Výhodou jsou široké analytické možnosti a proměnlivé měřítko (=> výrazná flexibilita) • Založené na databázi obohacené o prostorová data (vektorové objekty) a definici spojitých povrchů (rastrová data)
  • 21.
  • 22. Princip integrace datových vrstev v GIS leží v jejich ukotvení ve stanoveném souřadnicovém systému (zde WGS-84 / UTM). Kombinovat lze různé druhy vrstev od kolmých leteckých snímků (1), přes staré mapy (2), data leteckého laserového skenování (3), výsledky archeologických pozorování (4) až po současná mapová díla (5) Zobrazeno hradiště Češov (okr. Jičín; další informace o lokalitě viz zobrazený QR kód).
  • 23. Evidence sídel v GIS na různých úrovních podrobnosti (vpravo v pozadí červeně hustota středověkého osídlení)
  • 25. Příklad analýzy sídla v GIS (hrad Křivoklát; okr. Rakovník). Červené/černé izolinie – zázemí dostupné do hodiny chůze (podle frikčního povrchu) rozdělené po 10 minutách; žluté linie – významné koridory vymezené podle přirozené komunikační sítě; bílé šrafování – oblasti viditelné ze sídla; černé kruhy – osídlení vážené podle předpokládané velikosti; modré plochy – modelované rozlivy a vodní toky.
  • 26.
  • 27.
  • 28. relační <-> objektově orientovaný model
  • 30. CIDOC CRM formální ontologický model pro kulturní dědictví http://www.cidoc-crm.org/ https://openatlas.eu/
  • 32.
  • 34. (Social / Complex) Networks Analysis http://www.social-life.co/blog/post/social_network_analysis/
  • 35. Uzly a hrany • Uzly mohou vyjadřovat: • osoby • místa • události • předměty • vlastnosti • typy • … (+ kombinace předchozích) • Hrany mohou vyjadřovat: • sociálních vztahy • ekonomické vazby • hierarchii • podobnost • vztah v prostoru • viditelnost • pohyb • chronologii • interakci http://gtm.math.umd.edu/networks2019.html
  • 36. Typy sítí a metriky v síťové analýze https://www.kbmanage.com/concept/social-network-analysys https://www.semanticscholar.org/paper/Graph-theory-analysis-of-complex-brain- networks%3A-in-Hart-Ypma/c50d5216ab35e9321ee92cc5d9b05b0ca8233a58/figure/2 https://www.ebi.ac.uk/training/online/course/network-analysis-protein-interaction-data- introduction/introduction-graph-theory/graph-0
  • 37. Síť vztahů mezi sídly založená na jejich podobnosti. Vazby byly stanoveny na základě rozdílu jejich potenciálu v dílčích oblastech (produkční, obranný, společenský, organizační, komunikační, vizuální). Barevně rozlišeny zánikové horizonty sídel: žlutá – 13. stol. oranžová – 14. stol. červená – 15. století fialová – 16. století modrá – 17. století černá – mladší horizonty šedý čtverec – nedatováno V grafu se projevuje typologické rozložení spojené s chronologickým vývojem sídel i jejich dílčí kategorie v rámci jednotlivých horizontů.
  • 38. Příklad analýzy sociálních vazeb ve středověké společnosti https://oeaw.academia.edu/MappingMedievalConflict
  • 39.
  • 41. Příklady užitečných nástrojů a webů • https://books.google.com/ngrams • výskyt pojmů v literatuře • https://voyant-tools.org/ • analýza textů • https://openrefine.org/ • čištění neutříděných a nehomogenních dat • https://ocr.indihu.cz/ • online OCR • https://exhibition.indihu.cz/ • tvorba virtuálních výstav • https://earthengine.google.com/ • analýza prostorových dat v cloudovém prostředí • https://lindat.mff.cuni.cz/ • významná NLP infrastruktura • https://gephi.org/ • SW pro síťovou analýzu • https://gsuite.google.com/marketplace/app/wikipedia_and_wikid ata_tools/595109124715?pann=cwsdp&hl=en • nástroj pro užití Wipedie a Wikidat pro obohacování vlastních dat • https://www.qgis.org/ • skvělý GIS SW zdarma • http://timemapper.okfnlabs.org/ • vizualizace časových map • http://linkeddata.org/ • základy k Linked Data • http://historicalnetworkresearch.org/ • vše pro síťovou analýzu (příklady, nástroje…) • https://www.czadh.cz/ • Česká asociace pro DH • https://digitalhumanities.cz/ • DH a datové zdroje na AV ČR • https://caa-international.org/ • obrovské množství případových studií z oblasti archeologie

Editor's Notes

  1. https://www.computerhistory.org/revolution/minicomputers/11/334/1930 https://gustavofreitas.net/criacao-e-lancamento-de-infoprodutos/ https://www.mitre.org/publications/systems-engineering-guide/enterprise-engineering/enterprise-technology-information-and-infrastructure/information-and-data-management https://3.imimg.com/data3/BN/TA/MY-10418302/softwares-250x250.jpg