Your SlideShare is downloading. ×
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Získáváme, čistíme a ukládáme data
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Získáváme, čistíme a ukládáme data

618

Published on

Digital Humanities, Lekce druhá …

Digital Humanities, Lekce druhá
Studia nových médií, 15. 10. 2012

Published in: Education
1 Comment
3 Likes
Statistics
Notes
No Downloads
Views
Total Views
618
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
1
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Získáváme, čistíme aukládáme dataDigital Humanities, Lekce druháJosef Šlerka, Studia nových médií, 15. 10. 2012
  • 2. ETL (light verze)Extracting data from outside sourcesTransforming it to fit operational needs (which caninclude quality levels)Loading it into the end target (database, morespecifically, operational data store, data mart or datawarehouse)(viz Wikipedie)
  • 3. Real-life podle Wiki1. Cycle initiation2. Build reference data3. Extract (from sources)4. Validate5. Transform (clean, apply business rules, check fordata integrity, create aggregates or disaggregates)6. Stage (load into staging tables, if used)
  • 4. Real-life podle Wiki7. Audit reports (for example, on compliance withbusiness rules. Also, in case of failure, helps todiagnose/repair)8. Publish (to target tables)9. Archive10. Clean up
  • 5. Extractingco se vám bude hodit...
  • 6. Extractstrukturovaná data vs nestrukturovanápro DH nejčastěji databáze vs webweb API vs scrappinglze si vystačit i jen malým znalostmistatická data vs real-time mohou být zákeřná, ale jdeto řešit
  • 7. XPATHXPath, the XML Path Language, is a query languagefor selecting nodes from an XML document. Inaddition, XPath may be used to compute values (e.g.,strings, numbers, or Boolean values) from the contentof an XML document. XPath was defined by the WorldWide Web Consortium (W3C)
  • 8. Jednoduché nástrojeGoogle Docs (hlavně statická data)http://drive.google.comYQL (hlavně statická data)http://developer.yahoo.com/yql/console/Yahoo Pipes (hlavně dynamická data)http://pipes.yahoo.com/pipes/IFTTT (hlavně dynamická data)https://ifttt.com/
  • 9. Ale mocné....Twitter Archiving Google Spreadsheet TAGS v3http://mashe.hawksey.info/2012/01/twitter-archive-tagsv3/
  • 10. TransformingHlavně o čištění a sjednocování dat ...
  • 11. Google Refinehttp://code.google.com/p/google-refine/downloads/list?can=1Google Refine is a standalone desktop applicationprovided by Google for data cleanup andtransformation to other formats. It is similar tospreadsheet applications (and can work withspreadsheet file formats), however acts more likedatabase.
  • 12. Loadingkam s nimi, když ne do tradiční databáze...
  • 13. Google Fusion Tablesjednoduché řešení pro běžné uživatelehttp://www.google.com/fusiontables/Home/Web service provided by Google for datamanagement. Data is stored in multiple tables thatInternet users can view and download. The Webservice provides means for visualizing data with piecharts, bar charts, lineplots, scatterplots, timelines aswell as geographical maps. Data is exported in acomma-separated values file format.
  • 14. A teď ještě jednodemo....

×