VideoO’Reilly Strata conferenceDataBootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.doMeaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.doO’Reilly OSCon – data sessions
+ analizēt un/vaivizualizēttāsIdejasvizualizācijaiTweeti uz kartes, izmantojot Google maps API, vai kādu citu servisuhttp://fmatlas.comCSV file:"56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you
15.
PythonIzmantotspiemērosar Web Sciencesaistītosresursos:“Mining the Social Web”“Natural Language Processing with NLTK”O’Reilly Strata conf – “Data Bootcamp”ViegliapgūstamavalodaTīra, vieglilasāmasintakseDive Into Python: http://diveintopython.org/toc/index.html
16.
PythonPlašsbibliotēkuatbalstsNLTK, SciPy, networkx,WebKitiPythonLietojumiapmācībā un darbāViena no Google “oficiālajām” valodāmMIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/
Datu veidiNestrukturēti vaiformāli vāji strukturēti datiHTML lapas (prezentācija vs. semantika)teksts, attēli, video u.c.Struktrēti datiRDB tīmekļa servissRDF/SPARQL end-pointsDBpedia, Freebase, GeoNames, OpenCyc, ...Linked Data un LOD CommunitySociālie tīkliTwitter struktūraFacebook sociālais grafs un Open Graph protokols...
PriekšapstrādeFormāti, rakstzīmju kodējumi,valodas noteikšanaPotenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)Tvītu un komentāru normalizācija“Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)Kas ir vārds?Identitāšu anonimizācija (MD5)...
24.
UzdevumsKad zināma datukopa jau ir savākta...Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”(Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaitsNovērojumi, secinājumi?
Editor's Notes
#10 Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
#11 Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
#13 C/C++, Java, Python and Javascriptvailaistprogrammasuz Google App Engine