Web Science3. nodarbība29.09.2011
Jaunumi
VideoO’Reilly Strata conferenceData Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.doMeaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.doO’Reilly OSCon – data sessions
Kā gāja ar 500 tweetu savakāšanu
500 tweetiKo izmantoji?
Kādi rezultāti?
Kādas problēmas?
Pārdomas?Jaunais datu vākšanas uzdevumstwitter streaming api
Streaming APIhttps://dev.twitter.com/docs/streaming-api
Uzdevumsizvēlētiesvienu no Streaming API funkcijām:
datuvākšanaipēcnorādītajiematslēgasvārdiem
datuvākšanaipēcizvēlētāmģeogrāfiskajāmkoordinātēm
savākt 1000 Twitter ziņas
+ analizēt un/vaivizualizēttāsIdejas vizualizācijaiTweeti uz kartes, izmantojot Google maps API, vai kādu citu servisuhttp://fmatlas.comCSV file:"56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here,        by you
PythonIzmantotspiemērosar Web Science saistītosresursos:“Mining the Social Web”“Natural Language Processing with NLTK”O’Reilly Strata conf – “Data Bootcamp”ViegliapgūstamavalodaTīra, vieglilasāmasintakseDive Into Python: http://diveintopython.org/toc/index.html
PythonPlašsbibliotēkuatbalstsNLTK, SciPy, networkx, WebKitiPythonLietojumiapmācībā un darbāViena no Google “oficiālajām” valodāmMIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/
ValodasizvēlePython lietojumamirdažaspriekšrocības:mēsvarampalīdzētdarbāar Pythontajāirrakstīti “Mining the Social Web” piemēriVarlietotvairākasvalodas / servisusvienu – datuvākšanaicitu – datuapstrādeivaivizualizācijaiKatrasgrupasziņā
Grupas? Projekti?
NLP prezentācija
Web Scienceun dabīgā valoda?
Datu veidiNestrukturēti vai formāli vāji strukturēti datiHTML lapas (prezentācija vs. semantika)teksts, attēli, video u.c.Struktrēti datiRDB tīmekļa servissRDF/SPARQL end-pointsDBpedia, Freebase, GeoNames, OpenCyc, ...Linked Data un LOD CommunitySociālie tīkliTwitter struktūraFacebook sociālais grafs un Open Graph protokols...
Datu apstrādePriekšapstrādeDabīgās valodas apstrādeDatu “bagātināšana” (metadati, linked data)Analīze, vizualizācija, ...
PriekšapstrādeFormāti, rakstzīmju kodējumi, valodas noteikšanaPotenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)Tvītu un komentāru normalizācija“Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)Kas ir vārds?Identitāšu anonimizācija (MD5)...
UzdevumsKad zināma datu kopa jau ir savākta...Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”(Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaitsNovērojumi, secinājumi?

Web Science 29.09.2011

Editor's Notes

  • #10 Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • #11 Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • #13 C/C++, Java, Python and Javascriptvailaistprogrammasuz Google App Engine
  • #17 NLP prezentācijassākums
  • #21 NLP prezentācijasbeigas