Your SlideShare is downloading. ×
0
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Web Science 29.09.2011

626

Published on

Web Science - Day 3. …

Web Science - Day 3.

A seminar at the University of Latvia.

Published in: Education, Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
626
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
5
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • C/C++, Java, Python and Javascriptvailaistprogrammasuz Google App Engine
  • NLP prezentācijassākums
  • NLP prezentācijasbeigas
  • Transcript

    • 1. Web Science<br />3. nodarbība<br />29.09.2011<br />
    • 2. Jaunumi<br />
    • 3. Video<br />O’Reilly Strata conference<br />Data Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.do<br />Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do<br />O’Reilly OSCon – data sessions<br />
    • 4. Kā gāja ar 500 tweetu savakāšanu<br />
    • 5. 500 tweeti<br /><ul><li>Ko izmantoji?
    • 6. Kādi rezultāti?
    • 7. Kādas problēmas?
    • 8. Pārdomas?</li></li></ul><li>Jaunais datu vākšanas uzdevums<br />twitter streaming api<br />
    • 9. Streaming API<br />https://dev.twitter.com/docs/streaming-api<br />
    • 10. Uzdevums<br /><ul><li>izvēlētiesvienu no Streaming API funkcijām:
    • 11. datuvākšanaipēcnorādītajiematslēgasvārdiem
    • 12. datuvākšanaipēcizvēlētāmģeogrāfiskajāmkoordinātēm
    • 13. savākt 1000 Twitter ziņas
    • 14. + analizēt un/vaivizualizēttās</li></li></ul><li>Idejas vizualizācijai<br /><ul><li>Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu</li></li></ul><li>http://fmatlas.com<br />CSV file:<br />&quot;56.570, 24.600&quot;, My cool tweet from here, by me&quot;56.967, 23.567&quot;, I&apos;m finally here, by you<br />
    • 15. Python<br />Izmantotspiemērosar Web Science saistītosresursos:<br />“Mining the Social Web”<br />“Natural Language Processing with NLTK”<br />O’Reilly Strata conf – “Data Bootcamp”<br />Viegliapgūstamavaloda<br />Tīra, vieglilasāmasintakse<br />Dive Into Python: http://diveintopython.org/toc/index.html<br />
    • 16. Python<br />Plašsbibliotēkuatbalsts<br />NLTK, SciPy, networkx, WebKit<br />iPython<br />Lietojumiapmācībā un darbā<br />Viena no Google “oficiālajām” valodām<br />MIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/<br />
    • 17. Valodasizvēle<br />Python lietojumamirdažaspriekšrocības:<br />mēsvarampalīdzētdarbāar Python<br />tajāirrakstīti “Mining the Social Web” piemēri<br />Varlietotvairākasvalodas / servisus<br />vienu – datuvākšanai<br />citu – datuapstrādeivaivizualizācijai<br />Katrasgrupasziņā<br />
    • 18. Grupas? Projekti?<br />
    • 19. NLP prezentācija<br />
    • 20. Web Scienceun dabīgā valoda?<br />
    • 21. Datu veidi<br />Nestrukturēti vai formāli vāji strukturēti dati<br />HTML lapas (prezentācija vs. semantika)<br />teksts, attēli, video u.c.<br />Struktrēti dati<br />RDB tīmekļa serviss<br />RDF/SPARQL end-points<br />DBpedia, Freebase, GeoNames, OpenCyc, ...<br />Linked Data un LOD Community<br />Sociālie tīkli<br />Twitter struktūra<br />Facebook sociālais grafs un Open Graph protokols<br />...<br />
    • 22. Datu apstrāde<br />Priekšapstrāde<br />Dabīgās valodas apstrāde<br />Datu “bagātināšana” (metadati, linked data)<br />Analīze, vizualizācija, ...<br />
    • 23. Priekšapstrāde<br />Formāti, rakstzīmju kodējumi, valodas noteikšana<br />Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)<br />Tvītu un komentāru normalizācija<br />“Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)<br />Kas ir vārds?<br />Identitāšu anonimizācija (MD5)<br />...<br />
    • 24. Uzdevums<br />Kad zināma datu kopa jau ir savākta...<br />Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”<br />(Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits<br />Novērojumi, secinājumi?<br />
    • 25. Mājasdarbi<br /><ul><li>streaming API
    • 26. NLP (dabīgāsvalodasapstrāde)</li></li></ul><li>Nākošreiz<br />
    • 27. <ul><li>Mēsstāstām par vienu no WebScikonferencēm (grupāmvajadzēslīdzīgi)
    • 28. Kautkadatnāks no Twitter analīzes startup pastāstītkodara.</li></li></ul><li>Atgādinājums par mājas darbiem<br />Deadline: Oct6th 4am<br />

    ×