Web Science<br />3. nodarbība<br />29.09.2011<br />
Jaunumi<br />
Video<br />O’Reilly Strata conference<br />Data Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.do...
Kā gāja ar 500 tweetu savakāšanu<br />
500 tweeti<br /><ul><li>Ko izmantoji?
Kādi rezultāti?
Kādas problēmas?
Pārdomas?</li></li></ul><li>Jaunais datu vākšanas uzdevums<br />twitter streaming api<br />
Streaming API<br />https://dev.twitter.com/docs/streaming-api<br />
Uzdevums<br /><ul><li>izvēlētiesvienu no Streaming API funkcijām:
datuvākšanaipēcnorādītajiematslēgasvārdiem
datuvākšanaipēcizvēlētāmģeogrāfiskajāmkoordinātēm
savākt 1000 Twitter ziņas
+ analizēt un/vaivizualizēttās</li></li></ul><li>Idejas vizualizācijai<br /><ul><li>Tweeti uz kartes, izmantojot Google ma...
Python<br />Izmantotspiemērosar Web Science saistītosresursos:<br />“Mining the Social Web”<br />“Natural Language Process...
Python<br />Plašsbibliotēkuatbalsts<br />NLTK, SciPy, networkx, WebKit<br />iPython<br />Lietojumiapmācībā un darbā<br />V...
Valodasizvēle<br />Python lietojumamirdažaspriekšrocības:<br />mēsvarampalīdzētdarbāar Python<br />tajāirrakstīti “Mining ...
Grupas? Projekti?<br />
NLP prezentācija<br />
Web Scienceun dabīgā valoda?<br />
Datu veidi<br />Nestrukturēti vai formāli vāji strukturēti dati<br />HTML lapas (prezentācija vs. semantika)<br />teksts, ...
Datu apstrāde<br />Priekšapstrāde<br />Dabīgās valodas apstrāde<br />Datu “bagātināšana” (metadati, linked data)<br />Anal...
Priekšapstrāde<br />Formāti, rakstzīmju kodējumi, valodas noteikšana<br />Potenciāli derīgā satura (satura bloku) atfiltrē...
Uzdevums<br />Kad zināma datu kopa jau ir savākta...<br />Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”<br ...
Upcoming SlideShare
Loading in...5
×

Web Science 29.09.2011

638

Published on

Web Science - Day 3.

A seminar at the University of Latvia.

Published in: Education, Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
638
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
5
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • C/C++, Java, Python and Javascriptvailaistprogrammasuz Google App Engine
  • NLP prezentācijassākums
  • NLP prezentācijasbeigas
  • Web Science 29.09.2011

    1. 1. Web Science<br />3. nodarbība<br />29.09.2011<br />
    2. 2. Jaunumi<br />
    3. 3. Video<br />O’Reilly Strata conference<br />Data Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.do<br />Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do<br />O’Reilly OSCon – data sessions<br />
    4. 4. Kā gāja ar 500 tweetu savakāšanu<br />
    5. 5. 500 tweeti<br /><ul><li>Ko izmantoji?
    6. 6. Kādi rezultāti?
    7. 7. Kādas problēmas?
    8. 8. Pārdomas?</li></li></ul><li>Jaunais datu vākšanas uzdevums<br />twitter streaming api<br />
    9. 9. Streaming API<br />https://dev.twitter.com/docs/streaming-api<br />
    10. 10. Uzdevums<br /><ul><li>izvēlētiesvienu no Streaming API funkcijām:
    11. 11. datuvākšanaipēcnorādītajiematslēgasvārdiem
    12. 12. datuvākšanaipēcizvēlētāmģeogrāfiskajāmkoordinātēm
    13. 13. savākt 1000 Twitter ziņas
    14. 14. + analizēt un/vaivizualizēttās</li></li></ul><li>Idejas vizualizācijai<br /><ul><li>Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu</li></li></ul><li>http://fmatlas.com<br />CSV file:<br />"56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you<br />
    15. 15. Python<br />Izmantotspiemērosar Web Science saistītosresursos:<br />“Mining the Social Web”<br />“Natural Language Processing with NLTK”<br />O’Reilly Strata conf – “Data Bootcamp”<br />Viegliapgūstamavaloda<br />Tīra, vieglilasāmasintakse<br />Dive Into Python: http://diveintopython.org/toc/index.html<br />
    16. 16. Python<br />Plašsbibliotēkuatbalsts<br />NLTK, SciPy, networkx, WebKit<br />iPython<br />Lietojumiapmācībā un darbā<br />Viena no Google “oficiālajām” valodām<br />MIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/<br />
    17. 17. Valodasizvēle<br />Python lietojumamirdažaspriekšrocības:<br />mēsvarampalīdzētdarbāar Python<br />tajāirrakstīti “Mining the Social Web” piemēri<br />Varlietotvairākasvalodas / servisus<br />vienu – datuvākšanai<br />citu – datuapstrādeivaivizualizācijai<br />Katrasgrupasziņā<br />
    18. 18. Grupas? Projekti?<br />
    19. 19. NLP prezentācija<br />
    20. 20. Web Scienceun dabīgā valoda?<br />
    21. 21. Datu veidi<br />Nestrukturēti vai formāli vāji strukturēti dati<br />HTML lapas (prezentācija vs. semantika)<br />teksts, attēli, video u.c.<br />Struktrēti dati<br />RDB tīmekļa serviss<br />RDF/SPARQL end-points<br />DBpedia, Freebase, GeoNames, OpenCyc, ...<br />Linked Data un LOD Community<br />Sociālie tīkli<br />Twitter struktūra<br />Facebook sociālais grafs un Open Graph protokols<br />...<br />
    22. 22. Datu apstrāde<br />Priekšapstrāde<br />Dabīgās valodas apstrāde<br />Datu “bagātināšana” (metadati, linked data)<br />Analīze, vizualizācija, ...<br />
    23. 23. Priekšapstrāde<br />Formāti, rakstzīmju kodējumi, valodas noteikšana<br />Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)<br />Tvītu un komentāru normalizācija<br />“Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)<br />Kas ir vārds?<br />Identitāšu anonimizācija (MD5)<br />...<br />
    24. 24. Uzdevums<br />Kad zināma datu kopa jau ir savākta...<br />Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”<br />(Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits<br />Novērojumi, secinājumi?<br />
    25. 25. Mājasdarbi<br /><ul><li>streaming API
    26. 26. NLP (dabīgāsvalodasapstrāde)</li></li></ul><li>Nākošreiz<br />
    27. 27. <ul><li>Mēsstāstām par vienu no WebScikonferencēm (grupāmvajadzēslīdzīgi)
    28. 28. Kautkadatnāks no Twitter analīzes startup pastāstītkodara.</li></li></ul><li>Atgādinājums par mājas darbiem<br />Deadline: Oct6th 4am<br />
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×