Your SlideShare is downloading. ×
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Web Science 29.09.2011
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Web Science 29.09.2011

616

Published on

Web Science - Day 3. …

Web Science - Day 3.

A seminar at the University of Latvia.

Published in: Education, Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
616
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
5
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • C/C++, Java, Python and Javascriptvailaistprogrammasuz Google App Engine
  • NLP prezentācijassākums
  • NLP prezentācijasbeigas
  • Transcript

    • 1. Web Science
      3. nodarbība
      29.09.2011
    • 2. Jaunumi
    • 3. Video
      O’Reilly Strata conference
      Data Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.do
      Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do
      O’Reilly OSCon – data sessions
    • 4. Kā gāja ar 500 tweetu savakāšanu
    • 5. 500 tweeti
      • Ko izmantoji?
      • 6. Kādi rezultāti?
      • 7. Kādas problēmas?
      • 8. Pārdomas?
    • Jaunais datu vākšanas uzdevums
      twitter streaming api
    • 9. Streaming API
      https://dev.twitter.com/docs/streaming-api
    • 10. Uzdevums
      • izvēlētiesvienu no Streaming API funkcijām:
      • 11. datuvākšanaipēcnorādītajiematslēgasvārdiem
      • 12. datuvākšanaipēcizvēlētāmģeogrāfiskajāmkoordinātēm
      • 13. savākt 1000 Twitter ziņas
      • 14. + analizēt un/vaivizualizēttās
    • Idejas vizualizācijai
      • Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu
    • http://fmatlas.com
      CSV file:
      "56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you
    • 15. Python
      Izmantotspiemērosar Web Science saistītosresursos:
      “Mining the Social Web”
      “Natural Language Processing with NLTK”
      O’Reilly Strata conf – “Data Bootcamp”
      Viegliapgūstamavaloda
      Tīra, vieglilasāmasintakse
      Dive Into Python: http://diveintopython.org/toc/index.html
    • 16. Python
      Plašsbibliotēkuatbalsts
      NLTK, SciPy, networkx, WebKit
      iPython
      Lietojumiapmācībā un darbā
      Viena no Google “oficiālajām” valodām
      MIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/
    • 17. Valodasizvēle
      Python lietojumamirdažaspriekšrocības:
      mēsvarampalīdzētdarbāar Python
      tajāirrakstīti “Mining the Social Web” piemēri
      Varlietotvairākasvalodas / servisus
      vienu – datuvākšanai
      citu – datuapstrādeivaivizualizācijai
      Katrasgrupasziņā
    • 18. Grupas? Projekti?
    • 19. NLP prezentācija
    • 20. Web Scienceun dabīgā valoda?
    • 21. Datu veidi
      Nestrukturēti vai formāli vāji strukturēti dati
      HTML lapas (prezentācija vs. semantika)
      teksts, attēli, video u.c.
      Struktrēti dati
      RDB tīmekļa serviss
      RDF/SPARQL end-points
      DBpedia, Freebase, GeoNames, OpenCyc, ...
      Linked Data un LOD Community
      Sociālie tīkli
      Twitter struktūra
      Facebook sociālais grafs un Open Graph protokols
      ...
    • 22. Datu apstrāde
      Priekšapstrāde
      Dabīgās valodas apstrāde
      Datu “bagātināšana” (metadati, linked data)
      Analīze, vizualizācija, ...
    • 23. Priekšapstrāde
      Formāti, rakstzīmju kodējumi, valodas noteikšana
      Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)
      Tvītu un komentāru normalizācija
      “Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)
      Kas ir vārds?
      Identitāšu anonimizācija (MD5)
      ...
    • 24. Uzdevums
      Kad zināma datu kopa jau ir savākta...
      Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”
      (Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits
      Novērojumi, secinājumi?
    • 25. Mājasdarbi
      • streaming API
      • 26. NLP (dabīgāsvalodasapstrāde)
    • Nākošreiz
    • 27.
      • Mēsstāstām par vienu no WebScikonferencēm (grupāmvajadzēslīdzīgi)
      • 28. Kautkadatnāks no Twitter analīzes startup pastāstītkodara.
    • Atgādinājums par mājas darbiem
      Deadline: Oct6th 4am

    ×