Web Science 29.09.2011

  • 589 views
Uploaded on

Web Science - Day 3. …

Web Science - Day 3.

A seminar at the University of Latvia.

More in: Education , Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
589
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
5
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • C/C++, Java, Python and Javascriptvailaistprogrammasuz Google App Engine
  • NLP prezentācijassākums
  • NLP prezentācijasbeigas

Transcript

  • 1. Web Science
    3. nodarbība
    29.09.2011
  • 2. Jaunumi
  • 3. Video
    O’Reilly Strata conference
    Data Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.do
    Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do
    O’Reilly OSCon – data sessions
  • 4. Kā gāja ar 500 tweetu savakāšanu
  • 5. 500 tweeti
    • Ko izmantoji?
    • 6. Kādi rezultāti?
    • 7. Kādas problēmas?
    • 8. Pārdomas?
  • Jaunais datu vākšanas uzdevums
    twitter streaming api
  • 9. Streaming API
    https://dev.twitter.com/docs/streaming-api
  • 10. Uzdevums
    • izvēlētiesvienu no Streaming API funkcijām:
    • 11. datuvākšanaipēcnorādītajiematslēgasvārdiem
    • 12. datuvākšanaipēcizvēlētāmģeogrāfiskajāmkoordinātēm
    • 13. savākt 1000 Twitter ziņas
    • 14. + analizēt un/vaivizualizēttās
  • Idejas vizualizācijai
    • Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu
  • http://fmatlas.com
    CSV file:
    "56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you
  • 15. Python
    Izmantotspiemērosar Web Science saistītosresursos:
    “Mining the Social Web”
    “Natural Language Processing with NLTK”
    O’Reilly Strata conf – “Data Bootcamp”
    Viegliapgūstamavaloda
    Tīra, vieglilasāmasintakse
    Dive Into Python: http://diveintopython.org/toc/index.html
  • 16. Python
    Plašsbibliotēkuatbalsts
    NLTK, SciPy, networkx, WebKit
    iPython
    Lietojumiapmācībā un darbā
    Viena no Google “oficiālajām” valodām
    MIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/
  • 17. Valodasizvēle
    Python lietojumamirdažaspriekšrocības:
    mēsvarampalīdzētdarbāar Python
    tajāirrakstīti “Mining the Social Web” piemēri
    Varlietotvairākasvalodas / servisus
    vienu – datuvākšanai
    citu – datuapstrādeivaivizualizācijai
    Katrasgrupasziņā
  • 18. Grupas? Projekti?
  • 19. NLP prezentācija
  • 20. Web Scienceun dabīgā valoda?
  • 21. Datu veidi
    Nestrukturēti vai formāli vāji strukturēti dati
    HTML lapas (prezentācija vs. semantika)
    teksts, attēli, video u.c.
    Struktrēti dati
    RDB tīmekļa serviss
    RDF/SPARQL end-points
    DBpedia, Freebase, GeoNames, OpenCyc, ...
    Linked Data un LOD Community
    Sociālie tīkli
    Twitter struktūra
    Facebook sociālais grafs un Open Graph protokols
    ...
  • 22. Datu apstrāde
    Priekšapstrāde
    Dabīgās valodas apstrāde
    Datu “bagātināšana” (metadati, linked data)
    Analīze, vizualizācija, ...
  • 23. Priekšapstrāde
    Formāti, rakstzīmju kodējumi, valodas noteikšana
    Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)
    Tvītu un komentāru normalizācija
    “Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)
    Kas ir vārds?
    Identitāšu anonimizācija (MD5)
    ...
  • 24. Uzdevums
    Kad zināma datu kopa jau ir savākta...
    Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”
    (Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits
    Novērojumi, secinājumi?
  • 25. Mājasdarbi
    • streaming API
    • 26. NLP (dabīgāsvalodasapstrāde)
  • Nākošreiz
  • 27.
    • Mēsstāstām par vienu no WebScikonferencēm (grupāmvajadzēslīdzīgi)
    • 28. Kautkadatnāks no Twitter analīzes startup pastāstītkodara.
  • Atgādinājums par mājas darbiem
    Deadline: Oct6th 4am