• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Web Science 29.09.2011
 

Web Science 29.09.2011

on

  • 804 views

Web Science - Day 3.

Web Science - Day 3.

A seminar at the University of Latvia.

Statistics

Views

Total Views
804
Views on SlideShare
804
Embed Views
0

Actions

Likes
1
Downloads
4
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • Šie 2 slaidinebijaseminārā, bet tikapievienotivēlākkādatuvizualizācijasservisapiemērs.
  • C/C++, Java, Python and Javascriptvailaistprogrammasuz Google App Engine
  • NLP prezentācijassākums
  • NLP prezentācijasbeigas

Web Science 29.09.2011 Web Science 29.09.2011 Presentation Transcript

  • Web Science
    3. nodarbība
    29.09.2011
  • Jaunumi
  • Video
    O’Reilly Strata conference
    Data Bootcamp (5 stundas video)http://shop.oreilly.com/product/0636920018506.do
    Meaningful Insights from Raw Metrics (Virtual worlds, …)http://shop.oreilly.com/product/0636920019176.do
    O’Reilly OSCon – data sessions
  • Kā gāja ar 500 tweetu savakāšanu
  • 500 tweeti
    • Ko izmantoji?
    • Kādi rezultāti?
    • Kādas problēmas?
    • Pārdomas?
  • Jaunais datu vākšanas uzdevums
    twitter streaming api
  • Streaming API
    https://dev.twitter.com/docs/streaming-api
  • Uzdevums
    • izvēlētiesvienu no Streaming API funkcijām:
    • datuvākšanaipēcnorādītajiematslēgasvārdiem
    • datuvākšanaipēcizvēlētāmģeogrāfiskajāmkoordinātēm
    • savākt 1000 Twitter ziņas
    • + analizēt un/vaivizualizēttās
  • Idejas vizualizācijai
    • Tweeti uz kartes, izmantojot Google maps API, vai kādu citu servisu
  • http://fmatlas.com
    CSV file:
    "56.570, 24.600", My cool tweet from here, by me"56.967, 23.567", I'm finally here, by you
  • Python
    Izmantotspiemērosar Web Science saistītosresursos:
    “Mining the Social Web”
    “Natural Language Processing with NLTK”
    O’Reilly Strata conf – “Data Bootcamp”
    Viegliapgūstamavaloda
    Tīra, vieglilasāmasintakse
    Dive Into Python: http://diveintopython.org/toc/index.html
  • Python
    Plašsbibliotēkuatbalsts
    NLTK, SciPy, networkx, WebKit
    iPython
    Lietojumiapmācībā un darbā
    Viena no Google “oficiālajām” valodām
    MIT nesenpārgājauz Python progrmmēšanasapmācībaibakalaurukursāhttp://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/
  • Valodasizvēle
    Python lietojumamirdažaspriekšrocības:
    mēsvarampalīdzētdarbāar Python
    tajāirrakstīti “Mining the Social Web” piemēri
    Varlietotvairākasvalodas / servisus
    vienu – datuvākšanai
    citu – datuapstrādeivaivizualizācijai
    Katrasgrupasziņā
  • Grupas? Projekti?
  • NLP prezentācija
  • Web Scienceun dabīgā valoda?
  • Datu veidi
    Nestrukturēti vai formāli vāji strukturēti dati
    HTML lapas (prezentācija vs. semantika)
    teksts, attēli, video u.c.
    Struktrēti dati
    RDB tīmekļa serviss
    RDF/SPARQL end-points
    DBpedia, Freebase, GeoNames, OpenCyc, ...
    Linked Data un LOD Community
    Sociālie tīkli
    Twitter struktūra
    Facebook sociālais grafs un Open Graph protokols
    ...
  • Datu apstrāde
    Priekšapstrāde
    Dabīgās valodas apstrāde
    Datu “bagātināšana” (metadati, linked data)
    Analīze, vizualizācija, ...
  • Priekšapstrāde
    Formāti, rakstzīmju kodējumi, valodas noteikšana
    Potenciāli derīgā satura (satura bloku) atfiltrēšana (web scraping kontekstā)
    Tvītu un komentāru normalizācija
    “Tokenizācija” jeb teksta sadalīšana vārdos (vārdlietojumos)
    Kas ir vārds?
    Identitāšu anonimizācija (MD5)
    ...
  • Uzdevums
    Kad zināma datu kopa jau ir savākta...
    Tokenizācija: “normālie” vārdi, skaitļi, citi (..), “liekie”
    (Sakārtots) biežumsaraksts: vārdformas un to lietojumu skaits
    Novērojumi, secinājumi?
  • Mājasdarbi
    • streaming API
    • NLP (dabīgāsvalodasapstrāde)
  • Nākošreiz
    • Mēsstāstām par vienu no WebScikonferencēm (grupāmvajadzēslīdzīgi)
    • Kautkadatnāks no Twitter analīzes startup pastāstītkodara.
  • Atgādinājums par mājas darbiem
    Deadline: Oct6th 4am