Umap-eu, IEB2011 jardunaldietan
Upcoming SlideShare
Loading in...5
×
 

Umap-eu, IEB2011 jardunaldietan

on

  • 1,259 views

Aitzol Naberan eta Josu Azpillagaren hitzaldia IEB2011 jardunaldietan, Umap-en inguruan.

Aitzol Naberan eta Josu Azpillagaren hitzaldia IEB2011 jardunaldietan, Umap-en inguruan.

Statistics

Views

Total Views
1,259
Views on SlideShare
612
Embed Views
647

Actions

Likes
0
Downloads
1
Comments
0

5 Embeds 647

http://sustatu.com 633
http://blogosfera.euskalherrian.info 9
http://www.slideshare.net 3
url_unknown 1
http://translate.googleusercontent.com 1

Accessibility

Categories

Upload Details

Uploaded via as OpenOffice

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Umap-eu, IEB2011 jardunaldietan Umap-eu, IEB2011 jardunaldietan Presentation Transcript

  • 1 eu.umap.eu Josu Azpillaga
  • eu.umap.eu
    • Ideia . Zer da umap.eu
    • Tresna . Nola dabil.
    • Emaitzak . Estatistika batzuk.
    • Aurrera begira .
  • Zer da umap.eu?
  • Zer da umap.eu?
  •  
  • eu.umap.eu tresna... proba bat
  • eu.umap.eu. tresna
    • Tuitak jasotzea, denbora errealean
    • Erabiltzaile euskaldun berriak harrapatzen
    • Hizkuntza detekzioa
    • Albisteak, gako-hitzak
    • Tuitak jasotzea, denbora errealean
    • Twitter. Streaming API
      • http://dev.twitter.com/pages/streaming_api
    • Aukerak:
      • Location
      • Track (keywords)
      • Language and Country -> users
      • Limit: eskaera berezia (50000)
    • X (10) minutuz behin, eskaera berritu
  • class Client: def __init__(self): self.buffer = u'' self.conn = pycurl.Curl() self.conn.setopt(pycurl.USERPWD, "%s:%s" % (USER, PASS)) self.conn.setopt(pycurl.URL, STREAM_URL) self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values())) self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive) try: self.conn.perform() except pycurl.error, e: print "Error code: ", e[0] print "Error message: ", e[1] def on_error(self, data): import pdb;pdb.set_trace() print data def on_receive(self, data): print data self.buffer += data if data.endswith("rn") and self.buffer.strip(): content = json.loads(self.buffer) a = create_status_from_dic(content) self.buffer = ""
    • Erabiltzaile euskaldun berriak harrapatzen
    • Ehhhh.... algoritmo...
    • Hasteko erabiltzaile multzo batekin, nahikoa
    • Garbiketa ere egiten da
    • Norbanakoak bai; robotak?
    • Eu... ondo; ca... ejem.
    • Hizkuntza detekzioa
    • Aukera diferenteak
    • Errazena? Google API !!!
    • Onena? Google API!!!
      • http://code.google.com/apis/language/
    • Lizentziak ez du baimentzen. Orduan?
    • Hizkuntza detekzioa
    • GuessLanguage erabiltzen dugu
    • LangID http://langid.net/
    • Text cat http://odur.let.rug.nl/~vannoord/TextCat/
    • LID http://web.me.com/dcavar/LID/
    • Guess Language https://code.google.com/p/guess-language/
    LangID Textcat LID GuessLanguage Test 1. eu OK % 75 % 74 % 85 % 93 Test 2. eu OK % 76 % 88 % 96 % 95
    • Albisteak, gako-hitzak
    • Gako-hitzak
      • Hitz guztiak zenbatu eta batu
      • Logika
        • Hitz normala: 1 point
        • Hash-a: 10 point
        • Tuit horrek link bat du: x1.1
        • Tuit hori retuit bat da: x1.1
        • ...
        • Aldatu liteke!
    • Albisteak, gako-hitzak
    • Albisteak
      • Link guztiak batu (ojo laburtzaileekin!)
      • x minutuz behin, aipatuenak kalkulatu
      • Aipatuen hoiek bisitatu eta informazio relebantea ekarri
        • OEmbed!!!!!!!!!!
        • HTML parserra ;-)
    • oEmbed vs HTML parser
    http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN-6gdRE&format=json {&quot;provider_url&quot;: &quot;http://www.youtube.com/&quot;, &quot;title&quot;: &quot;BRIARD ON SCOOTER - scooting dog&quot;, <h1 id=&quot;watch-headline-title&quot;> <span id=&quot;eow-title&quot; class=&quot;&quot; dir=&quot;ltr&quot; title=&quot;BRIARD ON SCOOTER - scooting dog&quot;> BRIARD ON SCOOTER - scooting dog </span> </h1> <div id=&quot;watch-headline-user-info&quot;> <a id=&quot;watch-username&quot; class=&quot;inline-block&quot; rel=&quot;author&quot; href=&quot; /user/courteous1 &quot;><strong>courteous1</strong></a>
      vs
    • eu.umap.eu tresna. kodea
    • Kode guztia, horratx:
      • http://www.codesyntax.com/products
        • cstwitterstatus
        • cstwitternews
        • cslanguagedetection
  • Emaitzak: datu batzuk
    • 2010eko urritik martxan (aurreko datuak...)
    • Datu orokorrak:
      • Tuitak: 1.177.666 (aurrekoak beste 400.000)
      • eu tuitak: 151.969 (%13)
      • Erabiltzaileak: 2000tik gora jarraitzen. Eu aktiboak? 1200 inguru... gutxiago seguraski.
  • Emaitzak: datu batzuk
  • Emaitzak: datu batzuk
    • eu tuiten bat egin duten erabiltzaileak, 6 hilabetean: +%60
  • Emaitzak: datu batzuk
    • 2010/11tik hona tuit kopuruaren araberako erabiltzaileak
  • Emaitzak: datu batzuk
    • 2010/11tik hona euskarazko tuit kopuruaren araberako erabiltzaileak
  • Emaitzak: datu batzuk
    • 2011 / 04. Retuitak.
    • Tuitak (eu): 26.982
    • Retuitak (eu): 4.109 (%15)
    • Erabiltzaile retuiteatuenak (eraginkorrenak!):
    • berria (225), kalaportu (126), argia (108), Sustatu (82), boligorria (75), euskalherrian (71), bildueh (57), zaldieroa (55), garanet (53), theklaneh (49), larbelaitz (48), luistxo (46), iturri (44), euskaljakintza (42), 17Korrika (41), info7irratia (40), zuzeu (40), dabidmp (36), robergutierrez (35), beaetaeneko (34), imnl (30), gaztea (30), tropela (30), teketen (29), Karrikiri (28), birasuegi (26), euskadi_irratia (25), ameslaria (25), EITBKultura (24), eitbcom (24), donostiakultura (24), ainhoaeus (24), baieuskarari (24), eguraldia (23), koldocas (23), goiena (22), zerdionk (22), hedoi_etxarte (21), jonabril (21), iPtx (21), jazpillaga (21), ueu_orokorra (20), exprai (20), GAZTEA (20), joxearanzabal (19), demonocrazy (19), IBIL2D (19), macmikel (18), kazetainfo (18), xletona (17),
  • Emaitzak: datu batzuk
    • 2011 / 04. Loturak.
    • Tuitak (eu): 26.982
    • Loturadunak (eu): 14.802 (%55!!!)
    • Hedabide(!) aipatuenak:
    • eitb.com (1238), youtube.com (504), argia.com (395), berria.info (372), sustatu.com (314), goiena.net (310), zuzeu.com (245), gara.net (235), twitpic.com (230), feedburner.com (226), euskadi.net (200), twitter.com (197), ukberri.net (191), topatu.info (165), google.com (156), askatu.org (143), kulturweb.com (132), etengabe.blogsome.com (117), bizkaie.biz (116), kazeta.info (103), bildu.info (100), uberan.org (87), otamotz.com (87), aiaraldea.com (86)
  • Emaitzak: datu batzuk
    • 2011 / 04. Albisteak.
    • Albisteak albistegi automatikoan: 508
    • Nondik?
    • eitb.com (49), argia.com (37), youtube.com (28), berria.info (26), gara.net (19), zuzeu.com (14), twitpic.com (12), sustatu.com (13), topatu.info (10), orekakomunikazioa.deusto.es (8), bildu.info (8), askatu.org (7), ezkerabertzalea.info (7), otamotz.com (6), bit.ly (6), ueu.org (6), hitzondo.net (6), diariovasco.com (5), askapena.org (5), ikasleabertzaleak.org (5), baisarean.org (5), feeds.feedburner.com (4), feedproxy.google.com (4), berriketan.info (4), imh.es (4), juankarh.blogspot.com (4), etxerat.info (4), elpais.com (3), euskaljakintza.com (3), albisteak.euskalherrian.info (3), eibar.org (3), bizkaie.biz (3), noticiasdegipuzkoa.com (3), flickr.com (3), imanolmurua.blogspot.com (2), deia.com (2), codesyntax.com (2), mukom.mondragon.edu (2),
  • Aurrera begira
  • Eskerrik asko @jazpillaga