Umap-eu, IEB2011 jardunaldietan

1,210 views

Published on

Aitzol Naberan eta Josu Azpillagaren hitzaldia IEB2011 jardunaldietan, Umap-en inguruan.

Published in: Technology, Design
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,210
On SlideShare
0
From Embeds
0
Number of Embeds
648
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Umap-eu, IEB2011 jardunaldietan

  1. 1. 1 eu.umap.eu Josu Azpillaga
  2. 2. eu.umap.eu <ul><li>Ideia . Zer da umap.eu
  3. 3. Tresna . Nola dabil.
  4. 4. Emaitzak . Estatistika batzuk.
  5. 5. Aurrera begira . </li></ul>
  6. 6. Zer da umap.eu?
  7. 7. Zer da umap.eu?
  8. 9. eu.umap.eu tresna... proba bat
  9. 10. eu.umap.eu. tresna <ul><li>Tuitak jasotzea, denbora errealean
  10. 11. Erabiltzaile euskaldun berriak harrapatzen
  11. 12. Hizkuntza detekzioa
  12. 13. Albisteak, gako-hitzak </li></ul>
  13. 14. <ul>Tuitak jasotzea, denbora errealean </ul><ul><li>Twitter. Streaming API </li><ul><li>http://dev.twitter.com/pages/streaming_api </li></ul><li>Aukerak: </li><ul><li>Location
  14. 15. Track (keywords)
  15. 16. Language and Country -> users
  16. 17. Limit: eskaera berezia (50000) </li></ul><li>X (10) minutuz behin, eskaera berritu </li></ul>
  17. 18. class Client: def __init__(self): self.buffer = u'' self.conn = pycurl.Curl() self.conn.setopt(pycurl.USERPWD, &quot;%s:%s&quot; % (USER, PASS)) self.conn.setopt(pycurl.URL, STREAM_URL) self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values())) self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive) try: self.conn.perform() except pycurl.error, e: print &quot;Error code: &quot;, e[0] print &quot;Error message: &quot;, e[1] def on_error(self, data): import pdb;pdb.set_trace() print data def on_receive(self, data): print data self.buffer += data if data.endswith(&quot;rn&quot;) and self.buffer.strip(): content = json.loads(self.buffer) a = create_status_from_dic(content) self.buffer = &quot;&quot;
  18. 19. <ul>Erabiltzaile euskaldun berriak harrapatzen </ul><ul><li>Ehhhh.... algoritmo...
  19. 20. Hasteko erabiltzaile multzo batekin, nahikoa
  20. 21. Garbiketa ere egiten da
  21. 22. Norbanakoak bai; robotak?
  22. 23. Eu... ondo; ca... ejem. </li></ul>
  23. 24. <ul>Hizkuntza detekzioa </ul><ul><li>Aukera diferenteak
  24. 25. Errazena? Google API !!!
  25. 26. Onena? Google API!!! </li><ul><li>http://code.google.com/apis/language/ </li></ul><li>Lizentziak ez du baimentzen. Orduan? </li></ul>
  26. 27. <ul>Hizkuntza detekzioa </ul><ul><li>GuessLanguage erabiltzen dugu
  27. 28. LangID http://langid.net/
  28. 29. Text cat http://odur.let.rug.nl/~vannoord/TextCat/
  29. 30. LID http://web.me.com/dcavar/LID/
  30. 31. Guess Language https://code.google.com/p/guess-language/ </li></ul>LangID Textcat LID GuessLanguage Test 1. eu OK % 75 % 74 % 85 % 93 Test 2. eu OK % 76 % 88 % 96 % 95
  31. 32. <ul>Albisteak, gako-hitzak </ul><ul><li>Gako-hitzak </li><ul><li>Hitz guztiak zenbatu eta batu
  32. 33. Logika </li><ul><li>Hitz normala: 1 point
  33. 34. Hash-a: 10 point
  34. 35. Tuit horrek link bat du: x1.1
  35. 36. Tuit hori retuit bat da: x1.1
  36. 37. ...
  37. 38. Aldatu liteke! </li></ul></ul></ul>
  38. 39. <ul>Albisteak, gako-hitzak </ul><ul><li>Albisteak </li><ul><li>Link guztiak batu (ojo laburtzaileekin!)
  39. 40. x minutuz behin, aipatuenak kalkulatu
  40. 41. Aipatuen hoiek bisitatu eta informazio relebantea ekarri </li><ul><li>OEmbed!!!!!!!!!!
  41. 42. HTML parserra ;-) </li></ul></ul></ul>
  42. 43. <ul>oEmbed vs HTML parser </ul>http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN-6gdRE&format=json {&quot;provider_url&quot;: &quot;http://www.youtube.com/&quot;, &quot;title&quot;: &quot;BRIARD ON SCOOTER - scooting dog&quot;, <h1 id=&quot;watch-headline-title&quot;> <span id=&quot;eow-title&quot; class=&quot;&quot; dir=&quot;ltr&quot; title=&quot;BRIARD ON SCOOTER - scooting dog&quot;> BRIARD ON SCOOTER - scooting dog </span> </h1> <div id=&quot;watch-headline-user-info&quot;> <a id=&quot;watch-username&quot; class=&quot;inline-block&quot; rel=&quot;author&quot; href=&quot; /user/courteous1 &quot;><strong>courteous1</strong></a> <ul>vs </ul>
  43. 44. <ul>eu.umap.eu tresna. kodea </ul><ul><li>Kode guztia, horratx: </li><ul><li>http://www.codesyntax.com/products </li><ul><li>cstwitterstatus
  44. 45. cstwitternews
  45. 46. cslanguagedetection </li></ul></ul></ul>
  46. 47. Emaitzak: datu batzuk <ul><li>2010eko urritik martxan (aurreko datuak...)
  47. 48. Datu orokorrak: </li><ul><li>Tuitak: 1.177.666 (aurrekoak beste 400.000)
  48. 49. eu tuitak: 151.969 (%13)
  49. 50. Erabiltzaileak: 2000tik gora jarraitzen. Eu aktiboak? 1200 inguru... gutxiago seguraski. </li></ul></ul>
  50. 51. Emaitzak: datu batzuk
  51. 52. Emaitzak: datu batzuk <ul><li>eu tuiten bat egin duten erabiltzaileak, 6 hilabetean: +%60 </li></ul>
  52. 53. Emaitzak: datu batzuk <ul><li>2010/11tik hona tuit kopuruaren araberako erabiltzaileak </li></ul>
  53. 54. Emaitzak: datu batzuk <ul><li>2010/11tik hona euskarazko tuit kopuruaren araberako erabiltzaileak </li></ul>
  54. 55. Emaitzak: datu batzuk <ul><li>2011 / 04. Retuitak.
  55. 56. Tuitak (eu): 26.982
  56. 57. Retuitak (eu): 4.109 (%15)
  57. 58. Erabiltzaile retuiteatuenak (eraginkorrenak!):
  58. 59. berria (225), kalaportu (126), argia (108), Sustatu (82), boligorria (75), euskalherrian (71), bildueh (57), zaldieroa (55), garanet (53), theklaneh (49), larbelaitz (48), luistxo (46), iturri (44), euskaljakintza (42), 17Korrika (41), info7irratia (40), zuzeu (40), dabidmp (36), robergutierrez (35), beaetaeneko (34), imnl (30), gaztea (30), tropela (30), teketen (29), Karrikiri (28), birasuegi (26), euskadi_irratia (25), ameslaria (25), EITBKultura (24), eitbcom (24), donostiakultura (24), ainhoaeus (24), baieuskarari (24), eguraldia (23), koldocas (23), goiena (22), zerdionk (22), hedoi_etxarte (21), jonabril (21), iPtx (21), jazpillaga (21), ueu_orokorra (20), exprai (20), GAZTEA (20), joxearanzabal (19), demonocrazy (19), IBIL2D (19), macmikel (18), kazetainfo (18), xletona (17), </li></ul>
  59. 60. Emaitzak: datu batzuk <ul><li>2011 / 04. Loturak.
  60. 61. Tuitak (eu): 26.982
  61. 62. Loturadunak (eu): 14.802 (%55!!!)
  62. 63. Hedabide(!) aipatuenak:
  63. 64. eitb.com (1238), youtube.com (504), argia.com (395), berria.info (372), sustatu.com (314), goiena.net (310), zuzeu.com (245), gara.net (235), twitpic.com (230), feedburner.com (226), euskadi.net (200), twitter.com (197), ukberri.net (191), topatu.info (165), google.com (156), askatu.org (143), kulturweb.com (132), etengabe.blogsome.com (117), bizkaie.biz (116), kazeta.info (103), bildu.info (100), uberan.org (87), otamotz.com (87), aiaraldea.com (86) </li></ul>
  64. 65. Emaitzak: datu batzuk <ul><li>2011 / 04. Albisteak.
  65. 66. Albisteak albistegi automatikoan: 508
  66. 67. Nondik?
  67. 68. eitb.com (49), argia.com (37), youtube.com (28), berria.info (26), gara.net (19), zuzeu.com (14), twitpic.com (12), sustatu.com (13), topatu.info (10), orekakomunikazioa.deusto.es (8), bildu.info (8), askatu.org (7), ezkerabertzalea.info (7), otamotz.com (6), bit.ly (6), ueu.org (6), hitzondo.net (6), diariovasco.com (5), askapena.org (5), ikasleabertzaleak.org (5), baisarean.org (5), feeds.feedburner.com (4), feedproxy.google.com (4), berriketan.info (4), imh.es (4), juankarh.blogspot.com (4), etxerat.info (4), elpais.com (3), euskaljakintza.com (3), albisteak.euskalherrian.info (3), eibar.org (3), bizkaie.biz (3), noticiasdegipuzkoa.com (3), flickr.com (3), imanolmurua.blogspot.com (2), deia.com (2), codesyntax.com (2), mukom.mondragon.edu (2), </li></ul>
  68. 69. Aurrera begira
  69. 70. Eskerrik asko @jazpillaga

×