SlideShare a Scribd company logo
1 of 13
Download to read offline
Pārdomas	
  par	
  Projek.em?




                                1
Pārdomas	
  par	
  Projek.em?
• Ko?
• Kā?
• Kāpēc?




                                     2
Tīmekļa	
  datu	
  analīze
                           Web	
  Science

       vākšana
       apkopošana
Avo.

                          apstrāde
         Da.              integrēšana
       [+metada.]         bagā.nāšana




                    Apstrādā.	
  da.        analīze


                                                                reprezentēšana
                                        Analīzes	
  da.         interpretēšana




                                                          PēCjuma	
  rezultā.
Datu	
  veidi

• Nestrukturē.	
  vai	
  formāli	
  vāji	
  strukturē.	
  da.
    – HTML	
  lapas	
  (prezentācija	
  vs.	
  seman.ka)
    – teksts,	
  aQēli,	
  video	
  u.c.
• Struktrē.	
  da.
    – RDB	
  à	
  Cmekļa	
  serviss
    – RDF/SPARQL	
  end-­‐points
         • DBpedia,	
  Freebase,	
  GeoNames,	
  OpenCyc,	
  ...
         • Linked	
  Data	
  un	
  LOD	
  Community

• Sociālie	
  Ckli
    – TwiAer	
  struktūra
    – Facebook	
  sociālais	
  grafs	
  un	
  Open	
  Graph	
  protokols
    – ...
Datu	
  vākšanas	
  	
  veidi

• Manuāli
• Sarunājot	
  ar	
  īpašnieku	
  (dump)
• Lietojot	
  Cmekļa	
  zirnekli	
  (crawler)
    – ņemot	
  vērā	
  robot.txt
    – veicot	
  screen/web	
  scraping
• Izmantojot	
  API
    – TwiAer	
  API
                                                Kāds var papētīt,
    – Facebook	
  Graph	
  API                  salīdzināt!
    – Draugiem.lv	
  API	
  PHP	
  library
Datu	
  apstrāde

• Priekšapstrāde
• Dabīgās	
  valodas	
  apstrāde
• Datu	
  “bagā.nāšana”	
  (metada.,	
  linked	
  data)
• Analīze,	
  vizualizācija,	
  ...
Priekšapstrāde

• Formā.,	
  rakstzīmju	
  kodējumi,	
  valodas	
  noteikšana
• Potenciāli	
  derīgā	
  satura	
  (satura	
  bloku)	
  a]iltrēšana	
  (web	
  
  scraping	
  kontekstā)
• Tvītu	
  un	
  komentāru	
  normalizācija
• Iden.tāšu	
  anonimizācija	
  (MD5)
Dabīgās	
  valodas	
  apstrāde

• Morfoloģiskā	
  analīze,	
  celmošana	
  (stemming)
• Named	
  EnLty	
  RecogniLon
    – personas,	
  vietas,	
  organizācijas,	
  datumi,	
  ...
• Sintak.skā	
  un	
  seman.skā	
  analīze
• [Kontrolētas]	
  valodas	
  analīze	
  un	
  ģenerēšana
Mini-­‐projekts:	
  kick-­‐off

• Sadalīšanās	
  pa	
  grupām
• Tvītu	
  vākšanas	
  uzdevums
    – No	
  kura	
  gala	
  sākt	
  vākt?
• Darba	
  plāns	
  &	
  eksperimentāla	
  realizācija
• Neliela	
  “atskaite”	
  nākamajā	
  seminārā
    – prezentācija,	
  demo,	
  problēmas,	
  diskusijas
Mājās
• Iepazī.es	
  ar	
  TwiQer	
  API
• UzraksCt	
  skriptu	
  kas	
  savāc	
  500	
  tvītus	
  pēc	
  kaut	
  
  kāda	
  kritērija
• Līdz	
  nākošai	
  ceturdienai	
  atsūCt	
  skriptu	
  un	
  
  savākto	
  datu	
  piemēru	
  uz	
  websci.lu@gmail.com
• 5	
  min	
  prezentācija	
  par	
  to	
  kā	
  gāja,	
  pārdomas,	
  
  problēmas,	
  ko	
  vēl	
  izdarījāt


                                                                       10
Iedvesmai




http://www.slideshare.net/ptwobrussell/unleashing-twitter-data-for-fun-and-insight   13	
  -­‐	
  16	
  slaids



                                              !   15.	
  slaidā	
  domain='search.twi1er.com'
                                                  vietā	
  vajag	
  domain='api.twi1er.com'
                                                                                                                 11
Specsemināra	
  prasības

• AkCva	
  dalība	
  (jautājumi,	
  diskusijas)
• Darbs	
  mini-­‐projektā
• Nelielu	
  prezentāciju/stāsCjumu	
  gatavošana
    – progress,	
  problēmas	
  un	
  iespējamie	
  risinājumi	
  mini-­‐projektos
    – saistošu	
  publikāciju	
  (metožu),	
  no.kumu,	
  projektu,	
  rīku	
  apska.
    – 	
  ...
Facebook	
  Group
hQps://www.facebook.com/groups/195549767180346/




                                                  13

More Related Content

Viewers also liked

청소년인턴십프로젝트 OT
청소년인턴십프로젝트 OT청소년인턴십프로젝트 OT
청소년인턴십프로젝트 OT승연 손
 
第三期农村儿童图书银行项目终期评估报告—110801
第三期农村儿童图书银行项目终期评估报告—110801第三期农村儿童图书银行项目终期评估报告—110801
第三期农村儿童图书银行项目终期评估报告—110801wuying
 
Visiemiddag klaverweide
Visiemiddag klaverweideVisiemiddag klaverweide
Visiemiddag klaverweideKennisnet
 
ความรู้เกี่ยวกับระบบปฏิบัติการ
ความรู้เกี่ยวกับระบบปฏิบัติการความรู้เกี่ยวกับระบบปฏิบัติการ
ความรู้เกี่ยวกับระบบปฏิบัติการokbeer
 
Bridge Partners Journal_Negoziazione e Management_febbraio 2011
Bridge Partners Journal_Negoziazione e Management_febbraio 2011Bridge Partners Journal_Negoziazione e Management_febbraio 2011
Bridge Partners Journal_Negoziazione e Management_febbraio 2011Bridge Partners® srl
 
Brochure Reporting Services
Brochure Reporting ServicesBrochure Reporting Services
Brochure Reporting Servicesadvandervorst
 
Tien tips om enthousiaste klanten te trekken met sociale media
Tien tips om enthousiaste klanten te trekken met sociale mediaTien tips om enthousiaste klanten te trekken met sociale media
Tien tips om enthousiaste klanten te trekken met sociale mediaFaxion
 
งานนำเสนอ2
งานนำเสนอ2งานนำเสนอ2
งานนำเสนอ2teerawut
 
AskDoctorsコンバージョン率向上策の紹介
AskDoctorsコンバージョン率向上策の紹介AskDoctorsコンバージョン率向上策の紹介
AskDoctorsコンバージョン率向上策の紹介kumanoism
 
อาร์ม รูปโมลานิซ่า
อาร์ม  รูปโมลานิซ่าอาร์ม  รูปโมลานิซ่า
อาร์ม รูปโมลานิซ่าMos BirDy
 

Viewers also liked (18)

청소년인턴십프로젝트 OT
청소년인턴십프로젝트 OT청소년인턴십프로젝트 OT
청소년인턴십프로젝트 OT
 
第三期农村儿童图书银行项目终期评估报告—110801
第三期农村儿童图书银行项目终期评估报告—110801第三期农村儿童图书银行项目终期评估报告—110801
第三期农村儿童图书银行项目终期评估报告—110801
 
Visiemiddag klaverweide
Visiemiddag klaverweideVisiemiddag klaverweide
Visiemiddag klaverweide
 
Grand Valley
Grand ValleyGrand Valley
Grand Valley
 
ความรู้เกี่ยวกับระบบปฏิบัติการ
ความรู้เกี่ยวกับระบบปฏิบัติการความรู้เกี่ยวกับระบบปฏิบัติการ
ความรู้เกี่ยวกับระบบปฏิบัติการ
 
Bridge Partners Journal_Negoziazione e Management_febbraio 2011
Bridge Partners Journal_Negoziazione e Management_febbraio 2011Bridge Partners Journal_Negoziazione e Management_febbraio 2011
Bridge Partners Journal_Negoziazione e Management_febbraio 2011
 
Husna
HusnaHusna
Husna
 
คู่มื่อการใช้ Adobe capitvate3
คู่มื่อการใช้ Adobe capitvate3คู่มื่อการใช้ Adobe capitvate3
คู่มื่อการใช้ Adobe capitvate3
 
Drmashour - bareeq
Drmashour - bareeqDrmashour - bareeq
Drmashour - bareeq
 
Brochure Reporting Services
Brochure Reporting ServicesBrochure Reporting Services
Brochure Reporting Services
 
Южная Корея. Wooridul Spine Hospital.
Южная Корея. Wooridul Spine Hospital.Южная Корея. Wooridul Spine Hospital.
Южная Корея. Wooridul Spine Hospital.
 
Tien tips om enthousiaste klanten te trekken met sociale media
Tien tips om enthousiaste klanten te trekken met sociale mediaTien tips om enthousiaste klanten te trekken met sociale media
Tien tips om enthousiaste klanten te trekken met sociale media
 
Fuadi
FuadiFuadi
Fuadi
 
งานนำเสนอ2
งานนำเสนอ2งานนำเสนอ2
งานนำเสนอ2
 
Arwin
ArwinArwin
Arwin
 
AskDoctorsコンバージョン率向上策の紹介
AskDoctorsコンバージョン率向上策の紹介AskDoctorsコンバージョン率向上策の紹介
AskDoctorsコンバージョン率向上策の紹介
 
อาร์ม รูปโมลานิซ่า
อาร์ม  รูปโมลานิซ่าอาร์ม  รูปโมลานิซ่า
อาร์ม รูปโมลานิซ่า
 
TNT Centre, blauwdruk voor een duurzaam gebouw
TNT Centre, blauwdruk voor een duurzaam gebouwTNT Centre, blauwdruk voor een duurzaam gebouw
TNT Centre, blauwdruk voor een duurzaam gebouw
 

Similar to Web Science 22.09.2011

Web Science - 1. lekcija
Web Science - 1. lekcijaWeb Science - 1. lekcija
Web Science - 1. lekcijaUldis Bojars
 
Interneta un sociālo mediju iespējas mūsdienīgam mācību procesam
Interneta un sociālo mediju  iespējas mūsdienīgam mācību procesam Interneta un sociālo mediju  iespējas mūsdienīgam mācību procesam
Interneta un sociālo mediju iespējas mūsdienīgam mācību procesam Nākotnesskola.lv
 
Digitālo materiālu veidošanas rīki u.c. tiešsaistes servisu izmantošana
Digitālo materiālu veidošanas rīki u.c. tiešsaistes servisu izmantošanaDigitālo materiālu veidošanas rīki u.c. tiešsaistes servisu izmantošana
Digitālo materiālu veidošanas rīki u.c. tiešsaistes servisu izmantošanaNākotnesskola.lv
 
Digitālais mācību materiāls – labā prakse un mācību materiāla izveide mācību ...
Digitālais mācību materiāls – labā prakse un mācību materiāla izveide mācību ...Digitālais mācību materiāls – labā prakse un mācību materiāla izveide mācību ...
Digitālais mācību materiāls – labā prakse un mācību materiāla izveide mācību ...Nākotnesskola.lv
 

Similar to Web Science 22.09.2011 (8)

Web Science - 1. lekcija
Web Science - 1. lekcijaWeb Science - 1. lekcija
Web Science - 1. lekcija
 
Universālas metodes twitter datu analīzei
Universālas metodes twitter datu analīzeiUniversālas metodes twitter datu analīzei
Universālas metodes twitter datu analīzei
 
Fs motivacijai
Fs motivacijaiFs motivacijai
Fs motivacijai
 
Interneta un sociālo mediju iespējas mūsdienīgam mācību procesam
Interneta un sociālo mediju  iespējas mūsdienīgam mācību procesam Interneta un sociālo mediju  iespējas mūsdienīgam mācību procesam
Interneta un sociālo mediju iespējas mūsdienīgam mācību procesam
 
Digitālo materiālu veidošanas rīki u.c. tiešsaistes servisu izmantošana
Digitālo materiālu veidošanas rīki u.c. tiešsaistes servisu izmantošanaDigitālo materiālu veidošanas rīki u.c. tiešsaistes servisu izmantošana
Digitālo materiālu veidošanas rīki u.c. tiešsaistes servisu izmantošana
 
Digitālais mācību materiāls – labā prakse un mācību materiāla izveide mācību ...
Digitālais mācību materiāls – labā prakse un mācību materiāla izveide mācību ...Digitālais mācību materiāls – labā prakse un mācību materiāla izveide mācību ...
Digitālais mācību materiāls – labā prakse un mācību materiāla izveide mācību ...
 
Blogi tim vietnes_fs
Blogi tim vietnes_fsBlogi tim vietnes_fs
Blogi tim vietnes_fs
 
Prezentacija par sm
Prezentacija par smPrezentacija par sm
Prezentacija par sm
 

Web Science 22.09.2011

  • 2. Pārdomas  par  Projek.em? • Ko? • Kā? • Kāpēc? 2
  • 3. Tīmekļa  datu  analīze Web  Science vākšana apkopošana Avo. apstrāde Da. integrēšana [+metada.] bagā.nāšana Apstrādā.  da. analīze reprezentēšana Analīzes  da. interpretēšana PēCjuma  rezultā.
  • 4. Datu  veidi • Nestrukturē.  vai  formāli  vāji  strukturē.  da. – HTML  lapas  (prezentācija  vs.  seman.ka) – teksts,  aQēli,  video  u.c. • Struktrē.  da. – RDB  à  Cmekļa  serviss – RDF/SPARQL  end-­‐points • DBpedia,  Freebase,  GeoNames,  OpenCyc,  ... • Linked  Data  un  LOD  Community • Sociālie  Ckli – TwiAer  struktūra – Facebook  sociālais  grafs  un  Open  Graph  protokols – ...
  • 5. Datu  vākšanas    veidi • Manuāli • Sarunājot  ar  īpašnieku  (dump) • Lietojot  Cmekļa  zirnekli  (crawler) – ņemot  vērā  robot.txt – veicot  screen/web  scraping • Izmantojot  API – TwiAer  API Kāds var papētīt, – Facebook  Graph  API salīdzināt! – Draugiem.lv  API  PHP  library
  • 6. Datu  apstrāde • Priekšapstrāde • Dabīgās  valodas  apstrāde • Datu  “bagā.nāšana”  (metada.,  linked  data) • Analīze,  vizualizācija,  ...
  • 7. Priekšapstrāde • Formā.,  rakstzīmju  kodējumi,  valodas  noteikšana • Potenciāli  derīgā  satura  (satura  bloku)  a]iltrēšana  (web   scraping  kontekstā) • Tvītu  un  komentāru  normalizācija • Iden.tāšu  anonimizācija  (MD5)
  • 8. Dabīgās  valodas  apstrāde • Morfoloģiskā  analīze,  celmošana  (stemming) • Named  EnLty  RecogniLon – personas,  vietas,  organizācijas,  datumi,  ... • Sintak.skā  un  seman.skā  analīze • [Kontrolētas]  valodas  analīze  un  ģenerēšana
  • 9. Mini-­‐projekts:  kick-­‐off • Sadalīšanās  pa  grupām • Tvītu  vākšanas  uzdevums – No  kura  gala  sākt  vākt? • Darba  plāns  &  eksperimentāla  realizācija • Neliela  “atskaite”  nākamajā  seminārā – prezentācija,  demo,  problēmas,  diskusijas
  • 10. Mājās • Iepazī.es  ar  TwiQer  API • UzraksCt  skriptu  kas  savāc  500  tvītus  pēc  kaut   kāda  kritērija • Līdz  nākošai  ceturdienai  atsūCt  skriptu  un   savākto  datu  piemēru  uz  websci.lu@gmail.com • 5  min  prezentācija  par  to  kā  gāja,  pārdomas,   problēmas,  ko  vēl  izdarījāt 10
  • 11. Iedvesmai http://www.slideshare.net/ptwobrussell/unleashing-twitter-data-for-fun-and-insight 13  -­‐  16  slaids ! 15.  slaidā  domain='search.twi1er.com' vietā  vajag  domain='api.twi1er.com' 11
  • 12. Specsemināra  prasības • AkCva  dalība  (jautājumi,  diskusijas) • Darbs  mini-­‐projektā • Nelielu  prezentāciju/stāsCjumu  gatavošana – progress,  problēmas  un  iespējamie  risinājumi  mini-­‐projektos – saistošu  publikāciju  (metožu),  no.kumu,  projektu,  rīku  apska. –  ...