1. Universālas metodes
Twitter datu analīzei
Autors: Matīss Rikters
Vadītājs: Dr. dat. Uldis Bojārs
2. Darba mērķis
• Izpētīt, kā tiek analizēti un kā vēl varētu
analizēt Twitter ziņu datus
• Atrastās metodes apkopot un pielietot
universāla Twitter datu analīzes rīka
izstrādē
3. Problēmas apraksts
• Twitter ir vērtīgs datu avots
• Nav viegli pieejama un ērti lietojama veida,
kā reālā laikā vākt un analizēt tvītus
5. Twitter
Viens no populārākajiem sociālajiem tīkliem
Plašas API iespējas
Mikroblogošanas tīkls
Milzīgs skaits lietotāju un satura
Īsas, koncentrētas ziņas
6. Darba uzdevumi
• Salīdzināt esošos Twitter analīzes rīkus
• Izstrādāt pilotprojektu
• Apkopot atrastās un izdomātās metodes
Twitter ziņu apstrādei
• Izstrādāt universālu Twitter datu
analīzes rīku
7. Twitter datu analīzes rīku
salīdzinājums
• Cena
• Vide
• Vai ir atvērtā pirmkoda risinājums
• Vai ievāc reālā laika datus
• Vai ir iespēja eksportēt datus
• Analīzes metodes
• Tipiskais pielietojums
• Priekšrocības
• Trūkumi
9. The Archivist
Kritērijs Vērtība
Cena Bezmaksas
Vide Pieejama gan tīmekļa programmas versija, gan Windows versija.
Atvērtā pirmkoda risinājums Nē
Spēja vākt reālā laika datus Nē
Iespēja eksportēt datus Jā (tikai Windows versijā)
Analīzes metodes Windows versijā grafiski attēlo ziņu skaitu laika gaitā un aktīvākos lietotājus.
Tīmekļa versijā ziņas izanalizē plašāk, tajā skaitā arī nedaudz no paša ziņas teksta.
Arhīvu iespējams saglabāt kā XML vai teksta failu.
Tipiskais pielietojums Statistikas izpēte
Priekšrocības Dažu sekunžu laikā uzkrāj un izanalizē pēdējā laika tvītus par ievadītajiem
atslēgvārdiem.
Attēlo rezultātus sešos (tīmekļa versijā) vai divos (Windows versijā) pārskatāmos
grafikos.
Trūkumi Windows versijā attēlo ļoti maz rezultātus.
Tīmekļa versija analizē samērā maz no ziņas teksta – tikai populārākos vārdus.
Windows versija vispār neanalizē pašu tekstu.
11. Row Feeder
Kritērijs Vērtība
Cena Pamata versija pieejama bez maksas, PRO versija - sākot no $35 mēnesī.
Vide Tīmekļa programmatūra
Atvērtā pirmkoda risinājums Nē
Spēja vākt reālā laika datus Jā
Iespēja eksportēt datus Jā
Analīzes metodes Tvītu skaita laika gaitā attēlošana.
Sarunu analīze starp tvītotjiem.
Atrašanās vietas analīze.
Vairāku atslēgvārdu salīdzināšana.
Ietekmes analīze (ar datiem no Klout)
Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte
Priekšrocības Piedāvā atskaites saglabāt kā Excel dokumentus.
Bezmaksas ievācamo tvītu skaitu iespējams papildināt, piesaistot citus
lietotājus.
Trūkumi Bezmaksas versijā ļauj ievākt tikai 500 ziņas mēnesī un tikai pēc viena
atslēgvārda.
Atskaites pieejamas tikai Excel dokumentu formā un nekā citādi.
20. Universāls Twitter datu analīzes rīks
Datu vākšana
Ar Streaming API Datu bāzes ielāde no faila
Datu priekšapstrāde
Teksta attīrīšana
Teksta tokenizācija
Datu analīze
Atrašanās vietas Pieminētie lietotāji
WWW saites
Birkas
Kalendārs
Statistika
Emotikoni TOP lietotāji
22. Universāls Twitter datu analīzes rīks
Kritērijs Vērtība
Cena Bezmaksas
Vide Tīmekļa programmatūra
Atvērtā pirmkoda risinājums Jā
Spēja vākt reālā laika datus Jā
Analīzes metodes Attēlo tvītu skaita izmaiņu laika gaitā
Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte
Priekšrocības Piedāvā eksportēt ievāktos datus uz .csv
dokumentu.
Piedāvā diezgan plašu skatījumu uz datiem.
Trūkumi Pie milzīgiem datu apjomiem patērē daudz
servera resursu.
23. Secinājumi
• Sasniegts darba sākumā izvirzītais mērķis
• Apskatīts sociālais tīmeklis un izpētīts
sociālais tīkls Twitter
• Apgūtas Twitter datu analīzes iespējas,
salīdzinot dažādus rīkus un izstrādājot
pilotprojektu
• Izveidots universāls Twitter datu
analīzes rīks
24. Paldies par uzmanību!
Tvītojiet daudz, lai ir ko analizēt ;)
www.twitediens.tk http://ej.uz/riks-github
25. TweetReach
Kritērijs Vērtība
Cena Pamata versija pieejama bez maksas, PRO versija sākot no $84 mēnesī
Vide Tīmekļa programmatūra
Atvērtā pirmkoda risinājums Nē
Spēja vākt reālā laika datus Jā (PRO versijā)
Iespēja eksportēt datus Jā
Analīzes metodes Uzskaita iespējamo ziņas ekspozīciju skaitu, kā arī lietotājus ar lielāko
ietekmi par tēmu, visvairāk pārpublicētās ziņas
Attēlo tvītu skaita izmaiņu laika gaitā
Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte
Priekšrocības Piedāvā atskaites saglabāt kā Excel vai PDF dokumentus.
Par nelielu samaksu piedāvā arī bezmaksas (ne PRO) lietotājiem
saglabāt pilna izmēra atskaiti – līdz 1500 ziņām.
Trūkumi Bezmaksas versijā apskata tikai 50 jaunākās ziņas.
Lai vāktu reālā laika datus, arī jāmaksā.
26. ThinkUp
Kritērijs Vērtība
Cena Bezmaksas
Vide Tīmekļa programmatūra
Atvērtā pirmkoda risinājums Jā
Spēja vākt reālā laika datus Nē
Iespēja eksportēt datus Jā
Analīzes metodes Analizē lietotāja aktivitāti sociālajos tīklos un attēlo to
grafikos.
Spēj attēlot citu lietotāju atbildes uz ziņām kartē.
Ļauj meklēt tvītos un eksportēt tos kā .csv failu.
Tipiskais pielietojums Personīgā konta pārskats
Priekšrocības Sākuma skatā jeb darbvirsmā (Dashboard) ērti pārskatāmas
svarīgākās pēdējā laika aktivitātes.
Spēj analizēt ne vien Twitter, bet arī Facebook un Google+.
Trūkumi Analizē tikai autentificētā lietotāja datus.
Twitter ziņas tekstu sīkāk neanalizē, vienīgi atpazīst, kuras
27. IBM BigSheets
Kritērijs Vērtība
Cena Pamata versija pieejama bez maksas
Vide Tīmekļa programmatūra (nepieciešama vai nu Red Hat Enterprise Linux vai
SUSE Linux Enterprise Server servera operētājsistēma)
Atvērtā pirmkoda risinājums Nē
Spēja vākt reālā laika datus Jā
Iespēja eksportēt datus Jā
Analīzes metodes Piedāvā pievienot spraudņus, kas spēj analizēt valodu, tajā skaitā –
sentimentu.
Kopā ar IBM Many Eyes vai kādu citu spraudni izveido datiem dažādas
vizualizācijas, kā, piemēram, birku mākoni.
Tipiskais pielietojums Biznesa izpēte
Priekšrocības Kopā ar spraudņiem ļoti plašas un spēcīgas iespējas.
Spēj tikt galā ar ļoti lieliem datu daudzumiem.
Spēj ložņāt arī pa tīmekļa lapām vai ielādēt analizējamos datus no datora.
Trūkumi Diezgan sarežģīti uzstādīt.
Samērā neērta lietošana - ar datiem jādarbojas kā ar izklājlapām.