3. Tīmekļa
datu
analīze
Web
Science
vākšana
apkopošana
Avo.
apstrāde
Da. integrēšana
[+metada.] bagā.nāšana
Apstrādā.
da. analīze
reprezentēšana
Analīzes
da. interpretēšana
PēCjuma
rezultā.
4. Datu
veidi
• Nestrukturē.
vai
formāli
vāji
strukturē.
da.
– HTML
lapas
(prezentācija
vs.
seman.ka)
– teksts,
aQēli,
video
u.c.
• Struktrē.
da.
– RDB
à
Cmekļa
serviss
– RDF/SPARQL
end-‐points
• DBpedia,
Freebase,
GeoNames,
OpenCyc,
...
• Linked
Data
un
LOD
Community
• Sociālie
Ckli
– TwiAer
struktūra
– Facebook
sociālais
grafs
un
Open
Graph
protokols
– ...
5. Datu
vākšanas
veidi
• Manuāli
• Sarunājot
ar
īpašnieku
(dump)
• Lietojot
Cmekļa
zirnekli
(crawler)
– ņemot
vērā
robot.txt
– veicot
screen/web
scraping
• Izmantojot
API
– TwiAer
API
Kāds var papētīt,
– Facebook
Graph
API salīdzināt!
– Draugiem.lv
API
PHP
library
6. Datu
apstrāde
• Priekšapstrāde
• Dabīgās
valodas
apstrāde
• Datu
“bagā.nāšana”
(metada.,
linked
data)
• Analīze,
vizualizācija,
...
8. Dabīgās
valodas
apstrāde
• Morfoloģiskā
analīze,
celmošana
(stemming)
• Named
EnLty
RecogniLon
– personas,
vietas,
organizācijas,
datumi,
...
• Sintak.skā
un
seman.skā
analīze
• [Kontrolētas]
valodas
analīze
un
ģenerēšana
9. Mini-‐projekts:
kick-‐off
• Sadalīšanās
pa
grupām
• Tvītu
vākšanas
uzdevums
– No
kura
gala
sākt
vākt?
• Darba
plāns
&
eksperimentāla
realizācija
• Neliela
“atskaite”
nākamajā
seminārā
– prezentācija,
demo,
problēmas,
diskusijas
10. Mājās
• Iepazī.es
ar
TwiQer
API
• UzraksCt
skriptu
kas
savāc
500
tvītus
pēc
kaut
kāda
kritērija
• Līdz
nākošai
ceturdienai
atsūCt
skriptu
un
savākto
datu
piemēru
uz
websci.lu@gmail.com
• 5
min
prezentācija
par
to
kā
gāja,
pārdomas,
problēmas,
ko
vēl
izdarījāt
10