SlideShare a Scribd company logo
1 of 24
Journalistisen verkkosisällön
puoliautomaattinen sisällönkuvailu
Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi
@mickhinds | mikael.hindsberg@yle.fi
22.11.2013
Miten teet journalistista metadataannotoijan 30 sekunnissa
Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi
@mickhinds | mikael.hindsberg@yle.fi
22.11.2013
Miten teet journalistista metadataannotoijan 30 sekunnissa
Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi
@mickhinds | mikael.hindsberg@yle.fi
22.11.2013
Tästä lähdettiin - 2010
Tämä tehtiin 2011-2012
Uusi
siältöajattelu
“JUST NU!”

Epic
Win!

Uusi
organisaatio
DESK+

Uusi alusta
Drupal 7
Totalfail :(
Jokainen sivu on etusivu
Metadata
korvasi
menut.
Kävijäliikenne
Etusivu
Hakukoneet
Suositukset
Suositukset syy annotointiin
Svenska.yle.fi:n Onki-moduuli
Linked Data Finland
http://www.ldf.fi/
• Drupal 7
• Onki moduuli
•

https://drupal.org/node/1604784

• ARPA
•

•

http://www.seco.tkk.fi/services/arpa/

KOKO
•

http://onki.fi/sv/browser/overview/koko

Demo:
http://www.youtube.com/watch?v=3PX2_U50UTs

Lue lisää kehitysblogissamme:
http://utveckling.ylebloggen.fi/tag/metadata/
ARPA
ARPA on verkkopalvelu automaattiselle tekstiannotaatiolle.
http://www.seco.tkk.fi/services/arpa/
Suunnitelmissa siirtää osaksi Kansalliskirjaston Finto (Onki)projektia, mahdollisesti 2015.
• MAUI https://code.google.com/p/maui-indexer/
• Maui automatically identifies main topics in text documents.

• Snowball http://snowball.tartarus.org/
• Snowball is a small string processing language designed for
creating stemming algorithms for use in Information Retrieval

• Omorfi https://code.google.com/p/omorfi/
• Open morphology for Finnish

• Connexor sv-sdg http://bit.ly/1h2wweN
• sv-fdg analyses Swedish text according to a functional
dependency grammar
Metadatalla maailmalle
Google-hyötyä
(Syksy
2012)

Yle.fi
Svenska.yle.fi
Google-hyötyä
Konepellin alla
ARPA toiminnassa
ARPA
ARPA vs. journalisti annotoijana
ARPA:

Journalisti:

•
•
•
•
•
•
•
•
•

•
•
•
•
•
•

Skadestånd
Ägande
Marknad
Telefonförsäljning
Ask
Problem
Köpare
Kinesiska
Rykten

Försäljning
Aktier
Ägare
Mobiltelefoner
Mobiltelefonsystem
Bolagsstämmor
Onko ARPA:sta enemmän hyötyä
vai haittaa?!
Haitat:

Hyödyt:

• Ei ole älykäs 
• Virheellisiä ehdotuksia
• Harhaanjohtavia
ehdotuksia
• Ei löydä relevantteja
ehdotuksia
• Ei osaa ehdottaa
leipätekstistä puuttuvia
asiasanoja
• Antaa illuusion hyvästä
asiasanoituksesta
• Hidastaa työnkulkua

• Nopeuttaa työnkulkua
• Antaa yleiskatsauksen
käytössä olevista
asiasnoista
• Antaa inspiraatiota ja
assosiaatioita
manuaaliseen
annotaatioon
ARPA vastaanotto
Annotoito artikkelisi asiasanoilla?

Aina
Useimmiten
Joskus
Ei koskaan
ARPA vastaanotto
Käytätkö annotointiin ARPAa?

Aina
Useimmiten
Joskus
Ei koskaan
ARPA vastaanotto
Mitä tehdä ARPA:lle?

Pidä
sellaisenaan
Jatkokehitä
Ei väliä
Ota pois käytöstä
ARPA vastaanotto

Kouluarvosana:
FREEBASE-moduuli
Drupal 7
+
Freebase (API)
https://www.freebase.com/

Code sandbox:
https://drupal.org/sandbox/jaysire/2095551

• Ei ARPA-toiminnallisuutta
• Toimijoita, paikkoja, tapahtumia, medioita
(kirjoja, musiikkia, elokuvia)
• Rajattu pois yleiset asiasanat
• Loistava valikoima asiasanoja (40M +)
• Laatu hyvä, joskin epätasainen
ONKI + FREEBASE
Täydentävät hyvin toisiaan
• ONKI/FINTO antaa
•
•
•
•

Laatua
Suomalaista kontekstia
Tukea
Yhteistyötä

• FREEBASE antaa
• Massaa
• Kansainvälistä linkitystä
• Aktiivisen yhteisön
Kiitos! Kysymyksiä?
Mikael ’Micke’ Hindsberg
twitter.com/mickhinds
mikael.hindsberg@yle.fi
http://svenska.yle.fi
http://utveckling.ylebloggen.fi
www.slideshare.net/mickhinds

By: aglet http://www.flickr.com/people/aglet/
CC BY-SA http://creativecommons.org/licenses/by-nc-sa/2.0/

More Related Content

More from Micke Hindsberg

Svenska Yle metadata and data first
Svenska Yle metadata and data firstSvenska Yle metadata and data first
Svenska Yle metadata and data firstMicke Hindsberg
 
Mediernas digitalisering länkad data
Mediernas digitalisering länkad dataMediernas digitalisering länkad data
Mediernas digitalisering länkad dataMicke Hindsberg
 
Median digitalisoituminen ja yhdistetty tieto. Linkity-seminaari 03.09.2014
Median digitalisoituminen ja yhdistetty tieto. Linkity-seminaari 03.09.2014Median digitalisoituminen ja yhdistetty tieto. Linkity-seminaari 03.09.2014
Median digitalisoituminen ja yhdistetty tieto. Linkity-seminaari 03.09.2014Micke Hindsberg
 
Julkisen palvelun mediaporttaali 2010-luvulla - Svenska.yle.fi
Julkisen palvelun mediaporttaali 2010-luvulla - Svenska.yle.fi Julkisen palvelun mediaporttaali 2010-luvulla - Svenska.yle.fi
Julkisen palvelun mediaporttaali 2010-luvulla - Svenska.yle.fi Micke Hindsberg
 
Svenska Ylen semanttinen annotointi - Onki plus Freebase
Svenska Ylen semanttinen annotointi - Onki plus FreebaseSvenska Ylen semanttinen annotointi - Onki plus Freebase
Svenska Ylen semanttinen annotointi - Onki plus FreebaseMicke Hindsberg
 
Twitter 101 med fokus på marknadsföring
Twitter 101 med fokus på marknadsföringTwitter 101 med fokus på marknadsföring
Twitter 101 med fokus på marknadsföringMicke Hindsberg
 
Twitter för journalister
Twitter för journalisterTwitter för journalister
Twitter för journalisterMicke Hindsberg
 
Kuratering - vad är det? #AnkSoMe
Kuratering - vad är det? #AnkSoMeKuratering - vad är det? #AnkSoMe
Kuratering - vad är det? #AnkSoMeMicke Hindsberg
 
Svenska.yle.fi:n linkitetty semanttinen data
Svenska.yle.fi:n linkitetty semanttinen dataSvenska.yle.fi:n linkitetty semanttinen data
Svenska.yle.fi:n linkitetty semanttinen dataMicke Hindsberg
 
Social media for journalists
Social media for journalistsSocial media for journalists
Social media for journalistsMicke Hindsberg
 
Some koulutus 8.5.2012 työkalupakki
Some koulutus 8.5.2012 työkalupakkiSome koulutus 8.5.2012 työkalupakki
Some koulutus 8.5.2012 työkalupakkiMicke Hindsberg
 

More from Micke Hindsberg (13)

digitala strategier
digitala strategierdigitala strategier
digitala strategier
 
Svenska Yle metadata and data first
Svenska Yle metadata and data firstSvenska Yle metadata and data first
Svenska Yle metadata and data first
 
Mediernas digitalisering länkad data
Mediernas digitalisering länkad dataMediernas digitalisering länkad data
Mediernas digitalisering länkad data
 
Median digitalisoituminen ja yhdistetty tieto. Linkity-seminaari 03.09.2014
Median digitalisoituminen ja yhdistetty tieto. Linkity-seminaari 03.09.2014Median digitalisoituminen ja yhdistetty tieto. Linkity-seminaari 03.09.2014
Median digitalisoituminen ja yhdistetty tieto. Linkity-seminaari 03.09.2014
 
Julkisen palvelun mediaporttaali 2010-luvulla - Svenska.yle.fi
Julkisen palvelun mediaporttaali 2010-luvulla - Svenska.yle.fi Julkisen palvelun mediaporttaali 2010-luvulla - Svenska.yle.fi
Julkisen palvelun mediaporttaali 2010-luvulla - Svenska.yle.fi
 
Svenska Ylen semanttinen annotointi - Onki plus Freebase
Svenska Ylen semanttinen annotointi - Onki plus FreebaseSvenska Ylen semanttinen annotointi - Onki plus Freebase
Svenska Ylen semanttinen annotointi - Onki plus Freebase
 
Twitter 101 med fokus på marknadsföring
Twitter 101 med fokus på marknadsföringTwitter 101 med fokus på marknadsföring
Twitter 101 med fokus på marknadsföring
 
Twitter för journalister
Twitter för journalisterTwitter för journalister
Twitter för journalister
 
Kuratering - vad är det? #AnkSoMe
Kuratering - vad är det? #AnkSoMeKuratering - vad är det? #AnkSoMe
Kuratering - vad är det? #AnkSoMe
 
Synd presentation
Synd presentationSynd presentation
Synd presentation
 
Svenska.yle.fi:n linkitetty semanttinen data
Svenska.yle.fi:n linkitetty semanttinen dataSvenska.yle.fi:n linkitetty semanttinen data
Svenska.yle.fi:n linkitetty semanttinen data
 
Social media for journalists
Social media for journalistsSocial media for journalists
Social media for journalists
 
Some koulutus 8.5.2012 työkalupakki
Some koulutus 8.5.2012 työkalupakkiSome koulutus 8.5.2012 työkalupakki
Some koulutus 8.5.2012 työkalupakki
 

Miten teet journalistista metadata-annotoijan 30 sekunnissa

  • 1. Journalistisen verkkosisällön puoliautomaattinen sisällönkuvailu Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi @mickhinds | mikael.hindsberg@yle.fi 22.11.2013
  • 2. Miten teet journalistista metadataannotoijan 30 sekunnissa Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi @mickhinds | mikael.hindsberg@yle.fi 22.11.2013
  • 3. Miten teet journalistista metadataannotoijan 30 sekunnissa Mikael Hindsberg, konseptisuunnittelija svenska.yle.fi @mickhinds | mikael.hindsberg@yle.fi 22.11.2013
  • 5. Tämä tehtiin 2011-2012 Uusi siältöajattelu “JUST NU!” Epic Win! Uusi organisaatio DESK+ Uusi alusta Drupal 7 Totalfail :(
  • 6. Jokainen sivu on etusivu Metadata korvasi menut. Kävijäliikenne Etusivu Hakukoneet Suositukset
  • 8. Svenska.yle.fi:n Onki-moduuli Linked Data Finland http://www.ldf.fi/ • Drupal 7 • Onki moduuli • https://drupal.org/node/1604784 • ARPA • • http://www.seco.tkk.fi/services/arpa/ KOKO • http://onki.fi/sv/browser/overview/koko Demo: http://www.youtube.com/watch?v=3PX2_U50UTs Lue lisää kehitysblogissamme: http://utveckling.ylebloggen.fi/tag/metadata/
  • 9. ARPA ARPA on verkkopalvelu automaattiselle tekstiannotaatiolle. http://www.seco.tkk.fi/services/arpa/ Suunnitelmissa siirtää osaksi Kansalliskirjaston Finto (Onki)projektia, mahdollisesti 2015. • MAUI https://code.google.com/p/maui-indexer/ • Maui automatically identifies main topics in text documents. • Snowball http://snowball.tartarus.org/ • Snowball is a small string processing language designed for creating stemming algorithms for use in Information Retrieval • Omorfi https://code.google.com/p/omorfi/ • Open morphology for Finnish • Connexor sv-sdg http://bit.ly/1h2wweN • sv-fdg analyses Swedish text according to a functional dependency grammar
  • 15. ARPA
  • 16. ARPA vs. journalisti annotoijana ARPA: Journalisti: • • • • • • • • • • • • • • • Skadestånd Ägande Marknad Telefonförsäljning Ask Problem Köpare Kinesiska Rykten Försäljning Aktier Ägare Mobiltelefoner Mobiltelefonsystem Bolagsstämmor
  • 17. Onko ARPA:sta enemmän hyötyä vai haittaa?! Haitat: Hyödyt: • Ei ole älykäs  • Virheellisiä ehdotuksia • Harhaanjohtavia ehdotuksia • Ei löydä relevantteja ehdotuksia • Ei osaa ehdottaa leipätekstistä puuttuvia asiasanoja • Antaa illuusion hyvästä asiasanoituksesta • Hidastaa työnkulkua • Nopeuttaa työnkulkua • Antaa yleiskatsauksen käytössä olevista asiasnoista • Antaa inspiraatiota ja assosiaatioita manuaaliseen annotaatioon
  • 18. ARPA vastaanotto Annotoito artikkelisi asiasanoilla? Aina Useimmiten Joskus Ei koskaan
  • 19. ARPA vastaanotto Käytätkö annotointiin ARPAa? Aina Useimmiten Joskus Ei koskaan
  • 20. ARPA vastaanotto Mitä tehdä ARPA:lle? Pidä sellaisenaan Jatkokehitä Ei väliä Ota pois käytöstä
  • 22. FREEBASE-moduuli Drupal 7 + Freebase (API) https://www.freebase.com/ Code sandbox: https://drupal.org/sandbox/jaysire/2095551 • Ei ARPA-toiminnallisuutta • Toimijoita, paikkoja, tapahtumia, medioita (kirjoja, musiikkia, elokuvia) • Rajattu pois yleiset asiasanat • Loistava valikoima asiasanoja (40M +) • Laatu hyvä, joskin epätasainen
  • 23. ONKI + FREEBASE Täydentävät hyvin toisiaan • ONKI/FINTO antaa • • • • Laatua Suomalaista kontekstia Tukea Yhteistyötä • FREEBASE antaa • Massaa • Kansainvälistä linkitystä • Aktiivisen yhteisön
  • 24. Kiitos! Kysymyksiä? Mikael ’Micke’ Hindsberg twitter.com/mickhinds mikael.hindsberg@yle.fi http://svenska.yle.fi http://utveckling.ylebloggen.fi www.slideshare.net/mickhinds By: aglet http://www.flickr.com/people/aglet/ CC BY-SA http://creativecommons.org/licenses/by-nc-sa/2.0/