SlideShare a Scribd company logo
1 of 29
Download to read offline
Vad är Swe-Clarin?
Lars Borin
Språkbanken/svenska språket, Göteborgs universitet
Swe-Clarin
Kulturarvet som ettor och nollor/1 • KB 9/10 2015
det korta svaret
Swe-Clarin
är den
svenska delen
av den
europeiska forskningsinfrastrukturen
CLARIN ERIC
<http://www.clarin.eu>
CLARIN i ett nötskal
(efter Steven Krauwer)
Common Language Resources and Technology Infrastructure
<http://www.clarin.eu>)
Grundidé:
◮ Europeisk federation av digitala arkiv med språkresurser
och språkverktyg (text, tal, multimodala, teckenspråk . . . )
◮ med tillgång till resurser och verktyg genom nättjänster för
att hämta, bearbeta, förädla, utforska och använda
resurserna
◮ genom en samlad inloggningsprocedur för arkiv och verktyg
◮ med forskare inom humaniora och samhällsvetenskap som
målgrupp
◮ som ska täcka alla EU-länder samt associerade stater
◮ och alla språk som är relevanta för målgruppen
Mål och visioner – språkets roll
(efter Steven Krauwer)
◮ Språket intar en central plats i många humanistiska och
samhällsvetenskapliga discipliner. Exempelvis:
◮ som studieobjekt i sig
◮ som mänskligt kommunikationsmedel
◮ som mänskligt uttrycksmedel
◮ som kunskapskälla om vår historia
◮ som en del av vår kulturella identitet
◮ som kunskaps- och informationsbärare
varför CLARIN?
◮ CLARIN anpassar och utvecklar språkteknologi och
språkresurshantering som e-vetenskap – datorverktyg som
forskningsstöd inom humaniora, samhällvetenskap och
andra discipliner där innehållet i text (och tal) utgör
primärdata för forskningen
◮ CLARIN bygger en basinfrastruktur för att möjliggöra
forskning både på dagens enorma volymer ”primärt
digitala” språkliga data och på de snabbt ökande
mängderna digitaliserade kulturarvsdata
språkteknologi och
språkresurser i Sverige
◮ lång historia (från 1960-talet), många forskargrupper
◮ svenska korpusar (Språkbanken [1975–], SUC, GSLC, många
inlärarkorpusar, . . . )
◮ flerspråkiga korpusar (Uppsala, Linköping, Göteborg, . . . )
◮ taldatabaser (KTH, Telia Research, . . . )
◮ resurser för informationsåtkomst (SICS, KTH, . . . )
◮ lexikondatabaser (Språkbanken, KTH, Språkrådet, . . . )
◮ många olika verktyg för text och tal
◮ men i huvudsak bedriven som korta forskningsprojekt och
fragmenterad
◮ och i behov av harmonisering och integration
den svenska META-NET-vitboken
(från META-NORD-projektet)
<http://www.meta-net.eu/whitepapers/overview>
Här får vi veta att svenska idag är större på internet än i den fysiska världen
men lämnar mycket övrigt att önska ifråga om språkteknologistöd.
SWE-CLARIN
◮ CLARIN: ESFRI-förberedelsefas 2008-01 – 2011-06
◮ CLARIN ERIC (European Research Infrastructure
Consortium) startade 29/2 2012 med 9 medlemmar
◮ Swe-Clarin (∼50 MSEK från VR 2014–2018)
startade 1/1 2014 med målen:
◮ att bilda en svensk nod i CLARIN ERIC
(inträdet – som 10:e medlem – skedde 1/10 2014):
◮ Göteborgs universitet/Språkbanken
◮ Göteborgs universitet/SND
◮ KTH
◮ Linköpings universitet
◮ Lunds universitet
◮ Stockholms universitet
◮ Uppsala universitet
◮ Språkrådet
◮ DigiSam
◮ att bygga en basinfrastruktur för CLARIN i Sverige
<http://sweclarin.se>
CLARIN-conceptet
◮ e-vetenskap – i form av språkteknologi som
forskningsverktyg – för discipliner där text (och tal) är
primärdata:
◮ humaniora
◮ samhällsvetenskap
◮ (vissa sorters) medicin
◮ CLARINs betydelse växer i takt med digitaliseringen av
kulturarvet och den elektroniska kommunikationens
utbredning
digital spetsforskningspotential
Precis som vid gruvbrytning, kräver stora mängder ’informationsglest’ digitalt
text- och talmaterial effektiv teknik för sökning, korrelering och korsindexering
i det språkliga innehållet – inte minst mellan olika språk – för att forskningen
ska få ut användbara primärdata ur det.
exempel 1: telefoner i Sverige
exempel 2: språkutveckling
exempel 3: ledtrådar till
historiska händelser
användargrupperna i Sverige
◮ språkvetenskap (mycket långt kommen; e-vetenskap sen
1960-talet!)
◮ medicin (långt kommen; flera projekt)
◮ historia (några projekt)
◮ litteraturvetenskap (enstaka projekt)
◮ statsvetenskap (ansatser)
I hela CLARIN-området är användningen betydande, och
CLARIN ERIC blir ett centralt forum för effektivt utbyte av
expertis och erfarenheter.
Swe-Clarin befinner sig i ett ”kontaktsökande” uppbyggnads-
skede och evenemang som den här workshopen är viktiga för
att skapa Swe-Clarins framtid.
några konkreta
Swe-Clarin-samarbeten
◮ politisk opinionsbildning i sociala medier (statsvetenskap,
Göteborg)
◮ kvinnors aktiviteter i tidigmodern tid (historia, Uppsala)
◮ allusion och textåteranvändning i litteratur
(litteraturvetenskap, Göteborg)
◮ språkliga signaler för tidig upptäckt av demens
(medicin/vårdvetenskap, Göteborg)
◮ ”återupplivande” av traditionell matlagning (ISOF m.fl.,
KTH)
◮ undersökning av diskriminerande gymnasiebetygssättning
(nationalekonomi, Stockholm)
◮ förändring över tid i attityder till retorik avspeglade i ett
historiskt tidningsmaterial (litteraturvetenskap, Uppsala)
◮ . . .
. . . och många fler önskas!
(Swe-)CLARINs fyra ben
1. en teknisk infrastruktur: PID, identitetsfederation, automatisk
metadatainhämtning, grid/moln
2. standardisering av data- och metadataformat samt
innehållsmodeller: ISO TC37/SC7 (SIS TK115), W3C;
hantering av upphovsrättsfrågor
3. en administrativ struktur för underhåll och vidareutveckling
av infrastrukturen, samt för expertis och användarstöd:
föreståndare, styrgrupp, referensgrupp,
CLARIN-centra (⊂ CLARIN ERIC)
4. språkteknologiska basresurser: BLARK (Basic LAnguage
Resource Kit) och SNK (en svensk nationell korpus)
från kökkenmödding till
infrastruktur
SWE-CLARIN
standarder är omfattande,
petiga och osynliga . . .
. . . men de möjliggör fantastiska
saker
språkteknologi som forsknings-
redskap och digitalisering (1)
◮ utveckling av sofistikerade språkverktyg kräver öppna
licenser (Open Content) för text och andra språkresurser
(ordlistor, termbanker, tesaurer, etc.)
◮ detta beror bland annat på att den dominerande
utvecklingsmetodologin bygger på maskininlärning
(”självlärande system”)
◮ som kräver stora mängder träningsdata
◮ (men även manuella ansatser bygger på generalisering
och abstraktion från språkliga rådata)
språkteknologi som forsknings-
redskap och digitalisering (2)
◮ det är ett oerhört slöseri med resurser att alltid nyskapa
träningsdata istället för att kunna ackumulera dem
◮ forskningens logik (verifierbarhet och reproducerbarhet)
kräver dessutom att forskningsrådata alltid är åtkomliga
◮ öppna data skapar en god cirkel med ständigt bättre
redskap för informationsåtkomst sprungna ur forskningen,
som i sin tur kan dra nytta av den högkvalitativare
informationen
med andra ord:
◮ den som för det allmännas räkning digitaliserar texter (i vid
bemärkelse) och bygger databaser (t.ex. om
kulturarvsobjekt) borde alltid (åtminstone) göra
informationen i dess helhet så fritt tillgänglig som lagen
tillåter (d.v.s. fulltext, kompletta databasdumpar, etc.)
◮ (med licenser som CC0, CC BY eller CC BY-SA som tillåter
bearbetning och återdistribution)
◮ ett sämre men möjligt alternativ (som CLARIN stödjer) är
dataåtkomst baserad på kategoritillhörighet (t.ex.
”forskare anställd vid ett universitet i ett medlemsland”)
som kontrolleras genom s.k. identitetsfederationer (jfr.
Eduroam).
(enbart) ”titthålsaccess” räcker
inte
◮ gör jag inte forskarsamhället en tjänst om jag strukturerar
åtkomsten och tillhandahåller ett sökgränssnitt och/eller ett
API
◮ (kanske byggt på öppna standarder)
◮ (t.ex. till en digitaliserad brevsamling, en språktypologisk,
lexikalisk, bibliografisk eller biografisk databas, geodata
eller mina forskningsdata)?
◮ jo, absolut!
◮ men om jag gör enbart det,
◮ är alla andra utlämnade till vad jag vet och kan föreställa
mig,
◮ och jag stänger fler möjligheter än jag öppnar,
◮ eftersom det inte går att förutse framtidens forskningsfrågor
och forskningsmetoder
◮ och eftersom det blir svårt eller omöjligt att
kombinera/korrelera material från olika källor
◮ eller generalisera över datamängderna (”data mining” /
”text mining”)
vilka är hindren?
◮ juridiska:
◮ integritet (t.ex. inspelade samtalsdata)
◮ sekretess (t.ex. patientjournaler)
◮ upphovsrätt (”moderna” textdata, teve/radioprogram):
inget undantag för forskning
◮ ekonomiska/ideologiska/politiska/tekniska:
◮ trög och bristfällig digitalisering
◮ ovana (omedvetenhet)/ovilja att dela med sig av
forskningsdata
◮ data-, metadata- och innehållsstandarder under utveckling
(”rörliga mål”)
sammanfattningsvis
◮ Swe-Clarin är en e-vetenskapsinfrastruktur för humaniora
och samhällsvetenskap
◮ som är under uppbyggnad i Sverige
◮ som en del av det europeiska CLARIN ERIC-initiativet
◮ Två faktorer är avgörande för Swe-Clarins framtid:
1. koppling till faktiska forskningsfrågor hos målgruppen
2. tillgång till digitala språkresurser på villkor som möjliggör
både fri forskning på resurserna och vidareutveckling av
infrastrukturen
tack för uppmärksamheten!

More Related Content

What's hot

Rolf Källman Nordiska arkivdagarna 7 maj 2015
Rolf Källman Nordiska arkivdagarna 7 maj 2015Rolf Källman Nordiska arkivdagarna 7 maj 2015
Rolf Källman Nordiska arkivdagarna 7 maj 2015
Digisam
 
Kunskapsunderlag sthlm 091024
Kunskapsunderlag sthlm 091024Kunskapsunderlag sthlm 091024
Kunskapsunderlag sthlm 091024
Ann Östman
 
Rolf Källman KrA 10 dec 2012
Rolf Källman KrA 10 dec 2012Rolf Källman KrA 10 dec 2012
Rolf Källman KrA 10 dec 2012
Digisam
 
Rolf Källman Digisam Skansen 29 maj 2012
Rolf Källman Digisam Skansen 29 maj 2012Rolf Källman Digisam Skansen 29 maj 2012
Rolf Källman Digisam Skansen 29 maj 2012
Digisam
 
Share.TEC OER-konferens
Share.TEC OER-konferensShare.TEC OER-konferens
Share.TEC OER-konferens
Erik Axdorph
 
Presentation G H20090311 Sunne Sverigebiblioteket
Presentation  G H20090311  Sunne  SverigebiblioteketPresentation  G H20090311  Sunne  Sverigebiblioteket
Presentation G H20090311 Sunne Sverigebiblioteket
camillakallgren
 

What's hot (20)

KB-labb - infrastruktur för digital humaniora och samhällsvetenskap
KB-labb - infrastruktur för digital humaniora och samhällsvetenskapKB-labb - infrastruktur för digital humaniora och samhällsvetenskap
KB-labb - infrastruktur för digital humaniora och samhällsvetenskap
 
Rolf Källman Nordiska arkivdagarna 7 maj 2015
Rolf Källman Nordiska arkivdagarna 7 maj 2015Rolf Källman Nordiska arkivdagarna 7 maj 2015
Rolf Källman Nordiska arkivdagarna 7 maj 2015
 
Digisam - ett samordningssekretariat för digitalisering 1.0
Digisam - ett samordningssekretariat för digitalisering 1.0Digisam - ett samordningssekretariat för digitalisering 1.0
Digisam - ett samordningssekretariat för digitalisering 1.0
 
Kungl. biblioteket | Gunilla Herdenberg | Bibliotekschefskonferensen 2013, 13...
Kungl. biblioteket | Gunilla Herdenberg | Bibliotekschefskonferensen 2013, 13...Kungl. biblioteket | Gunilla Herdenberg | Bibliotekschefskonferensen 2013, 13...
Kungl. biblioteket | Gunilla Herdenberg | Bibliotekschefskonferensen 2013, 13...
 
Campus Gotland om Digisam
Campus Gotland om DigisamCampus Gotland om Digisam
Campus Gotland om Digisam
 
Kunskapsunderlag sthlm 091024
Kunskapsunderlag sthlm 091024Kunskapsunderlag sthlm 091024
Kunskapsunderlag sthlm 091024
 
Berättarseminarium 18 mars
Berättarseminarium 18 marsBerättarseminarium 18 mars
Berättarseminarium 18 mars
 
LOA2020 Workshop: Nationell digital plattform för öppet tillgängliga svenska ...
LOA2020 Workshop: Nationell digital plattform för öppet tillgängliga svenska ...LOA2020 Workshop: Nationell digital plattform för öppet tillgängliga svenska ...
LOA2020 Workshop: Nationell digital plattform för öppet tillgängliga svenska ...
 
Ekosystem digikult 2015
Ekosystem digikult 2015Ekosystem digikult 2015
Ekosystem digikult 2015
 
Samordningsuppdrag för öppen tillgång
Samordningsuppdrag för öppen tillgångSamordningsuppdrag för öppen tillgång
Samordningsuppdrag för öppen tillgång
 
Samla berättelser från människor på flykt
Samla berättelser från människor på flyktSamla berättelser från människor på flykt
Samla berättelser från människor på flykt
 
Rolf Källman KrA 10 dec 2012
Rolf Källman KrA 10 dec 2012Rolf Källman KrA 10 dec 2012
Rolf Källman KrA 10 dec 2012
 
Rolf Källman Digisam Skansen 29 maj 2012
Rolf Källman Digisam Skansen 29 maj 2012Rolf Källman Digisam Skansen 29 maj 2012
Rolf Källman Digisam Skansen 29 maj 2012
 
Länsmuseernas samarbetsråd 24 0kt 2012
Länsmuseernas samarbetsråd 24 0kt 2012Länsmuseernas samarbetsråd 24 0kt 2012
Länsmuseernas samarbetsråd 24 0kt 2012
 
Share.TEC presentation under OER konferens 2010-02-05
Share.TEC presentation under OER konferens 2010-02-05Share.TEC presentation under OER konferens 2010-02-05
Share.TEC presentation under OER konferens 2010-02-05
 
Share.TEC OER-konferens
Share.TEC OER-konferensShare.TEC OER-konferens
Share.TEC OER-konferens
 
Om Digisam - KV-avdelningen
Om Digisam - KV-avdelningenOm Digisam - KV-avdelningen
Om Digisam - KV-avdelningen
 
MOA 2013, Nationella riktlinjer för öppen tillgång till vetenskaplig information
MOA 2013, Nationella riktlinjer för öppen tillgång till vetenskaplig informationMOA 2013, Nationella riktlinjer för öppen tillgång till vetenskaplig information
MOA 2013, Nationella riktlinjer för öppen tillgång till vetenskaplig information
 
Presentation G H20090311 Sunne Sverigebiblioteket
Presentation  G H20090311  Sunne  SverigebiblioteketPresentation  G H20090311  Sunne  Sverigebiblioteket
Presentation G H20090311 Sunne Sverigebiblioteket
 
Sharing is Caring: öppna data - Intensivdagarna, Visby 20141119
Sharing is Caring: öppna data - Intensivdagarna, Visby 20141119Sharing is Caring: öppna data - Intensivdagarna, Visby 20141119
Sharing is Caring: öppna data - Intensivdagarna, Visby 20141119
 

Viewers also liked (6)

K-samsök - infrastruktur för forskning och förmedling - Henrik Summanen
K-samsök - infrastruktur för forskning och förmedling - Henrik SummanenK-samsök - infrastruktur för forskning och förmedling - Henrik Summanen
K-samsök - infrastruktur för forskning och förmedling - Henrik Summanen
 
Johanna Berg, Catharina Ekdahl - Upphovsrätten och kulturarvet - Gävle 12 okt...
Johanna Berg, Catharina Ekdahl - Upphovsrätten och kulturarvet - Gävle 12 okt...Johanna Berg, Catharina Ekdahl - Upphovsrätten och kulturarvet - Gävle 12 okt...
Johanna Berg, Catharina Ekdahl - Upphovsrätten och kulturarvet - Gävle 12 okt...
 
Leif-Jöran Olsson "Dramawebben, The Swedish Drama Web" KB 9 oktober 2015
Leif-Jöran Olsson "Dramawebben, The Swedish Drama Web" KB 9 oktober 2015 Leif-Jöran Olsson "Dramawebben, The Swedish Drama Web" KB 9 oktober 2015
Leif-Jöran Olsson "Dramawebben, The Swedish Drama Web" KB 9 oktober 2015
 
Jens Edlund "Taldata" KB 9 oktober 2015
Jens Edlund "Taldata" KB 9 oktober 2015 Jens Edlund "Taldata" KB 9 oktober 2015
Jens Edlund "Taldata" KB 9 oktober 2015
 
Sanja Halling PIDar - beständiga identifierare seminarium 7 mars
Sanja Halling PIDar - beständiga identifierare seminarium 7 marsSanja Halling PIDar - beständiga identifierare seminarium 7 mars
Sanja Halling PIDar - beständiga identifierare seminarium 7 mars
 
Wedo clase 2-3
Wedo clase 2-3Wedo clase 2-3
Wedo clase 2-3
 

Similar to Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

Share.TEC - OER konferens, E.Axdorph, L. Olsson
Share.TEC - OER konferens, E.Axdorph, L. OlssonShare.TEC - OER konferens, E.Axdorph, L. Olsson
Share.TEC - OER konferens, E.Axdorph, L. Olsson
Share.TEC
 
Vetenskaplig information i utvecklingsländer
Vetenskaplig information i utvecklingsländerVetenskaplig information i utvecklingsländer
Vetenskaplig information i utvecklingsländer
Anna Stockman
 
Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009
Bibliotek 24
 

Similar to Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015 (20)

Share.TEC - OER konferens, E.Axdorph, L. Olsson
Share.TEC - OER konferens, E.Axdorph, L. OlssonShare.TEC - OER konferens, E.Axdorph, L. Olsson
Share.TEC - OER konferens, E.Axdorph, L. Olsson
 
MOA 2012, MOA 2012, Gustavsson B, Författaridentifikatorer och publiceringsda...
MOA 2012, MOA 2012, Gustavsson B, Författaridentifikatorer och publiceringsda...MOA 2012, MOA 2012, Gustavsson B, Författaridentifikatorer och publiceringsda...
MOA 2012, MOA 2012, Gustavsson B, Författaridentifikatorer och publiceringsda...
 
Nordiskt arbetsmöte om digitala arkiv
Nordiskt arbetsmöte om digitala arkivNordiskt arbetsmöte om digitala arkiv
Nordiskt arbetsmöte om digitala arkiv
 
Vetenskaplig information i utvecklingsländer
Vetenskaplig information i utvecklingsländerVetenskaplig information i utvecklingsländer
Vetenskaplig information i utvecklingsländer
 
Open Space Sessions - One Minute Madness
Open Space Sessions - One Minute MadnessOpen Space Sessions - One Minute Madness
Open Space Sessions - One Minute Madness
 
Matriks Workshop
Matriks WorkshopMatriks Workshop
Matriks Workshop
 
Matriks KTHB Temadag
Matriks KTHB TemadagMatriks KTHB Temadag
Matriks KTHB Temadag
 
Ltu 2 april hagerlid arvidsson
Ltu 2 april hagerlid arvidssonLtu 2 april hagerlid arvidsson
Ltu 2 april hagerlid arvidsson
 
Matriks-presentation för BIBSAM
Matriks-presentation för BIBSAMMatriks-presentation för BIBSAM
Matriks-presentation för BIBSAM
 
En nationell infrastruktur för arkeologiska undersökningsdata
En nationell infrastruktur för arkeologiska undersökningsdataEn nationell infrastruktur för arkeologiska undersökningsdata
En nationell infrastruktur för arkeologiska undersökningsdata
 
MOA 2014, Abstracts
MOA 2014, AbstractsMOA 2014, Abstracts
MOA 2014, Abstracts
 
MOA 2015, Forskningsbiblioteken och forskningsdata
MOA 2015, Forskningsbiblioteken och forskningsdataMOA 2015, Forskningsbiblioteken och forskningsdata
MOA 2015, Forskningsbiblioteken och forskningsdata
 
Librisxl treffpunkt mikromarc
Librisxl treffpunkt mikromarcLibrisxl treffpunkt mikromarc
Librisxl treffpunkt mikromarc
 
MOA 2015, Abstracts
MOA 2015, AbstractsMOA 2015, Abstracts
MOA 2015, Abstracts
 
Museerna & skolan Intensivdagarna 21 nov. 2014
Museerna & skolan Intensivdagarna 21 nov. 2014Museerna & skolan Intensivdagarna 21 nov. 2014
Museerna & skolan Intensivdagarna 21 nov. 2014
 
Sundsvall 42 presentation
Sundsvall 42 presentationSundsvall 42 presentation
Sundsvall 42 presentation
 
Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009
 
Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009Artikel Info Trend Dec 2009
Artikel Info Trend Dec 2009
 
Abm konferens gbg_okt_2011_1.1
Abm konferens gbg_okt_2011_1.1Abm konferens gbg_okt_2011_1.1
Abm konferens gbg_okt_2011_1.1
 
OpenAIRE at NCP-VINNOVA June 2011
OpenAIRE at NCP-VINNOVA June 2011OpenAIRE at NCP-VINNOVA June 2011
OpenAIRE at NCP-VINNOVA June 2011
 

More from Digisam

Sanja Halling Standarder och aggregering NM 2012 01-15
Sanja Halling Standarder och aggregering NM 2012 01-15Sanja Halling Standarder och aggregering NM 2012 01-15
Sanja Halling Standarder och aggregering NM 2012 01-15
Digisam
 
Rolf Källman Startmöte planer 23 maj 2013
Rolf Källman Startmöte planer 23 maj 2013Rolf Källman Startmöte planer 23 maj 2013
Rolf Källman Startmöte planer 23 maj 2013
Digisam
 
Rolf Källman Spectrum, Helsingfors 2013 02-11
Rolf Källman Spectrum, Helsingfors 2013 02-11Rolf Källman Spectrum, Helsingfors 2013 02-11
Rolf Källman Spectrum, Helsingfors 2013 02-11
Digisam
 
Rolf Källman Seminarium dep 5 nov 2013
Rolf Källman Seminarium dep 5 nov 2013Rolf Källman Seminarium dep 5 nov 2013
Rolf Källman Seminarium dep 5 nov 2013
Digisam
 
Rolf Källman NM 15 jan 2013
Rolf Källman NM 15 jan 2013Rolf Källman NM 15 jan 2013
Rolf Källman NM 15 jan 2013
Digisam
 
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Digisam
 
Rolf Källman Models for national collaboration Vancouver sept 2012
Rolf Källman Models for national collaboration Vancouver sept 2012Rolf Källman Models for national collaboration Vancouver sept 2012
Rolf Källman Models for national collaboration Vancouver sept 2012
Digisam
 
Rolf Källman Marburg 26-27 november 2013
Rolf Källman Marburg 26-27 november 2013Rolf Källman Marburg 26-27 november 2013
Rolf Källman Marburg 26-27 november 2013
Digisam
 
Rolf Källman Länsmuseernas samarbetsråd 24 0kt 2012
Rolf Källman Länsmuseernas samarbetsråd 24 0kt 2012Rolf Källman Länsmuseernas samarbetsråd 24 0kt 2012
Rolf Källman Länsmuseernas samarbetsråd 24 0kt 2012
Digisam
 
Rolf Källman Vetenskapsrådet 2012 02-02
Rolf Källman Vetenskapsrådet 2012 02-02Rolf Källman Vetenskapsrådet 2012 02-02
Rolf Källman Vetenskapsrådet 2012 02-02
Digisam
 
Rolf Källman KTH 22 nov 2013
Rolf Källman KTH 22 nov 2013Rolf Källman KTH 22 nov 2013
Rolf Källman KTH 22 nov 2013
Digisam
 
Rolf Källman KTH 19 okt 2012
Rolf Källman KTH 19 okt 2012Rolf Källman KTH 19 okt 2012
Rolf Källman KTH 19 okt 2012
Digisam
 
Rolf Källman KKN 17 dec 2012
Rolf Källman KKN 17 dec 2012Rolf Källman KKN 17 dec 2012
Rolf Källman KKN 17 dec 2012
Digisam
 
Rolf källman Härnösand Culture Cloud 27 januari 2014
Rolf källman Härnösand Culture Cloud 27 januari 2014Rolf källman Härnösand Culture Cloud 27 januari 2014
Rolf källman Härnösand Culture Cloud 27 januari 2014
Digisam
 
Rolf Källman Helsingfors 10 dec 2013
Rolf Källman Helsingfors 10 dec 2013Rolf Källman Helsingfors 10 dec 2013
Rolf Källman Helsingfors 10 dec 2013
Digisam
 
Rolf Källman SPECTRUM Hamburg 10 juni 2013
Rolf Källman SPECTRUM Hamburg 10 juni 2013Rolf Källman SPECTRUM Hamburg 10 juni 2013
Rolf Källman SPECTRUM Hamburg 10 juni 2013
Digisam
 
Rolf Källman GBIF 9 jan 2014
Rolf Källman GBIF 9 jan 2014Rolf Källman GBIF 9 jan 2014
Rolf Källman GBIF 9 jan 2014
Digisam
 
Rolf Källman Digitala infrastrukturer modellering med K-samsök 20131022
Rolf Källman Digitala infrastrukturer modellering med K-samsök 20131022Rolf Källman Digitala infrastrukturer modellering med K-samsök 20131022
Rolf Källman Digitala infrastrukturer modellering med K-samsök 20131022
Digisam
 
Rolf Källman Digisam Swedish National Coordination -Cultural heritage online_...
Rolf Källman Digisam Swedish National Coordination -Cultural heritage online_...Rolf Källman Digisam Swedish National Coordination -Cultural heritage online_...
Rolf Källman Digisam Swedish National Coordination -Cultural heritage online_...
Digisam
 

More from Digisam (20)

Sanja Halling, Rolf Källman Digital preservation CIDOC 2014
Sanja Halling, Rolf Källman Digital preservation CIDOC 2014Sanja Halling, Rolf Källman Digital preservation CIDOC 2014
Sanja Halling, Rolf Källman Digital preservation CIDOC 2014
 
Sanja Halling Standarder och aggregering NM 2012 01-15
Sanja Halling Standarder och aggregering NM 2012 01-15Sanja Halling Standarder och aggregering NM 2012 01-15
Sanja Halling Standarder och aggregering NM 2012 01-15
 
Rolf Källman Startmöte planer 23 maj 2013
Rolf Källman Startmöte planer 23 maj 2013Rolf Källman Startmöte planer 23 maj 2013
Rolf Källman Startmöte planer 23 maj 2013
 
Rolf Källman Spectrum, Helsingfors 2013 02-11
Rolf Källman Spectrum, Helsingfors 2013 02-11Rolf Källman Spectrum, Helsingfors 2013 02-11
Rolf Källman Spectrum, Helsingfors 2013 02-11
 
Rolf Källman Seminarium dep 5 nov 2013
Rolf Källman Seminarium dep 5 nov 2013Rolf Källman Seminarium dep 5 nov 2013
Rolf Källman Seminarium dep 5 nov 2013
 
Rolf Källman NM 15 jan 2013
Rolf Källman NM 15 jan 2013Rolf Källman NM 15 jan 2013
Rolf Källman NM 15 jan 2013
 
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
Rolf Källman Nationell samordning av digitalisering av kulturarvet Lund 16 ok...
 
Rolf Källman Models for national collaboration Vancouver sept 2012
Rolf Källman Models for national collaboration Vancouver sept 2012Rolf Källman Models for national collaboration Vancouver sept 2012
Rolf Källman Models for national collaboration Vancouver sept 2012
 
Rolf Källman Marburg 26-27 november 2013
Rolf Källman Marburg 26-27 november 2013Rolf Källman Marburg 26-27 november 2013
Rolf Källman Marburg 26-27 november 2013
 
Rolf Källman Länsmuseernas samarbetsråd 24 0kt 2012
Rolf Källman Länsmuseernas samarbetsråd 24 0kt 2012Rolf Källman Länsmuseernas samarbetsråd 24 0kt 2012
Rolf Källman Länsmuseernas samarbetsråd 24 0kt 2012
 
Rolf Källman Vetenskapsrådet 2012 02-02
Rolf Källman Vetenskapsrådet 2012 02-02Rolf Källman Vetenskapsrådet 2012 02-02
Rolf Källman Vetenskapsrådet 2012 02-02
 
Rolf Källman KTH 22 nov 2013
Rolf Källman KTH 22 nov 2013Rolf Källman KTH 22 nov 2013
Rolf Källman KTH 22 nov 2013
 
Rolf Källman KTH 19 okt 2012
Rolf Källman KTH 19 okt 2012Rolf Källman KTH 19 okt 2012
Rolf Källman KTH 19 okt 2012
 
Rolf Källman KKN 17 dec 2012
Rolf Källman KKN 17 dec 2012Rolf Källman KKN 17 dec 2012
Rolf Källman KKN 17 dec 2012
 
Rolf källman Härnösand Culture Cloud 27 januari 2014
Rolf källman Härnösand Culture Cloud 27 januari 2014Rolf källman Härnösand Culture Cloud 27 januari 2014
Rolf källman Härnösand Culture Cloud 27 januari 2014
 
Rolf Källman Helsingfors 10 dec 2013
Rolf Källman Helsingfors 10 dec 2013Rolf Källman Helsingfors 10 dec 2013
Rolf Källman Helsingfors 10 dec 2013
 
Rolf Källman SPECTRUM Hamburg 10 juni 2013
Rolf Källman SPECTRUM Hamburg 10 juni 2013Rolf Källman SPECTRUM Hamburg 10 juni 2013
Rolf Källman SPECTRUM Hamburg 10 juni 2013
 
Rolf Källman GBIF 9 jan 2014
Rolf Källman GBIF 9 jan 2014Rolf Källman GBIF 9 jan 2014
Rolf Källman GBIF 9 jan 2014
 
Rolf Källman Digitala infrastrukturer modellering med K-samsök 20131022
Rolf Källman Digitala infrastrukturer modellering med K-samsök 20131022Rolf Källman Digitala infrastrukturer modellering med K-samsök 20131022
Rolf Källman Digitala infrastrukturer modellering med K-samsök 20131022
 
Rolf Källman Digisam Swedish National Coordination -Cultural heritage online_...
Rolf Källman Digisam Swedish National Coordination -Cultural heritage online_...Rolf Källman Digisam Swedish National Coordination -Cultural heritage online_...
Rolf Källman Digisam Swedish National Coordination -Cultural heritage online_...
 

Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

  • 1. Vad är Swe-Clarin? Lars Borin Språkbanken/svenska språket, Göteborgs universitet Swe-Clarin Kulturarvet som ettor och nollor/1 • KB 9/10 2015
  • 2. det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC
  • 4. CLARIN i ett nötskal (efter Steven Krauwer) Common Language Resources and Technology Infrastructure <http://www.clarin.eu>) Grundidé: ◮ Europeisk federation av digitala arkiv med språkresurser och språkverktyg (text, tal, multimodala, teckenspråk . . . ) ◮ med tillgång till resurser och verktyg genom nättjänster för att hämta, bearbeta, förädla, utforska och använda resurserna ◮ genom en samlad inloggningsprocedur för arkiv och verktyg ◮ med forskare inom humaniora och samhällsvetenskap som målgrupp ◮ som ska täcka alla EU-länder samt associerade stater ◮ och alla språk som är relevanta för målgruppen
  • 5. Mål och visioner – språkets roll (efter Steven Krauwer) ◮ Språket intar en central plats i många humanistiska och samhällsvetenskapliga discipliner. Exempelvis: ◮ som studieobjekt i sig ◮ som mänskligt kommunikationsmedel ◮ som mänskligt uttrycksmedel ◮ som kunskapskälla om vår historia ◮ som en del av vår kulturella identitet ◮ som kunskaps- och informationsbärare
  • 6. varför CLARIN? ◮ CLARIN anpassar och utvecklar språkteknologi och språkresurshantering som e-vetenskap – datorverktyg som forskningsstöd inom humaniora, samhällvetenskap och andra discipliner där innehållet i text (och tal) utgör primärdata för forskningen ◮ CLARIN bygger en basinfrastruktur för att möjliggöra forskning både på dagens enorma volymer ”primärt digitala” språkliga data och på de snabbt ökande mängderna digitaliserade kulturarvsdata
  • 7. språkteknologi och språkresurser i Sverige ◮ lång historia (från 1960-talet), många forskargrupper ◮ svenska korpusar (Språkbanken [1975–], SUC, GSLC, många inlärarkorpusar, . . . ) ◮ flerspråkiga korpusar (Uppsala, Linköping, Göteborg, . . . ) ◮ taldatabaser (KTH, Telia Research, . . . ) ◮ resurser för informationsåtkomst (SICS, KTH, . . . ) ◮ lexikondatabaser (Språkbanken, KTH, Språkrådet, . . . ) ◮ många olika verktyg för text och tal ◮ men i huvudsak bedriven som korta forskningsprojekt och fragmenterad ◮ och i behov av harmonisering och integration
  • 8. den svenska META-NET-vitboken (från META-NORD-projektet) <http://www.meta-net.eu/whitepapers/overview> Här får vi veta att svenska idag är större på internet än i den fysiska världen men lämnar mycket övrigt att önska ifråga om språkteknologistöd.
  • 9. SWE-CLARIN ◮ CLARIN: ESFRI-förberedelsefas 2008-01 – 2011-06 ◮ CLARIN ERIC (European Research Infrastructure Consortium) startade 29/2 2012 med 9 medlemmar ◮ Swe-Clarin (∼50 MSEK från VR 2014–2018) startade 1/1 2014 med målen: ◮ att bilda en svensk nod i CLARIN ERIC (inträdet – som 10:e medlem – skedde 1/10 2014): ◮ Göteborgs universitet/Språkbanken ◮ Göteborgs universitet/SND ◮ KTH ◮ Linköpings universitet ◮ Lunds universitet ◮ Stockholms universitet ◮ Uppsala universitet ◮ Språkrådet ◮ DigiSam ◮ att bygga en basinfrastruktur för CLARIN i Sverige
  • 11. CLARIN-conceptet ◮ e-vetenskap – i form av språkteknologi som forskningsverktyg – för discipliner där text (och tal) är primärdata: ◮ humaniora ◮ samhällsvetenskap ◮ (vissa sorters) medicin ◮ CLARINs betydelse växer i takt med digitaliseringen av kulturarvet och den elektroniska kommunikationens utbredning
  • 12. digital spetsforskningspotential Precis som vid gruvbrytning, kräver stora mängder ’informationsglest’ digitalt text- och talmaterial effektiv teknik för sökning, korrelering och korsindexering i det språkliga innehållet – inte minst mellan olika språk – för att forskningen ska få ut användbara primärdata ur det.
  • 13. exempel 1: telefoner i Sverige
  • 15. exempel 3: ledtrådar till historiska händelser
  • 16. användargrupperna i Sverige ◮ språkvetenskap (mycket långt kommen; e-vetenskap sen 1960-talet!) ◮ medicin (långt kommen; flera projekt) ◮ historia (några projekt) ◮ litteraturvetenskap (enstaka projekt) ◮ statsvetenskap (ansatser) I hela CLARIN-området är användningen betydande, och CLARIN ERIC blir ett centralt forum för effektivt utbyte av expertis och erfarenheter. Swe-Clarin befinner sig i ett ”kontaktsökande” uppbyggnads- skede och evenemang som den här workshopen är viktiga för att skapa Swe-Clarins framtid.
  • 17. några konkreta Swe-Clarin-samarbeten ◮ politisk opinionsbildning i sociala medier (statsvetenskap, Göteborg) ◮ kvinnors aktiviteter i tidigmodern tid (historia, Uppsala) ◮ allusion och textåteranvändning i litteratur (litteraturvetenskap, Göteborg) ◮ språkliga signaler för tidig upptäckt av demens (medicin/vårdvetenskap, Göteborg) ◮ ”återupplivande” av traditionell matlagning (ISOF m.fl., KTH) ◮ undersökning av diskriminerande gymnasiebetygssättning (nationalekonomi, Stockholm) ◮ förändring över tid i attityder till retorik avspeglade i ett historiskt tidningsmaterial (litteraturvetenskap, Uppsala) ◮ . . . . . . och många fler önskas!
  • 18. (Swe-)CLARINs fyra ben 1. en teknisk infrastruktur: PID, identitetsfederation, automatisk metadatainhämtning, grid/moln 2. standardisering av data- och metadataformat samt innehållsmodeller: ISO TC37/SC7 (SIS TK115), W3C; hantering av upphovsrättsfrågor 3. en administrativ struktur för underhåll och vidareutveckling av infrastrukturen, samt för expertis och användarstöd: föreståndare, styrgrupp, referensgrupp, CLARIN-centra (⊂ CLARIN ERIC) 4. språkteknologiska basresurser: BLARK (Basic LAnguage Resource Kit) och SNK (en svensk nationell korpus)
  • 20. standarder är omfattande, petiga och osynliga . . .
  • 21. . . . men de möjliggör fantastiska saker
  • 22. språkteknologi som forsknings- redskap och digitalisering (1) ◮ utveckling av sofistikerade språkverktyg kräver öppna licenser (Open Content) för text och andra språkresurser (ordlistor, termbanker, tesaurer, etc.) ◮ detta beror bland annat på att den dominerande utvecklingsmetodologin bygger på maskininlärning (”självlärande system”) ◮ som kräver stora mängder träningsdata ◮ (men även manuella ansatser bygger på generalisering och abstraktion från språkliga rådata)
  • 23. språkteknologi som forsknings- redskap och digitalisering (2) ◮ det är ett oerhört slöseri med resurser att alltid nyskapa träningsdata istället för att kunna ackumulera dem ◮ forskningens logik (verifierbarhet och reproducerbarhet) kräver dessutom att forskningsrådata alltid är åtkomliga ◮ öppna data skapar en god cirkel med ständigt bättre redskap för informationsåtkomst sprungna ur forskningen, som i sin tur kan dra nytta av den högkvalitativare informationen
  • 24. med andra ord: ◮ den som för det allmännas räkning digitaliserar texter (i vid bemärkelse) och bygger databaser (t.ex. om kulturarvsobjekt) borde alltid (åtminstone) göra informationen i dess helhet så fritt tillgänglig som lagen tillåter (d.v.s. fulltext, kompletta databasdumpar, etc.) ◮ (med licenser som CC0, CC BY eller CC BY-SA som tillåter bearbetning och återdistribution) ◮ ett sämre men möjligt alternativ (som CLARIN stödjer) är dataåtkomst baserad på kategoritillhörighet (t.ex. ”forskare anställd vid ett universitet i ett medlemsland”) som kontrolleras genom s.k. identitetsfederationer (jfr. Eduroam).
  • 25. (enbart) ”titthålsaccess” räcker inte ◮ gör jag inte forskarsamhället en tjänst om jag strukturerar åtkomsten och tillhandahåller ett sökgränssnitt och/eller ett API ◮ (kanske byggt på öppna standarder) ◮ (t.ex. till en digitaliserad brevsamling, en språktypologisk, lexikalisk, bibliografisk eller biografisk databas, geodata eller mina forskningsdata)?
  • 26. ◮ jo, absolut! ◮ men om jag gör enbart det, ◮ är alla andra utlämnade till vad jag vet och kan föreställa mig, ◮ och jag stänger fler möjligheter än jag öppnar, ◮ eftersom det inte går att förutse framtidens forskningsfrågor och forskningsmetoder ◮ och eftersom det blir svårt eller omöjligt att kombinera/korrelera material från olika källor ◮ eller generalisera över datamängderna (”data mining” / ”text mining”)
  • 27. vilka är hindren? ◮ juridiska: ◮ integritet (t.ex. inspelade samtalsdata) ◮ sekretess (t.ex. patientjournaler) ◮ upphovsrätt (”moderna” textdata, teve/radioprogram): inget undantag för forskning ◮ ekonomiska/ideologiska/politiska/tekniska: ◮ trög och bristfällig digitalisering ◮ ovana (omedvetenhet)/ovilja att dela med sig av forskningsdata ◮ data-, metadata- och innehållsstandarder under utveckling (”rörliga mål”)
  • 28. sammanfattningsvis ◮ Swe-Clarin är en e-vetenskapsinfrastruktur för humaniora och samhällsvetenskap ◮ som är under uppbyggnad i Sverige ◮ som en del av det europeiska CLARIN ERIC-initiativet ◮ Två faktorer är avgörande för Swe-Clarins framtid: 1. koppling till faktiska forskningsfrågor hos målgruppen 2. tillgång till digitala språkresurser på villkor som möjliggör både fri forskning på resurserna och vidareutveckling av infrastrukturen