CLARIN i ett nötskal
(efter Steven Krauwer)
Common Language Resources and Technology Infrastructure
<http://www.clarin.eu>)
Grundidé:
◮ Europeisk federation av digitala arkiv med språkresurser
och språkverktyg (text, tal, multimodala, teckenspråk . . . )
◮ med tillgång till resurser och verktyg genom nättjänster för
att hämta, bearbeta, förädla, utforska och använda
resurserna
◮ genom en samlad inloggningsprocedur för arkiv och verktyg
◮ med forskare inom humaniora och samhällsvetenskap som
målgrupp
◮ som ska täcka alla EU-länder samt associerade stater
◮ och alla språk som är relevanta för målgruppen
Mål och visioner – språkets roll
(efter Steven Krauwer)
◮ Språket intar en central plats i många humanistiska och
samhällsvetenskapliga discipliner. Exempelvis:
◮ som studieobjekt i sig
◮ som mänskligt kommunikationsmedel
◮ som mänskligt uttrycksmedel
◮ som kunskapskälla om vår historia
◮ som en del av vår kulturella identitet
◮ som kunskaps- och informationsbärare
varför CLARIN?
◮ CLARIN anpassar och utvecklar språkteknologi och
språkresurshantering som e-vetenskap – datorverktyg som
forskningsstöd inom humaniora, samhällvetenskap och
andra discipliner där innehållet i text (och tal) utgör
primärdata för forskningen
◮ CLARIN bygger en basinfrastruktur för att möjliggöra
forskning både på dagens enorma volymer ”primärt
digitala” språkliga data och på de snabbt ökande
mängderna digitaliserade kulturarvsdata
språkteknologi och
språkresurser i Sverige
◮ lång historia (från 1960-talet), många forskargrupper
◮ svenska korpusar (Språkbanken [1975–], SUC, GSLC, många
inlärarkorpusar, . . . )
◮ flerspråkiga korpusar (Uppsala, Linköping, Göteborg, . . . )
◮ taldatabaser (KTH, Telia Research, . . . )
◮ resurser för informationsåtkomst (SICS, KTH, . . . )
◮ lexikondatabaser (Språkbanken, KTH, Språkrådet, . . . )
◮ många olika verktyg för text och tal
◮ men i huvudsak bedriven som korta forskningsprojekt och
fragmenterad
◮ och i behov av harmonisering och integration
den svenska META-NET-vitboken
(från META-NORD-projektet)
<http://www.meta-net.eu/whitepapers/overview>
Här får vi veta att svenska idag är större på internet än i den fysiska världen
men lämnar mycket övrigt att önska ifråga om språkteknologistöd.
SWE-CLARIN
◮ CLARIN: ESFRI-förberedelsefas 2008-01 – 2011-06
◮ CLARIN ERIC (European Research Infrastructure
Consortium) startade 29/2 2012 med 9 medlemmar
◮ Swe-Clarin (∼50 MSEK från VR 2014–2018)
startade 1/1 2014 med målen:
◮ att bilda en svensk nod i CLARIN ERIC
(inträdet – som 10:e medlem – skedde 1/10 2014):
◮ Göteborgs universitet/Språkbanken
◮ Göteborgs universitet/SND
◮ KTH
◮ Linköpings universitet
◮ Lunds universitet
◮ Stockholms universitet
◮ Uppsala universitet
◮ Språkrådet
◮ DigiSam
◮ att bygga en basinfrastruktur för CLARIN i Sverige
CLARIN-conceptet
◮ e-vetenskap – i form av språkteknologi som
forskningsverktyg – för discipliner där text (och tal) är
primärdata:
◮ humaniora
◮ samhällsvetenskap
◮ (vissa sorters) medicin
◮ CLARINs betydelse växer i takt med digitaliseringen av
kulturarvet och den elektroniska kommunikationens
utbredning
digital spetsforskningspotential
Precis som vid gruvbrytning, kräver stora mängder ’informationsglest’ digitalt
text- och talmaterial effektiv teknik för sökning, korrelering och korsindexering
i det språkliga innehållet – inte minst mellan olika språk – för att forskningen
ska få ut användbara primärdata ur det.
användargrupperna i Sverige
◮ språkvetenskap (mycket långt kommen; e-vetenskap sen
1960-talet!)
◮ medicin (långt kommen; flera projekt)
◮ historia (några projekt)
◮ litteraturvetenskap (enstaka projekt)
◮ statsvetenskap (ansatser)
I hela CLARIN-området är användningen betydande, och
CLARIN ERIC blir ett centralt forum för effektivt utbyte av
expertis och erfarenheter.
Swe-Clarin befinner sig i ett ”kontaktsökande” uppbyggnads-
skede och evenemang som den här workshopen är viktiga för
att skapa Swe-Clarins framtid.
några konkreta
Swe-Clarin-samarbeten
◮ politisk opinionsbildning i sociala medier (statsvetenskap,
Göteborg)
◮ kvinnors aktiviteter i tidigmodern tid (historia, Uppsala)
◮ allusion och textåteranvändning i litteratur
(litteraturvetenskap, Göteborg)
◮ språkliga signaler för tidig upptäckt av demens
(medicin/vårdvetenskap, Göteborg)
◮ ”återupplivande” av traditionell matlagning (ISOF m.fl.,
KTH)
◮ undersökning av diskriminerande gymnasiebetygssättning
(nationalekonomi, Stockholm)
◮ förändring över tid i attityder till retorik avspeglade i ett
historiskt tidningsmaterial (litteraturvetenskap, Uppsala)
◮ . . .
. . . och många fler önskas!
(Swe-)CLARINs fyra ben
1. en teknisk infrastruktur: PID, identitetsfederation, automatisk
metadatainhämtning, grid/moln
2. standardisering av data- och metadataformat samt
innehållsmodeller: ISO TC37/SC7 (SIS TK115), W3C;
hantering av upphovsrättsfrågor
3. en administrativ struktur för underhåll och vidareutveckling
av infrastrukturen, samt för expertis och användarstöd:
föreståndare, styrgrupp, referensgrupp,
CLARIN-centra (⊂ CLARIN ERIC)
4. språkteknologiska basresurser: BLARK (Basic LAnguage
Resource Kit) och SNK (en svensk nationell korpus)
språkteknologi som forsknings-
redskap och digitalisering (1)
◮ utveckling av sofistikerade språkverktyg kräver öppna
licenser (Open Content) för text och andra språkresurser
(ordlistor, termbanker, tesaurer, etc.)
◮ detta beror bland annat på att den dominerande
utvecklingsmetodologin bygger på maskininlärning
(”självlärande system”)
◮ som kräver stora mängder träningsdata
◮ (men även manuella ansatser bygger på generalisering
och abstraktion från språkliga rådata)
språkteknologi som forsknings-
redskap och digitalisering (2)
◮ det är ett oerhört slöseri med resurser att alltid nyskapa
träningsdata istället för att kunna ackumulera dem
◮ forskningens logik (verifierbarhet och reproducerbarhet)
kräver dessutom att forskningsrådata alltid är åtkomliga
◮ öppna data skapar en god cirkel med ständigt bättre
redskap för informationsåtkomst sprungna ur forskningen,
som i sin tur kan dra nytta av den högkvalitativare
informationen
med andra ord:
◮ den som för det allmännas räkning digitaliserar texter (i vid
bemärkelse) och bygger databaser (t.ex. om
kulturarvsobjekt) borde alltid (åtminstone) göra
informationen i dess helhet så fritt tillgänglig som lagen
tillåter (d.v.s. fulltext, kompletta databasdumpar, etc.)
◮ (med licenser som CC0, CC BY eller CC BY-SA som tillåter
bearbetning och återdistribution)
◮ ett sämre men möjligt alternativ (som CLARIN stödjer) är
dataåtkomst baserad på kategoritillhörighet (t.ex.
”forskare anställd vid ett universitet i ett medlemsland”)
som kontrolleras genom s.k. identitetsfederationer (jfr.
Eduroam).
(enbart) ”titthålsaccess” räcker
inte
◮ gör jag inte forskarsamhället en tjänst om jag strukturerar
åtkomsten och tillhandahåller ett sökgränssnitt och/eller ett
API
◮ (kanske byggt på öppna standarder)
◮ (t.ex. till en digitaliserad brevsamling, en språktypologisk,
lexikalisk, bibliografisk eller biografisk databas, geodata
eller mina forskningsdata)?
◮ jo, absolut!
◮ men om jag gör enbart det,
◮ är alla andra utlämnade till vad jag vet och kan föreställa
mig,
◮ och jag stänger fler möjligheter än jag öppnar,
◮ eftersom det inte går att förutse framtidens forskningsfrågor
och forskningsmetoder
◮ och eftersom det blir svårt eller omöjligt att
kombinera/korrelera material från olika källor
◮ eller generalisera över datamängderna (”data mining” /
”text mining”)
vilka är hindren?
◮ juridiska:
◮ integritet (t.ex. inspelade samtalsdata)
◮ sekretess (t.ex. patientjournaler)
◮ upphovsrätt (”moderna” textdata, teve/radioprogram):
inget undantag för forskning
◮ ekonomiska/ideologiska/politiska/tekniska:
◮ trög och bristfällig digitalisering
◮ ovana (omedvetenhet)/ovilja att dela med sig av
forskningsdata
◮ data-, metadata- och innehållsstandarder under utveckling
(”rörliga mål”)
sammanfattningsvis
◮ Swe-Clarin är en e-vetenskapsinfrastruktur för humaniora
och samhällsvetenskap
◮ som är under uppbyggnad i Sverige
◮ som en del av det europeiska CLARIN ERIC-initiativet
◮ Två faktorer är avgörande för Swe-Clarins framtid:
1. koppling till faktiska forskningsfrågor hos målgruppen
2. tillgång till digitala språkresurser på villkor som möjliggör
både fri forskning på resurserna och vidareutveckling av
infrastrukturen