Advertisement

More Related Content

Slideshows for you(20)

Advertisement
Advertisement

Recently uploaded(20)

Lars Borin "Vad är Swe-Clarin?" KB 9 oktober 2015

  1. Vad är Swe-Clarin? Lars Borin Språkbanken/svenska språket, Göteborgs universitet Swe-Clarin Kulturarvet som ettor och nollor/1 • KB 9/10 2015
  2. det korta svaret Swe-Clarin är den svenska delen av den europeiska forskningsinfrastrukturen CLARIN ERIC
  3. <http://www.clarin.eu>
  4. CLARIN i ett nötskal (efter Steven Krauwer) Common Language Resources and Technology Infrastructure <http://www.clarin.eu>) Grundidé: ◮ Europeisk federation av digitala arkiv med språkresurser och språkverktyg (text, tal, multimodala, teckenspråk . . . ) ◮ med tillgång till resurser och verktyg genom nättjänster för att hämta, bearbeta, förädla, utforska och använda resurserna ◮ genom en samlad inloggningsprocedur för arkiv och verktyg ◮ med forskare inom humaniora och samhällsvetenskap som målgrupp ◮ som ska täcka alla EU-länder samt associerade stater ◮ och alla språk som är relevanta för målgruppen
  5. Mål och visioner – språkets roll (efter Steven Krauwer) ◮ Språket intar en central plats i många humanistiska och samhällsvetenskapliga discipliner. Exempelvis: ◮ som studieobjekt i sig ◮ som mänskligt kommunikationsmedel ◮ som mänskligt uttrycksmedel ◮ som kunskapskälla om vår historia ◮ som en del av vår kulturella identitet ◮ som kunskaps- och informationsbärare
  6. varför CLARIN? ◮ CLARIN anpassar och utvecklar språkteknologi och språkresurshantering som e-vetenskap – datorverktyg som forskningsstöd inom humaniora, samhällvetenskap och andra discipliner där innehållet i text (och tal) utgör primärdata för forskningen ◮ CLARIN bygger en basinfrastruktur för att möjliggöra forskning både på dagens enorma volymer ”primärt digitala” språkliga data och på de snabbt ökande mängderna digitaliserade kulturarvsdata
  7. språkteknologi och språkresurser i Sverige ◮ lång historia (från 1960-talet), många forskargrupper ◮ svenska korpusar (Språkbanken [1975–], SUC, GSLC, många inlärarkorpusar, . . . ) ◮ flerspråkiga korpusar (Uppsala, Linköping, Göteborg, . . . ) ◮ taldatabaser (KTH, Telia Research, . . . ) ◮ resurser för informationsåtkomst (SICS, KTH, . . . ) ◮ lexikondatabaser (Språkbanken, KTH, Språkrådet, . . . ) ◮ många olika verktyg för text och tal ◮ men i huvudsak bedriven som korta forskningsprojekt och fragmenterad ◮ och i behov av harmonisering och integration
  8. den svenska META-NET-vitboken (från META-NORD-projektet) <http://www.meta-net.eu/whitepapers/overview> Här får vi veta att svenska idag är större på internet än i den fysiska världen men lämnar mycket övrigt att önska ifråga om språkteknologistöd.
  9. SWE-CLARIN ◮ CLARIN: ESFRI-förberedelsefas 2008-01 – 2011-06 ◮ CLARIN ERIC (European Research Infrastructure Consortium) startade 29/2 2012 med 9 medlemmar ◮ Swe-Clarin (∼50 MSEK från VR 2014–2018) startade 1/1 2014 med målen: ◮ att bilda en svensk nod i CLARIN ERIC (inträdet – som 10:e medlem – skedde 1/10 2014): ◮ Göteborgs universitet/Språkbanken ◮ Göteborgs universitet/SND ◮ KTH ◮ Linköpings universitet ◮ Lunds universitet ◮ Stockholms universitet ◮ Uppsala universitet ◮ Språkrådet ◮ DigiSam ◮ att bygga en basinfrastruktur för CLARIN i Sverige
  10. <http://sweclarin.se>
  11. CLARIN-conceptet ◮ e-vetenskap – i form av språkteknologi som forskningsverktyg – för discipliner där text (och tal) är primärdata: ◮ humaniora ◮ samhällsvetenskap ◮ (vissa sorters) medicin ◮ CLARINs betydelse växer i takt med digitaliseringen av kulturarvet och den elektroniska kommunikationens utbredning
  12. digital spetsforskningspotential Precis som vid gruvbrytning, kräver stora mängder ’informationsglest’ digitalt text- och talmaterial effektiv teknik för sökning, korrelering och korsindexering i det språkliga innehållet – inte minst mellan olika språk – för att forskningen ska få ut användbara primärdata ur det.
  13. exempel 1: telefoner i Sverige
  14. exempel 2: språkutveckling
  15. exempel 3: ledtrådar till historiska händelser
  16. användargrupperna i Sverige ◮ språkvetenskap (mycket långt kommen; e-vetenskap sen 1960-talet!) ◮ medicin (långt kommen; flera projekt) ◮ historia (några projekt) ◮ litteraturvetenskap (enstaka projekt) ◮ statsvetenskap (ansatser) I hela CLARIN-området är användningen betydande, och CLARIN ERIC blir ett centralt forum för effektivt utbyte av expertis och erfarenheter. Swe-Clarin befinner sig i ett ”kontaktsökande” uppbyggnads- skede och evenemang som den här workshopen är viktiga för att skapa Swe-Clarins framtid.
  17. några konkreta Swe-Clarin-samarbeten ◮ politisk opinionsbildning i sociala medier (statsvetenskap, Göteborg) ◮ kvinnors aktiviteter i tidigmodern tid (historia, Uppsala) ◮ allusion och textåteranvändning i litteratur (litteraturvetenskap, Göteborg) ◮ språkliga signaler för tidig upptäckt av demens (medicin/vårdvetenskap, Göteborg) ◮ ”återupplivande” av traditionell matlagning (ISOF m.fl., KTH) ◮ undersökning av diskriminerande gymnasiebetygssättning (nationalekonomi, Stockholm) ◮ förändring över tid i attityder till retorik avspeglade i ett historiskt tidningsmaterial (litteraturvetenskap, Uppsala) ◮ . . . . . . och många fler önskas!
  18. (Swe-)CLARINs fyra ben 1. en teknisk infrastruktur: PID, identitetsfederation, automatisk metadatainhämtning, grid/moln 2. standardisering av data- och metadataformat samt innehållsmodeller: ISO TC37/SC7 (SIS TK115), W3C; hantering av upphovsrättsfrågor 3. en administrativ struktur för underhåll och vidareutveckling av infrastrukturen, samt för expertis och användarstöd: föreståndare, styrgrupp, referensgrupp, CLARIN-centra (⊂ CLARIN ERIC) 4. språkteknologiska basresurser: BLARK (Basic LAnguage Resource Kit) och SNK (en svensk nationell korpus)
  19. från kökkenmödding till infrastruktur SWE-CLARIN
  20. standarder är omfattande, petiga och osynliga . . .
  21. . . . men de möjliggör fantastiska saker
  22. språkteknologi som forsknings- redskap och digitalisering (1) ◮ utveckling av sofistikerade språkverktyg kräver öppna licenser (Open Content) för text och andra språkresurser (ordlistor, termbanker, tesaurer, etc.) ◮ detta beror bland annat på att den dominerande utvecklingsmetodologin bygger på maskininlärning (”självlärande system”) ◮ som kräver stora mängder träningsdata ◮ (men även manuella ansatser bygger på generalisering och abstraktion från språkliga rådata)
  23. språkteknologi som forsknings- redskap och digitalisering (2) ◮ det är ett oerhört slöseri med resurser att alltid nyskapa träningsdata istället för att kunna ackumulera dem ◮ forskningens logik (verifierbarhet och reproducerbarhet) kräver dessutom att forskningsrådata alltid är åtkomliga ◮ öppna data skapar en god cirkel med ständigt bättre redskap för informationsåtkomst sprungna ur forskningen, som i sin tur kan dra nytta av den högkvalitativare informationen
  24. med andra ord: ◮ den som för det allmännas räkning digitaliserar texter (i vid bemärkelse) och bygger databaser (t.ex. om kulturarvsobjekt) borde alltid (åtminstone) göra informationen i dess helhet så fritt tillgänglig som lagen tillåter (d.v.s. fulltext, kompletta databasdumpar, etc.) ◮ (med licenser som CC0, CC BY eller CC BY-SA som tillåter bearbetning och återdistribution) ◮ ett sämre men möjligt alternativ (som CLARIN stödjer) är dataåtkomst baserad på kategoritillhörighet (t.ex. ”forskare anställd vid ett universitet i ett medlemsland”) som kontrolleras genom s.k. identitetsfederationer (jfr. Eduroam).
  25. (enbart) ”titthålsaccess” räcker inte ◮ gör jag inte forskarsamhället en tjänst om jag strukturerar åtkomsten och tillhandahåller ett sökgränssnitt och/eller ett API ◮ (kanske byggt på öppna standarder) ◮ (t.ex. till en digitaliserad brevsamling, en språktypologisk, lexikalisk, bibliografisk eller biografisk databas, geodata eller mina forskningsdata)?
  26. ◮ jo, absolut! ◮ men om jag gör enbart det, ◮ är alla andra utlämnade till vad jag vet och kan föreställa mig, ◮ och jag stänger fler möjligheter än jag öppnar, ◮ eftersom det inte går att förutse framtidens forskningsfrågor och forskningsmetoder ◮ och eftersom det blir svårt eller omöjligt att kombinera/korrelera material från olika källor ◮ eller generalisera över datamängderna (”data mining” / ”text mining”)
  27. vilka är hindren? ◮ juridiska: ◮ integritet (t.ex. inspelade samtalsdata) ◮ sekretess (t.ex. patientjournaler) ◮ upphovsrätt (”moderna” textdata, teve/radioprogram): inget undantag för forskning ◮ ekonomiska/ideologiska/politiska/tekniska: ◮ trög och bristfällig digitalisering ◮ ovana (omedvetenhet)/ovilja att dela med sig av forskningsdata ◮ data-, metadata- och innehållsstandarder under utveckling (”rörliga mål”)
  28. sammanfattningsvis ◮ Swe-Clarin är en e-vetenskapsinfrastruktur för humaniora och samhällsvetenskap ◮ som är under uppbyggnad i Sverige ◮ som en del av det europeiska CLARIN ERIC-initiativet ◮ Två faktorer är avgörande för Swe-Clarins framtid: 1. koppling till faktiska forskningsfrågor hos målgruppen 2. tillgång till digitala språkresurser på villkor som möjliggör både fri forskning på resurserna och vidareutveckling av infrastrukturen
  29. tack för uppmärksamheten!
Advertisement