Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

Intro språkteknologi

Download to read offline

Magnus Sahlgren om språkteknologi och språkmodeller

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Intro språkteknologi

  1. 1. Språkteknologi och språkmodeller Magnus Sahlgren magnus.sahlgren@ri.se RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  2. 2. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  3. 3. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  4. 4. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  5. 5. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  6. 6. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  7. 7. Språkteknologi Hantera språkdata i datorsystem Automatisera repetitiva uppgifter Möjliggöra nya insikter • Annan skala • Annan information RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  8. 8. Språkteknologi Sökning (hitta relevanta texter) Semantisk sökning: hitta texter/meningar med liknande betydelse RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  9. 9. Språkteknologi Sökning (hitta relevanta texter) Semantisk sökning: hitta texter/meningar med liknande betydelse RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  10. 10. Språkteknologi Textkategorisering (sätta etiketter på texter) Rapporter, epost, nyheter... Ämnen, relevans, sentiment... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  11. 11. Språkteknologi Textkategorisering (sätta etiketter på texter) Rapporter, epost, nyheter... Ämnen, relevans, sentiment... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  12. 12. Språkteknologi Textkategorisering (sätta etiketter på texter) Rapporter, epost, nyheter... Ämnen, relevans, sentiment... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  13. 13. Maskininlärning Maskinen lär sig känna igen något utifrån exempel (övervakad inlärning) Kräver tillräckligt många och tillräckligt representativa exempel Att samla in exempel kallas för annotering (vi kommer tillbaka till detta senare!) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  14. 14. Maskininlärning Maskinen lär sig känna igen något utifrån exempel (övervakad inlärning) Kräver tillräckligt många och tillräckligt representativa exempel Att samla in exempel kallas för annotering (vi kommer tillbaka till detta senare!) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  15. 15. Maskininlärning Maskinen lär sig känna igen något utifrån exempel (övervakad inlärning) Kräver tillräckligt många och tillräckligt representativa exempel Att samla in exempel kallas för annotering (vi kommer tillbaka till detta senare!) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  16. 16. Maskininlärning Maskinen lär sig känna igen något utifrån exempel (övervakad inlärning) Kräver tillräckligt många och tillräckligt representativa exempel Att samla in exempel kallas för annotering (vi kommer tillbaka till detta senare!) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  17. 17. Språkteknologi Informationsextraktion (hitta information i texter) Namnigenkänning: personer, platser, datum... Kompetenser, orsakssamband, resultatbeskrivningar... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  18. 18. Språkteknologi Informationsextraktion (hitta information i texter) Namnigenkänning: personer, platser, datum... Kompetenser, orsakssamband, resultatbeskrivningar... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  19. 19. Språkteknologi Informationsextraktion (hitta information i texter) Namnigenkänning: personer, platser, datum... Kompetenser, orsakssamband, resultatbeskrivningar... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  20. 20. Språkteknologi Sekvensomvandling (omvandla en sekvens till en annan) Maskinöversättning Språkförenkling RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  21. 21. Språkteknologi Sekvensomvandling (omvandla en sekvens till en annan) Maskinöversättning Språkförenkling RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  22. 22. Språkteknologi Sekvensomvandling (omvandla en sekvens till en annan) Maskinöversättning Språkförenkling RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  23. 23. Språkteknologi Textutforskning (vad finns det i texten?) Klustring: gruppera liknande enheter Ord, meningar, texter RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  24. 24. Språkteknologi Textutforskning (vad finns det i texten?) Klustring: gruppera liknande enheter Ord, meningar, texter RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  25. 25. Språkteknologi Textutforskning (vad finns det i texten?) Klustring: gruppera liknande enheter Ord, meningar, texter RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  26. 26. Språkteknologi • Sökning • Kategorisering • Extraktion • Omvandling • Utforskning RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  27. 27. Språkteknologi Machine Learning with Apache Spark Quick Start Guide by Jillur Quddus RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  28. 28. Språkteknologi RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  29. 29. Språkmodell En modell som lär sig en sannolikhetsfördelning över språket the cat sat on the the cat on the mat • Ger en sannolikhet för en mening • Kan generera text • Lär sig en “meningsfull” representation av text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  30. 30. Språkmodell En modell som lär sig en sannolikhetsfördelning över språket the cat sat on the the cat on the mat • Ger en sannolikhet för en mening • Kan generera text • Lär sig en “meningsfull” representation av text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  31. 31. Språkmodell En modell som lär sig en sannolikhetsfördelning över språket the cat sat on the the cat on the mat • Ger en sannolikhet för en mening • Kan generera text • Lär sig en “meningsfull” representation av text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  32. 32. Språkmodell En modell som lär sig en sannolikhetsfördelning över språket the cat sat on the the cat on the mat • Ger en sannolikhet för en mening • Kan generera text • Lär sig en “meningsfull” representation av text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  33. 33. Representationsinlärning Elman (1990) Simple Recurrent Networks RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  34. 34. Representationsinlärning RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  35. 35. Representationsinlärning Huth et al. in Nature, 2016
  36. 36. Representationsinlärning Ordrepresentationer (embeddings) lär sig semantiska representationer för ord Språkmodeller lär sig kontextkänsliga semantiska representationer för ord och meningar RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  37. 37. Representationsinlärning Ordrepresentationer (embeddings) lär sig semantiska representationer för ord Språkmodeller lär sig kontextkänsliga semantiska representationer för ord och meningar RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  38. 38. Representationsinlärning Ordrepresentationer (embeddings) lär sig semantiska representationer för ord Språkmodeller lär sig kontextkänsliga semantiska representationer för ord och meningar RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  39. 39. Överföringsinlärning Erik Ylipää, RISE RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  40. 40. Transformers RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  41. 41. Transformers Transformers crash course (svenska NLP webinariet) youtube.com/watch?v=XpdCZprEi2w Transformers och GPT-3 youtube.com/watch?v=lLwwB3HM1fA&t=1953s RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  42. 42. Transformers willstats.com RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  43. 43. Transformers stateof.ai RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  44. 44. Förbättrade representationer Carlsson et al. (2021) Semantic Re-Tuning with Contrastive Tension, ICLR RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  45. 45. Förbättrade representationer Carlsson et al. (2021) Semantic Re-Tuning with Contrastive Tension, ICLR RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  46. 46. Språkmodeller för svenska myndigheter Finansierat av Vinnova, 2019-2022 RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen, Skatteverket, Tillväxtverket, Kungliga biblioteket Referensgrupp: SKR, Polisen, SCB, Trafikverket, Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG, Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU, Tillväxtanalys... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  47. 47. Språkmodeller för svenska myndigheter Finansierat av Vinnova, 2019-2022 RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen, Skatteverket, Tillväxtverket, Kungliga biblioteket Referensgrupp: SKR, Polisen, SCB, Trafikverket, Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG, Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU, Tillväxtanalys... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  48. 48. Språkmodeller för svenska myndigheter Finansierat av Vinnova, 2019-2022 RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen, Skatteverket, Tillväxtverket, Kungliga biblioteket Referensgrupp: SKR, Polisen, SCB, Trafikverket, Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG, Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU, Tillväxtanalys... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  49. 49. Språkmodeller för svenska myndigheter Finansierat av Vinnova, 2019-2022 RISE, LTU, AI Sweden, Peltarion, Arbetsförmedlingen, Skatteverket, Tillväxtverket, Kungliga biblioteket Referensgrupp: SKR, Polisen, SCB, Trafikverket, Försäkringskassan, Socialstyrelsen, Bolagsverket, DIGG, Riksrevisionen, PRV, ESV, Riksarkivet, E-hälsomyndigheten, SGU, Tillväxtanalys... RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  50. 50. Språkmodeller för svenska myndigheter Möjliggöra för myndigheter att använda den senaste (och bästa!) språkteknologin (dvs språkmodeller) Bättre tjänster för medborgarna Mer effektiva myndigheter Bidra med algoritmer, kod, tränade modeller, data, samt tillämpningar Främja svensk språkteknologi generellt RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  51. 51. Språkmodeller för svenska myndigheter Möjliggöra för myndigheter att använda den senaste (och bästa!) språkteknologin (dvs språkmodeller) Bättre tjänster för medborgarna Mer effektiva myndigheter Bidra med algoritmer, kod, tränade modeller, data, samt tillämpningar Främja svensk språkteknologi generellt RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  52. 52. Språkmodeller för svenska myndigheter Möjliggöra för myndigheter att använda den senaste (och bästa!) språkteknologin (dvs språkmodeller) Bättre tjänster för medborgarna Mer effektiva myndigheter Bidra med algoritmer, kod, tränade modeller, data, samt tillämpningar Främja svensk språkteknologi generellt RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  53. 53. Språkmodeller för svenska myndigheter Möjliggöra för myndigheter att använda den senaste (och bästa!) språkteknologin (dvs språkmodeller) Bättre tjänster för medborgarna Mer effektiva myndigheter Bidra med algoritmer, kod, tränade modeller, data, samt tillämpningar Främja svensk språkteknologi generellt RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  54. 54. Resultat (1) Databeredskap för språkteknologi (mer om detta senare!) (nlp-data-readiness.readthedocs.io) SuperLim (utvärderingsramverk) (ai.se/en/node/81535/superlim) Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT, DeBERTa...) Förbättrade representationer från språkmodeller (huggingface.co/Contrastive-Tension) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  55. 55. Resultat (1) Databeredskap för språkteknologi (mer om detta senare!) (nlp-data-readiness.readthedocs.io) SuperLim (utvärderingsramverk) (ai.se/en/node/81535/superlim) Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT, DeBERTa...) Förbättrade representationer från språkmodeller (huggingface.co/Contrastive-Tension) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  56. 56. Resultat (1) Databeredskap för språkteknologi (mer om detta senare!) (nlp-data-readiness.readthedocs.io) SuperLim (utvärderingsramverk) (ai.se/en/node/81535/superlim) Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT, DeBERTa...) Förbättrade representationer från språkmodeller (huggingface.co/Contrastive-Tension) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  57. 57. Resultat (1) Databeredskap för språkteknologi (mer om detta senare!) (nlp-data-readiness.readthedocs.io) SuperLim (utvärderingsramverk) (ai.se/en/node/81535/superlim) Svenska språkmodeller (BERT, ALBERT, ELECTRA, GPT, DeBERTa...) Förbättrade representationer från språkmodeller (huggingface.co/Contrastive-Tension) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  58. 58. Resultat (2) NER och aktiv maskininlärning på Arbetsförmedlingen (github.com/af-ai-center/nerblackbox) Textkategorisering och maskinöversättning på Skatteverket Svenska NLP-webinariet (ai.se/en/swedish-nlp-webinars) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  59. 59. Resultat (2) NER och aktiv maskininlärning på Arbetsförmedlingen (github.com/af-ai-center/nerblackbox) Textkategorisering och maskinöversättning på Skatteverket Svenska NLP-webinariet (ai.se/en/swedish-nlp-webinars) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  60. 60. Resultat (2) NER och aktiv maskininlärning på Arbetsförmedlingen (github.com/af-ai-center/nerblackbox) Textkategorisering och maskinöversättning på Skatteverket Svenska NLP-webinariet (ai.se/en/swedish-nlp-webinars) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  61. 61. Framtiden (är redan här) Multimodala modeller (lär sig från fler typer av data samtidigt) Text och bild: • Skapa text utifrån en bild (bildbeskrivningar) • Skapa bild utifrån text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  62. 62. Framtiden (är redan här) Multimodala modeller (lär sig från fler typer av data samtidigt) Text och bild: • Skapa text utifrån en bild (bildbeskrivningar) • Skapa bild utifrån text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  63. 63. Framtiden (är redan här) Multimodala modeller (lär sig från fler typer av data samtidigt) Text och bild: • Skapa text utifrån en bild (bildbeskrivningar) • Skapa bild utifrån text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  64. 64. Framtiden (är redan här) Multimodala modeller (lär sig från fler typer av data samtidigt) Text och bild: • Skapa text utifrån en bild (bildbeskrivningar) • Skapa bild utifrån text RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  65. 65. Framtiden (är redan här) fof.se/artikel/smartare-ai-nar-text-kopplas-till-bild github.com/FreddeFrallan/Multilingual-CLIP RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  66. 66. Framtiden (är redan här) Stefan Löfven looking like a zombie (Ariel Ekgren, RISE) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  67. 67. Framtiden (är redan här) A space ship at the speed of light (Ariel Ekgren, RISE) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se
  68. 68. Framtiden (är redan här) Satan playing with skulls (Ariel Ekgren, RISE) RISE - Research Institutes of Sweden · magnus.sahlgren@ri.se

Magnus Sahlgren om språkteknologi och språkmodeller

Views

Total views

5

On Slideshare

0

From embeds

0

Number of embeds

0

Actions

Downloads

0

Shares

0

Comments

0

Likes

0

×