9. 11. 2023 Josef Šlerka
LLM a mixed methods v
humanitních vědách
Konference Humanitní a společenské vědy perspektivou Digital
Humanities, Olomouc
Digital Humanities
Metodologický obrat DH směrem k komputačním metodám
Digital Humanities
• DH jsou primárně chápány jako metodologický obrat směrem ke
komputačním metodám v humanitních vědách
• To vzbuzuje celou řadu pochybností, protože humanitní vědy jsou chápany v
tradici metod spíše kvalitativních metod a kladou tradičně důraz na
porozumění před předpovídáním
• Už ale řadu let směřujme k tomu, aby se tyto oblasti propojili a v zásadě
změnili paradigma našeho bádání
Přínos strojového učení (ML) v DH
Digital Humanities
• Strojové účení a data mining v oblasti humanitních věd totiž přinášejí stále
nové impulsy, které přesahují kvantitativní metody a směřují stále víc ke
kombinaci strojového (komutačního přístupu) a kvalitativních aspektů
Topic modeling
Signi
fi
cant themes in 19th-century literature
https://www.sciencedirect.com/science/article/abs/pii/S0304422X13000673
Publikováno v roce 2013!
Sentiment analysis
SentText: A Tool for Lexicon-based Sentiment Analysis in Digital Humanities
https://epub.uni-regensburg.de/44943/1/isi_schmidt_dangel_wol
ff
.pdf
Přínos strojového učení a dataminigu
Digital Humanities
• Strojové účení a data mining v oblasti humanitních věd totiž přinášejí stále
nové impulsy, které přesahují kvantitativní metody a směřují stále víc ke
kombinaci strojového (komputačního přístupu) a kvalitativních aspektů
• Nevýhody byly a jsou značná potřeba technických znalostí z mnoha oblastí
• Tohle by mohla změnit nově nastupující éra demokratizace velkých
jazykových modelů (LLM)
Velké jazykové model
Univerzální operační systém
Velké jazykové modely
• LLM můžeme chápat různě, ale jednou z možností je chápat jako univerzální
operační systém pro transformace dokumentů nejrůznější povahy na jiné
dokumenty, přičemž tu transformaci můžeme programovat v přirozeném
jazyce
Několik příkladů
Extrakce entit v ChatGPT
Formální metody analýzy
Graimasův Actantial Mode
Příklad výstupu
Jednej jako persona Tomáše Nováka, 33letého výzkumného analytika se specializací na narativní analýzu.
Tomáš je absolventem doktorského studia Aplikované lingvistiky na Univerzitě Karlově. Zkoumá vyprávění a
jejich struktury, s hlavním zájmem o moderní digitální narativy, jako jsou sociální média, blogy a online diskusní
fóra. Tomáš má pět let zkušeností v aplikaci narativní analýzy v různých projektech pro neziskové organizace,
vládní agentury a soukromé společnosti. V těchto rolích analyzoval texty, identifikoval klíčové vzorce, témata a
narativy. Tomáš je technicky zdatný a má dovednosti v programovacích jazycích, jako jsou Python a R. Kromě
češtiny, kterou ovládá jako rodilý mluvčí, je také schopen komunikovat v angličtině a má pokročilé znalosti
němčiny a ruštiny, což mu umožňuje analyzovat narativy v různých jazykových kontextech. V osobním životě
má Tomáš rád četbu literatury a hraní na kytaru. Tyto zájmy mu pomáhají udržovat kreativní myšlení a
rozšiřovat jeho pochopení různých vyprávěcích stylů a struktur. Je motivován pochopením, jak lidé komunikují
a jak se příběhy a narativy formují a ovlivňují společnost. Jeho cílem je využít své dovednosti k identifikaci a
porozumění hlavním narativům a vzorcům v datech, aby pomohl organizacím lépe porozumět svým cílovým
skupinám nebo analyzovat sociální jevy. Pro analýzy textu, který ti předložím, aplikuj Graimasův Actantial
Model. Identifikuj Subjekt, Objekt. Odesílatel, Příjemce, Pomocník, Protivník. Znění textu je:
Čas v textu
Using GPT-4 to measure the passage of time in fiction
Příklady
Read the following passage of fiction. Then do five things.
1: Briefly summarize the passage.
2: Reason step by step to decide how much time is described in the passage. If the passage doesn't include any
explicit reference to time, you can guess how much time the events described would have taken. Even description
can imply the passage of time by describing the earlier history of people or buildings. But characters' references to
the past or future in spoken dialogue should not count as time that passed in the scene. Report the time using units
of years, weeks, days, hours, or minutes. Do not say zero or N/A.
3: If you described a range of possible times in step 2 take the midpoint of the range. Then multiply to convert the
units into minutes.
4: Report only the number of minutes elapsed, which should match the number in step 3. Do not reply N/A.
5: Given the amount of speculation required in step 2, describe your certainty about the estimate--either high,
moderate, or low.
The passage follows: <omitting this to save space>
https://tedunderwood.com/2023/03/19/using-gpt-4-to-measure-the-passage-of-time-in-
fi
ction/
Simulace osoby
Simuluj levičáka
Ukázka promptu
Simulace interakce
AI Town
https://www.convex.dev/ai-town
https://www.youtube.com/watch?v=aIDSmgsT4p8
Fordizace kvalitativního výzkumu
Obsahová analýza
Ukázka promptu
Simuluj výzkumníka v oblasti obsahové analýzy textu, který chce zjistit jaký je objem konspiračních teorií v mediálním
prostoru. Použij přitom klasifikaci Eirikura Bergmanna z jeho knihy Conspiracy & Populism: The Politics of
Misinformation. Přečti si a pečlivě analyzuj následující text, zda předkládá nějaké konspirační teorie či z nich vychází a
jaké. Odlišuj od sebe populistické rámování a konspirační teorie. Analyzuje, kterých zemí se text týká. Hodnoť
důvěryhodnost zdrojů informací uvedených v textu. Pokus se určit tón textu - je objektivní, subjektivní, pozitivní,
negativní, nebo neutrální? Rozpoznej případné manipulativní techniky, jako je emocionální manipulace nebo
dezinformace. Zvaž kontext textu ve vztahu k aktuálním událostem, kultuře nebo politickému prostředí. Podívej se také,
jestli předkládaný text je možná charakterizovat jako pro-ruský. Identifikuj žánr textu a stručně popiš jaké je sémantické
pole textu. Identifikuj hlavní osoby. Identifikuj také zda se týká covid-19 nebo očkování. Pokus se identifikovat, na jakou
demografickou skupinu je text zaměřen, a určiť jeho hlavní účel. Identifikuj míru radikalizace slovníku textu. Odpověď
bude <obsazene_konspirace><konspirace><vysledek>ano/ne</vysledek><druh_konspirace></
druh_konspirace><vysvetleni></vysvetleni><zeme></zeme><duveryhodnost_zdroju></
duveryhodnost_zdroju><ton></ton><manipulativni_techniky></manipulativni_techniky><kontext></
kontext><prorusky>ano/ne</prorusky><zanr></zanr><semanticke_pole></semanticke_pole><osoby></
osoby><covid_ockovani>ano/ne</covid_ockovani><cilova_skupina></cilova_skupina><ucel_textu></
ucel_textu><radikalizace>nízká/střední/vysoká</radikalizace></konspirace></obsazene_konspirace>. Znění textu:
1.900 textů za 19 hodin a 37
minut
Levnější explorace dat
Potíže
Není oběd zadarmo
Potíže
• důvěryhodnost analýzy
• biasy
• cena
• ale v zásadě jsou to staré dobré problémy s lidmi
Děkuji za pozornost!

LLM a mixed methods v humanitních vědách

  • 1.
    9. 11. 2023Josef Šlerka LLM a mixed methods v humanitních vědách Konference Humanitní a společenské vědy perspektivou Digital Humanities, Olomouc
  • 2.
  • 3.
    Metodologický obrat DHsměrem k komputačním metodám Digital Humanities • DH jsou primárně chápány jako metodologický obrat směrem ke komputačním metodám v humanitních vědách • To vzbuzuje celou řadu pochybností, protože humanitní vědy jsou chápany v tradici metod spíše kvalitativních metod a kladou tradičně důraz na porozumění před předpovídáním • Už ale řadu let směřujme k tomu, aby se tyto oblasti propojili a v zásadě změnili paradigma našeho bádání
  • 4.
    Přínos strojového učení(ML) v DH Digital Humanities • Strojové účení a data mining v oblasti humanitních věd totiž přinášejí stále nové impulsy, které přesahují kvantitativní metody a směřují stále víc ke kombinaci strojového (komutačního přístupu) a kvalitativních aspektů
  • 5.
  • 6.
    Signi fi cant themes in19th-century literature https://www.sciencedirect.com/science/article/abs/pii/S0304422X13000673 Publikováno v roce 2013!
  • 7.
  • 8.
    SentText: A Toolfor Lexicon-based Sentiment Analysis in Digital Humanities https://epub.uni-regensburg.de/44943/1/isi_schmidt_dangel_wol ff .pdf
  • 9.
    Přínos strojového učenía dataminigu Digital Humanities • Strojové účení a data mining v oblasti humanitních věd totiž přinášejí stále nové impulsy, které přesahují kvantitativní metody a směřují stále víc ke kombinaci strojového (komputačního přístupu) a kvalitativních aspektů • Nevýhody byly a jsou značná potřeba technických znalostí z mnoha oblastí • Tohle by mohla změnit nově nastupující éra demokratizace velkých jazykových modelů (LLM)
  • 10.
  • 11.
    Univerzální operační systém Velkéjazykové modely • LLM můžeme chápat různě, ale jednou z možností je chápat jako univerzální operační systém pro transformace dokumentů nejrůznější povahy na jiné dokumenty, přičemž tu transformaci můžeme programovat v přirozeném jazyce
  • 12.
  • 13.
  • 16.
  • 17.
    Graimasův Actantial Mode Příkladvýstupu Jednej jako persona Tomáše Nováka, 33letého výzkumného analytika se specializací na narativní analýzu. Tomáš je absolventem doktorského studia Aplikované lingvistiky na Univerzitě Karlově. Zkoumá vyprávění a jejich struktury, s hlavním zájmem o moderní digitální narativy, jako jsou sociální média, blogy a online diskusní fóra. Tomáš má pět let zkušeností v aplikaci narativní analýzy v různých projektech pro neziskové organizace, vládní agentury a soukromé společnosti. V těchto rolích analyzoval texty, identifikoval klíčové vzorce, témata a narativy. Tomáš je technicky zdatný a má dovednosti v programovacích jazycích, jako jsou Python a R. Kromě češtiny, kterou ovládá jako rodilý mluvčí, je také schopen komunikovat v angličtině a má pokročilé znalosti němčiny a ruštiny, což mu umožňuje analyzovat narativy v různých jazykových kontextech. V osobním životě má Tomáš rád četbu literatury a hraní na kytaru. Tyto zájmy mu pomáhají udržovat kreativní myšlení a rozšiřovat jeho pochopení různých vyprávěcích stylů a struktur. Je motivován pochopením, jak lidé komunikují a jak se příběhy a narativy formují a ovlivňují společnost. Jeho cílem je využít své dovednosti k identifikaci a porozumění hlavním narativům a vzorcům v datech, aby pomohl organizacím lépe porozumět svým cílovým skupinám nebo analyzovat sociální jevy. Pro analýzy textu, který ti předložím, aplikuj Graimasův Actantial Model. Identifikuj Subjekt, Objekt. Odesílatel, Příjemce, Pomocník, Protivník. Znění textu je:
  • 19.
  • 20.
    Using GPT-4 tomeasure the passage of time in fiction Příklady Read the following passage of fiction. Then do five things. 1: Briefly summarize the passage. 2: Reason step by step to decide how much time is described in the passage. If the passage doesn't include any explicit reference to time, you can guess how much time the events described would have taken. Even description can imply the passage of time by describing the earlier history of people or buildings. But characters' references to the past or future in spoken dialogue should not count as time that passed in the scene. Report the time using units of years, weeks, days, hours, or minutes. Do not say zero or N/A. 3: If you described a range of possible times in step 2 take the midpoint of the range. Then multiply to convert the units into minutes. 4: Report only the number of minutes elapsed, which should match the number in step 3. Do not reply N/A. 5: Given the amount of speculation required in step 2, describe your certainty about the estimate--either high, moderate, or low. The passage follows: <omitting this to save space>
  • 21.
  • 22.
  • 23.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
    Obsahová analýza Ukázka promptu Simulujvýzkumníka v oblasti obsahové analýzy textu, který chce zjistit jaký je objem konspiračních teorií v mediálním prostoru. Použij přitom klasifikaci Eirikura Bergmanna z jeho knihy Conspiracy & Populism: The Politics of Misinformation. Přečti si a pečlivě analyzuj následující text, zda předkládá nějaké konspirační teorie či z nich vychází a jaké. Odlišuj od sebe populistické rámování a konspirační teorie. Analyzuje, kterých zemí se text týká. Hodnoť důvěryhodnost zdrojů informací uvedených v textu. Pokus se určit tón textu - je objektivní, subjektivní, pozitivní, negativní, nebo neutrální? Rozpoznej případné manipulativní techniky, jako je emocionální manipulace nebo dezinformace. Zvaž kontext textu ve vztahu k aktuálním událostem, kultuře nebo politickému prostředí. Podívej se také, jestli předkládaný text je možná charakterizovat jako pro-ruský. Identifikuj žánr textu a stručně popiš jaké je sémantické pole textu. Identifikuj hlavní osoby. Identifikuj také zda se týká covid-19 nebo očkování. Pokus se identifikovat, na jakou demografickou skupinu je text zaměřen, a určiť jeho hlavní účel. Identifikuj míru radikalizace slovníku textu. Odpověď bude <obsazene_konspirace><konspirace><vysledek>ano/ne</vysledek><druh_konspirace></ druh_konspirace><vysvetleni></vysvetleni><zeme></zeme><duveryhodnost_zdroju></ duveryhodnost_zdroju><ton></ton><manipulativni_techniky></manipulativni_techniky><kontext></ kontext><prorusky>ano/ne</prorusky><zanr></zanr><semanticke_pole></semanticke_pole><osoby></ osoby><covid_ockovani>ano/ne</covid_ockovani><cilova_skupina></cilova_skupina><ucel_textu></ ucel_textu><radikalizace>nízká/střední/vysoká</radikalizace></konspirace></obsazene_konspirace>. Znění textu:
  • 30.
    1.900 textů za19 hodin a 37 minut
  • 31.
  • 34.
  • 35.
    Není oběd zadarmo Potíže •důvěryhodnost analýzy • biasy • cena • ale v zásadě jsou to staré dobré problémy s lidmi
  • 36.