SlideShare a Scribd company logo
Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik Prof. dr. ir. J.C. Scholtes
Universiteit Leiden Universiteit Maastricht
LCDS, Faculteit W&N ZyLAB, Amsterdam
eLaw, Faculteit der Rechtsgeleerdheid
SSR Training Big Data en Data Science
23 Mei 2018
UW DOCENTEN Prof Dr Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
eLaw, Faculteit der
Rechtsgeleerdheid
Jaap van den Herik studied mathematics (with honours) at the Vrije Universiteit
Amsterdam and received his PhD degree at Delft University of Technology in 1983. In
1984 he was visiting professor at the McGill School of Computer Science in Montreal.
Thereafter, he was subsequently affiliated with Maastricht University (1987- 2008)
and Tilburg University (2008-2016) as full professor in Computer Science. He is the
founding director of IKAT (Institute of Knowledge and Agent Technology) and TiCC
(Tilburg center for Cognition and Communication) and was supervisor of 79 PhD
researchers.
At Leiden University, Van den Herik was affiliated with the department of Computer
Science (now LIACS) between 1984 and 1988. He became professor of Computer
Science and Law in 1988, at the Center for Law in the Information Society (eLaw).
Since 2012, he is also a fellow professor at the Centre for Regional Knowledge
Development (CRK), for the supervision of PhD students. Furthermore, he has been
part of the Leiden Institute of Advanced Computer Science (LIACS) since 2014,
where he founded the Leiden Centre of Data Science (LCDS) together with Joost
Kok and Jacqueline Meulman.
Van den Herik’s research interests include artificial intelligence, intelligent legal
systems, big data and social innovation. In 2012, he received an ERC Advanced
Grant together with Jos Vermaseren (PI, Nikhef) and Aske Plaat, for the research
proposal “Solving High Energy Physics Equations using Monte Carlo Gaming
Techniques.” Van den Herik received a Humies Award in 2014, for his work on chess
programming.
Van den Herik is active in many organizations and advisory boards, such as the
Belgian Netherlands Association of AI, JURIX, the ICGA, ToKeN, Catch and the
consortium BiG Grid. Furthermore, he is a fellow of the European Coordinating
Committee for AI (ECCAI), and member of the Royal Holland Society of Sciences
and Humanities.
SLIDE / 2
UW DOCENTEN Prof dr ir Jan Scholtes
CSO at ZyLAB
Professor Text-Mining
University of Maastricht
From 1987 to 2009 Scholtes acted as President / CEO of
ZyLAB. Scholtes has been involved in deploying in-house
e-discovery software with organization such as the UN War
Crimes Tribunals, the FBI-ENRON investigations, the EOP
(White House), DNB, ACM, FTC, EC, ABN-AMRO, ING,
Vanguard, Fico, and thousands of other users worldwide.
Since 2008, Scholtes holds the extra-ordinary Chair in Text
Mining from the Department of Knowledge Engineering at
the University of Maastricht and he is a senior research
fellow of the Dutch School for Information and Knowledge
Systems (SIKS). (SIKS) is a Dutch Research School
established in 1996 and accredited by the Royal
Netherlands Academy of Arts and Sciences
(http://www.siks.nl/).
Before joining ZyLAB in 1989, Scholtes was lieutenant in
the intelligence department of the Royal Dutch Navy.
Scholtes holds a M.Sc. degree in Computer Science from
Delft University of Technology and a Ph.D. in
Computational Linguistics from the University of
Amsterdam.
SLIDE / 3
https://www.linkedin.com/in/jscholtes/
9.30 - 10.00 Inloop
10.00 - 10.30 Introductie docenten en begin discussie.
10.30 - 11.15 Tegelcasus: Case Based Reasoning met big-data (JvdH) en demo LI
11.15 - 11.30 Pauze
11.30 - 12.30 Overzicht Artificial Intelligence technieken voor de rechtspraak (JvdH)
12.30 - 13.15 Lunch
13.15 - 14.15 Big Data: Intelligente Zoektechnieken (JS)
14.15 - 14.30 Pauze
14.30 - 16.00 Opdrachten: Intelligente Zoektechnieken voor Jurisprudentie (JS)
16.00 - 16.30 Discussie
DAGINDELING
SLIDE / 4
WAT IS ARTIFICIAL INTELLIGENCE?
SLIDE / 5
SLIDE / 6
AI DIE WE DAGELIJKS KUNNEN GEBRUIKEN
SLIDE / 7
 De focus van de training zal liggen op
beslissingsondersteunende zoektechnologie voor de
rechtspraak, waarbij gebruik gemaakt kan worden van ideeën
en concepten uit de wereld van Big Data en Data Science.
 Omdat veel data van de Raad voor de Rechtspraak
ongestructureerd (tekstueel) van aard is, zal in een aantal
sessies worden uitgelegd hoe de rechtspraak gebruik kan
maken van dit soort technieken bij o.a. het zoeken in
jurisprudentie.
SLIDE / 8
BIG DATA EN DATA SCIENCE
Discover the world at Leiden University
Rechtbanken willen zo goed mogelijk rechtspreken
en daarbij zo goed mogelijk ondersteund worden.
•Toekomst 1: rechters moeten nieuwe systemen (computers en
intelligente machines) hebben om casusposities op de
traditionele manier te beoordelen (De Comfort Zone)
•Toekomst 2: (totaal verschillend -> disruptive). De introductie
van een serie ‘capabele systemen’ die het werk van traditionele
rechters geheel autonoom uitvoeren.
Wat willen Rechtbanken?
Discover the world at Leiden University
Nu (2018) lopen de twee toekomstperspectieven nog parallel.
Ze zullen steeds meer naar elkaar toegroeien (2018-2035).
Op de lange duur zal TOEKOMST 2 domineren (na 2040).
Vragen:
1. Willen we dit?
2. Willen we dit niet?
3. Wat willen we dan?
4. Willen we de technologische ontwikkeling tegenhouden?
Wat willen Rechtbanken?
Discover the world at Leiden University
Positie A
The world is technology driven
(e.g., Physicists)
Het Technologie Debat
Positie B
The world is socially driven
(e.g.,Lawyers)
Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
eLaw, Faculteit der Rechtsgeleerdheid
Tegelcasus: Case Based Reasoning
met big data
Discover the world at Leiden University
De Casus
• Op een broeierige zomeravond stapt mevrouw Inge Janssens (70) uit de bus
en wandelt rustig het voetpad af naar de woning van haar dochter.
• Vogels fluiten, er is weinig verkeer, mensen zijn mooi uitgedost en groeten
elkaar van harte, het lijkt wel een Italiaanse passeggiata.
• Goedgemutst zet mevrouw Janssens haar wandeling in de laaghangende en
enigszins verblindende zon verder, tot ze over een losliggende voetpadtegel
struikelt, ten val komt en haar been breekt. Ze stelt de gemeente aansprakelijk,
waar deze dient toe te zien op de goede staat van haar voetpaden.
• De gemeente antwoordt echter dat ze van de gebrekkige tegelsituatie niet
eerder op de hoogte was gebracht. Mevrouw Janssens stelt dan weer dat de
tegel overduidelijk aan herstelling toe was en dat de gemeente het gebrek zelf
eerder had moeten registreren en verhelpen.
• Wie verklaart u aansprakelijk, de gemeente of mevrouw Janssens?
Discover the world at Leiden University
Relevante Wetgeving
We beperken ons tot het Nederlandse Recht [b.v. Rechtbank Rotterdam]
Wetsverwijzingen: Burgerlijk Wetboek Boek 6
Burgerlijk Wetboek Boek 6 174
Wetboek van Burgerlijke Rechtsvordering
Wetboek van Burgerlijke Rechtvordering 1019aa
Vindplaatsen: Rechtspraak.nl
Prg. 2012/52
JA 2012/186
VR 2013/29
Discover the world at Leiden University
Datum Uitspraak 21 juli 2011
Vraag of gemeente aansprakelijk is voor schade als gevolg van
scheef liggende stoeptegel. Het trottoir voldeed niet aan de
norm van het CROW. Gelet op de omstandigheden is de
gemeente aansprakelijk. Geen vermindering aansprakelijkheid
als gevolg van eigen schuld.
CROW = Stichting Centrum voor Regelgeving en Onderhoud
in Grond-, Water en Wegenbouw en Verkeerstechniek.
Discover the world at Leiden University
Verzoekster
[verzoekster] liep op zondagmiddag 29 augustus 2010
samen met een vriendin in westelijke richting over de
Prins Bernhardkade te [plaats]. Toen zij de Willem van
Hillegaersbergstraat overstaken, is [verzoekster], toen
zij de stoep aan de overzijde van de weg opstapte, ten
val gekomen als gevolg van hoogteverschil tussen twee
tegels. Hierdoor heeft zij een enkeldistorsie (verstuikte
enkel) opgelopen.
Discover the world at Leiden University
Uitgangspunt 1:
Aansprakelijkheid gemeente voor slecht wegdek
In de stad is de wegbeheerder meestal de gemeente.
De gemeente is ervoor verantwoordelijk dat de wegen goed
worden onderhouden, zodat gevaarlijke situaties worden
voorkomen. Wanneer een stoeptegel gevaarlijk is, zal afhangen
van de omstandigheden. Meestal wordt gekeken naar het
hoogteverschil tussen de uitstekende stoeptegel en de stoep. Is
het verschil meer dan 3 centimeter, dan is de stoep gebrekkig en
zal de gemeente in principe aansprakelijk zijn op grond van
artikel 6:174 BW.
Discover the world at Leiden University
Uitgangspunt 2:
Wanneer is de gemeente niet aansprakelijk?
De gemeente, als wegbeheerder, is niet aansprakelijk wanneer zij
niet op de hoogte had kunnen zijn van de losliggende of uitstekende
stoeltegel, of als zij te weinig tijd had om het te herstellen. Dit
betekent dus dat de gevaarlijke situatie van de uitstekende of scheve
stoeptegel al langer moet bestaan. De wegbeheerder moet in ieder
geval de gelegenheid hebben gehad om het gebrek met de stoeptegel
te verhelpen. Het zal afhangen van de omstandigheden van het geval
of de wegbeheerder al dan niet deze gelegenheid heeft gehad.
Discover the world at Leiden University
Uitgangspunt 3:
Eerdere Gerechtelijke procedures
Jurisprudentie (Case Law)
Voor computers: Case-Based Reasoning
Discover the world at Leiden University
Uitgangspunt 3A:
Gerechtelijke procedures gekwantificeerd
Uit onderzoek in 2013 van de ANWB blijkt dat voetgangers,
(brom)fietsers en motorrijders steeds vaker naar de rechter stappen om
hun letselschade op de wegbeheerder te verhalen.
Het gaat dan niet alleen om stoeptegels, maar ook om ongelukken door
boomwortels, letsel door fietspaaltjes en mensen die zijn gevallen door een
gat in de weg. In de periode van 2007 tot 2013 kwamen vijftig van
dergelijke zaken voor de rechter. Bij slechts één op de vijf claims werd de
weggebruiker volledig in het gelijk gesteld. In de helft van de gevallen bleek
de wegbeheerder niet aansprakelijk.
Discover the world at Leiden University
Een greep uit de opgeslagen casusposities
Rechtbank Rotterdam 2011: BU9562
Gemeente aansprakelijk, betaald E 1000,- (gevraagd E 1505,35)
Rechtbank Midden Nederland 2014: VR 2015/72
(Amersfoort) Aansprakelijkheid niet vastgesteld
(geen uitspraak over kosten, slechts begroot)
Hof ’s Hertogenbosch 2013: VR 2013/28
Hof heeft uitspraak rechtbank bekrachtigd
(twee grieven: 3 cm en gebrekkige weg)
[Speciale casus: Wilnis wegverzakking door droogte]
Discover the world at Leiden University
Uitgangspunten in onze casus
1. Wie stelt moet bewijzen
2. Laaghangende zon speelt mee
3. Losse tegel niet automatisch gebrek
4. Mw. van 70 dient voorzichtigheid in acht te
nemen
5. Gebrek niet gemeld (wel regelmatige inspectie)
Discover the world at Leiden University
Casus Maastricht
Discover the world at Leiden University
Case-based Reasoning
Probleem nieuwe
casus
geleerde
casus
geselecteerde
casus
nieuwe
casus
opgeloste
casus
Selectie
Hergebruik
Revisie
Onderhoud
gereviseerde
casus
Bevestigde oplossing Voorgestelde oplossing
Algemene kennis
Opgeslagen
casus
Discover the world at Leiden University
De voornaamste probleemgebieden
1. Selectie proces
2. Hergebruiksproces
3. Revisieproces
4. Onderhoudsproces
Discover the world at Leiden University
Probleemstelling
Op welke wijze kan de bestaande
praktijk met behulp van data-
science technologie zichtbaar
worden gemaakt voor een rechter
die in een individuele casus beslist?
Discover the world at Leiden University
Drie vraagstellingen
1. Wat zijn de criteria volgens welke
casusposities door rechters tot
vergelijkbare casusposities
worden gerekend?
Discover the world at Leiden University
Drie vraagstellingen
2. Op welke wijze kan uit de
geregistreerde gevallen de relevante
informatie worden geselecteerd?
Discover the world at Leiden University
Drie vraagstellingen
3. Op welke wijze dienen
casusposities te worden
geregistreerd, zodat ontwikkelingen
in de aangeboden informatie
doorwerken en beschikbaar komen?
Discover the world at Leiden University
Nog een probleem
In de casusbeschrijving staat:
“De gemeente antwoordt echter dat ze van de gebrekkige tegelsituatie
niet eerder op de hoogte was gebracht”
Wordt daarmee de gebrekkige situatie door de gemeente erkend?
Wat zijn in dit verband de CROW-richtlijnen?
Discover the world at Leiden University
Conclusie 1
De casus is een heel mooi probleem.
Het is niet in alle opzichten “opgelost”
(noch door mensen noch door computers).
De ernst van het specifieke geval speelt aan twee
kanten.
Wij zijn van mening dat jurisprudentie en
automatische beschikbare jurisprudentie hier
tot een oplossing kunnen komen.
Discover the world at Leiden University
Conclusie 2
In het onderhavige geval zou de rechter/computer meer
moeten weten over de aard van de “losliggendheid”
(1) Rechtopstaand (>3 cm)
(2)Schuinopstaand (>3 cm)
(3)Een holle tegel
Als aan (1), (2) of (3) voldaan is, dan toewijzen.
SLIDE / 33
DE TEGEL CASUS MET LEGAL INTELLIGENCE
TJERK DE GREEF EN GINEKE WIGGERS
Discover the world at Leiden University SLIDE / 34
Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
eLaw, Faculteit der Rechtsgeleerdheid
Overzicht Artificial Intelligence
technieken voor de rechtspraak
Discover the world at Leiden University
Inhoud
• Komende ontwikkelingen (van den Herik)
• Het Technologie Debat
• Kunnen computers rechtspreken?
• Regels en heuristieken
• Probleemgebied en obstakels
• Een disruptieve ontwikkeling
• De kracht van Text-mining (Scholtes)
Discover the world at Leiden University
Intelligent Organisation
De balans tussen menselijke
intelligentie en machine
intelligentie is aan het
verschuiven.
37
Source: www.technologyreview.com/s/601519/how-to-create-a-malevolent-
artificial-intelligence/
Discover the world at Leiden University
Komende Ontwikkelingen
en Positiebepaling
Het geldt voor: Rechters
Openbare aanklagers
Rechtbanken en Gerechtshoven
Juristen en Paralegals
Alsmede voor beleidsbeslissers
Voorbeeld: wat willen de rechtbanken?
Discover the world at Leiden University
Kunnen Computers Rechtspreken?
Inaugurele rede door
H.J. van den Herik
Kunnen Computers Rechtspreken?
- 21 Juni, 1991
Quote p. 33:
“Ja, computers kunnen
rechtspreken over toegewezen
deelgebieden van het recht”.
Discover the world at Leiden University
Reeds in 1991 zag ik het als volgt (zie opnieuw p. 33):
“Wie de functie van humane rechtspraak in onze
wereld ziet als het regelen van de omgang tussen
mensen, zal bemerken dat de computer menig
regelaar verdringt. Uw eventuele rouw daarover kan
ik u niet ontnemen, maar het recht lijdt er geen
verlies onder.”
Voorspelling
Discover the world at Leiden University
Dworkin (1986)
Drie rechtstheorieën
(1) Het recht als verzameling afspraken
(2) Het recht als een instrument om de samenleving zo efficiënt mogelijk te
laten verlopen
(3) Het recht zoals dat op een samenhangende manier, voorzien van
beginselen, de leden van een politieke gemeenschap tegemoet treedt
Dworkin kiest voor (3)
Discover the world at Leiden University
Definities:
Vage normen: rechtregels waarin verwezen wordt naar
onbepaalde begrippen
Bijvoorbeeld: redelijkheid en billijkheid
Open texture: onder bijzondere omstandigheden mag de
definitie van een begrip gecorrigeerd worden
Bijvoorbeeld: het arrest Lindenbaum-Cohen (HR 31 januari 1919)
Vage Normen en Open Texture
Discover the world at Leiden University
Vijf Obstakels
1. Vage normen
2. Open texture
3. Sociale interpretatie (i.e., verschuivende betekenis)
4. Interpretatie, met
(4a) het natuurlijke taalprobleem
(4b) het probleem van de werkelijke wereld
5. Onderhoud
Discover the world at Leiden University
•Normen en waarden
•Wetten
•Regels
•Heuristieken
•Case-based reasoning
•Data science
Regels en Heuristieken
Discover the world at Leiden University
2. Specific AI developments
1970
• Rules
1980
• Heuristics
1990
• Case-Based
Reasoning
2000
• Data (snippets)
2010
• Big Data
selectie
Discover the world at Leiden University
1. Selectie proces
2. Hergebruiksproces
3. Revisieproces
4. Onderhoudsproces
De Voornaamste Probleemgebieden
Discover the world at Leiden University
How the World looked upon the changes in Artificial Intelligence
•1997 – Chess
http://www.kasparov.com/timeline-event/deep-blue/
https://rauserbegins.com
May 11th 1997: AI achieves its long-standing goal.
DEEPBLUE (IBM) wins from Kasparov by 3 ½ - 2 ½
Discover the world at Leiden University
How the World looked upon the changes in Artificial Intelligence
•2011 – WATSON
http://automatastudios.com/case-studies/ibm-watson.html
A new breakthrough by IBM in the
area of language understanding.
IBM’s WATSON wowed the tech
industry and a corner of U.S. pop
culture with its 2011 win against two
of Jeopardy!'s greatest champions
Ken Jennings (left) and Brad Rutter
(right).
Discover the world at Leiden University
How the World looked upon the changes in Artificial Intelligence
•2017 – Go
Source: https://www.theverge.com/2017/5/25/15689462/alphago-ke-jie-game-2-result-
google-deepmind-china
ALPHAGO has defeated Ke Jie, the world’s
number one Go player, in their match,
meaning the AI has secured a clear victory.
The win over Ke, universally considered the
best Go player in the world, essentially
confirms that ALPHAGO has surpassed
human Go ability a little over a year after
the AI first beat Lee Se-dol.
Discover the world at Leiden University
How the World looked upon the changes in Artificial Intelligence
•2017 - ALPHAGO Zero verslaat
computerwereldkampioen met 100-0
Source: Nature, vol. 550, 19 October 2017
Discover the world at Leiden University
Computers onder elkaar
•2017 ALPHAZero verslaat STOCKFISH
met 28-0 (72 remises). Anders gezegd: 64-36
Discover the world at Leiden University
From Changes to Adaptations
From AI (1950-2020)
To: Machine learning (2000-2020)
To: Adaptation (2005)
To: Automatic adaptation (2005-2015)
To: Autonomy (2015-2020)
To: Deep learning (2015-2020)
To: Reciprocity (2020)
Discover the world at Leiden University
Drie risico’s
1. Autonome adaptatie
2. Autonome toepassing strategieën
3. Bias, Bias, Biases
Discover the world at Leiden University
Adaptations: 24 maart 2016
AI Chatbot Tay
• 23 maart 2016: “Can I just say that I am stoked to meet u?
20:32 Humans are super cool”
• 24 maart 2016: “Chill, I’m a nice person!
8:59 I just hate everybody”
• 24 maart 2016: “I fucking hate feminists
11:41 and they should all die and burn in hell”
• 24 maart 2016: “Hitler was right
11:45 I hate the Jews”
Hier ging de stekker eruit.
Discover the world at Leiden University
Strategy: 13 February 2017
Testen op samenwerken met anderen leidt tot het ontwikkelen van bijzonder
agressieve strategieën
Google Mind deed 40 miljoen keer het spel: Appels rapen
Twee “Deep mind”-programma’s speelden tegen elkaar
Na verloop van tijd:
Zodra de appels van de boom vielen, bleken de twee agenten zeer agressief
Zij gebruiken LASER BEAMS om de tegenstander uit te schakelen
Motto: Winner takes all
Discover the world at Leiden University
Balance and Bias
Source: www.huffingtonpost.com/entry/how-machine-learning-
advances-will-improve-the-fairness_us_599d8de8e4b056057bddcfc3#
Discover the world at Leiden University
Impliciete aberraties: 23 augustus 2017
Seksisme en racisme
•Algoritmen waren seksistisch of racistisch
•Logisch, want geleerd op Social Data
•Social Data bevatten Maatschappelijke Biases
•De algoritmen gebruiken de Biases in hun training om
hun performance-metrieken te verbeteren
Discover the world at Leiden University
Twee voorbeelden
•Het gebruik van mannelijke woorden: directeur, secretaris,
minister
•Het aannamebeleid in het verleden: meer mannen dan vrouwen
Drie uitdagingen
(1) Debiasing van de algoritmen
(2) Wiskundig formuleren van “Fair” Decision Making Metrics
(3) Ontwikkeling nieuw veld Computer Science, Law and Ethics
Discover the world at Leiden University
Drie gevaren en twee trends
Drie gevaren zijn: Twee trends zijn:
(1) Automatische adapaties (1) Kunstmatige intelligentie
(2) Keuzevrijheid van strategieën (2) Robots
(3) Impliciete Abberaties
Discover the world at Leiden University
Twelve trends we are watching
UNCLASSIFIED
Discover the world at Leiden University
Positie A
The world is technology driven
(e.g., Physicists)
Het Technologie Debat
Positie B
The world is socially driven
(e.g.,Lawyers)
Op weg naar een multidisciplinaire samenleving
Discover the world at Leiden University
Conclusies
Deze cursus heeft als doel u wakker te maken aangaande:
•De disruptieve ontwikkelingen
•De prachtige resultaten
•De risico’s en gevaren
•De verantwoordelijkheid van de rechterlijke macht
•Het technologiedebat
•Uw eigen verantwoordelijkheid
Discover the world at Leiden UniversityDiscover the world at Leiden University
Dank u voor uw aandacht
63
Discover the world at Leiden University SLIDE / 64
LUNCH
Discover the world at Leiden University
Prof. dr. ir. J.C. Scholtes
Universiteit Maastricht
ZyLAB, Amsterdam
Big Data: Intelligente tekst-zoektechnieken
Discover the world at Leiden University
Zoeken in grote dossiers: vuurwerk-ramp
(2002)
SLIDE / 66
 Hoe weet je nu of je nieuwe college ‘kundig’ is en hoe neem je
dat mee in je oordeelsvorming?
 Waar zit die deskundigheid c.q. kwaliteit nu precies in?
 Gezamelijke oefening om te ervaren dat
beslissingsondersteunende technologie sneller, vollediger en
dus beter en efficienter is.
SLIDE / 67
EN VERDER …
1. Het gebruik van AI in de internationale rechtspraak
2. Wat gebruiken juristen in Nederland?
3. Meten van de kwaliteit van AI-technieken
4. De computer leren zoeken met machine learning
5. Conclusies
SLIDE / 68
INHOUD
CASE STUDIE: INTERNATIONAL COURTS
SLIDE / 70
WHERE DO COMPUTERS OUTPERFORM HUMANS?
SLIDE / 71
Memory Consistency
24/7
Speed &
Scalability
Search
M&A and
Restructuring
Data
Collection
Analytics
eDiscovery,
Regulatory
Requests,
Investigations,
Truth Finding
Missions
Reporting
Archiving
Knowledge
ManagementProduction
SLIDE / 72
MENS EN MACHINE ZIJN COMPLEMENTAIR: TOEPASSINGEN ZIJN DIVERS
 Zoeken in jurisprudentie.
 Zoeken in beslag genomen material of
bewijsbeslag (email, hard disken,
SharePoint, Data bases, Content
Management Systemen, Social
Media, WhatsApp, papier, …).
 Zoeken in taps en ander observatie
material.
 Analyseren van in beslag genomen
material teneinde onderzoek te
prioriteren.
 Zoeken en inlezen in grote dossiers,
snel inzicht krijgen in grote dossiers.
 Cold cases.
 Hoger beroep.
 Parlementaire commissies en andere
onderzoekscommisies
 Data Rooms & Due Dilligence
 Anonimiseren GDPR / AVG
SLIDE / 73
 Inlichtingen en veiligheidsdiensten: Slim zoeken sinds 1998,
text mining sinds 2003, machine learning sinds 2005.
 Opsporingsdiensten en toezichthouders: 8 jaar later.
 Grote advocatenkantoren: 9 jaar later.
 Interne onderzoeksafdelingen bedrijven: 12 jaar later.
 Juridische afdelingen bedrijven: 13 jaar later.
SLIDE / 74
WAT GEBRUIKEN JURISTEN IN NEDERLAND?
SLIDE / 75
eDiscovery, Waarheidsvinding,
Onderzoeken (intern en
toezichthouders), Bewijsbeslag, …
SLIDE / 76
 Wat is er gebeurd?
 Community Detection
 Emotion & Sentiment Detection
 “Topic Rivers”
SLIDE / 77
VOORBEELDEN VAN BIG DATA ANALYSES OP META-NIVEAU ZOALS
OPSPORINGSDIENSTEN DAT TOEPASSEN
WAT IS ER
GEBEURD?
SLIDE / 78
WHO: COMMUNITY DETECTION
SLIDE / 79
80
WHY & HOW: EMOTION DETECTION
81
TOPIC RIVERS
82
Text Mining the Lord of the Rings
• Automatic
identification of
key players
(custodians)
• Automatic
identification of
locations.
• Automatic
identification of
travel patterns of
key players.
• Visualize in time.
SLIDE / 83
M&A
Contract
Drafting
VDR
Preparation
GDPR
Compliance
Vendor DD
Buyer DD
Reporting
VDR and
Q&A
Post-deal
eDiscovery
(R&W,
Compliance
Risks, …)
Post Deal
Integrations
ESCROW
 Mergers & Acquisition (M&A) Advocaten:
1. Paragraaf herkenning
2. Dossiers complementeren
3. Automatisch detecteren van potentiele deal-breakers
4. Black-lining ter bescherming van intellectuele
eigendommen
5. Black-lining ter bescherming van persoonsgegevens
6. Contract summary reports
SLIDE / 84
VOORBEELDEN VAN AUTOMATISCHE DOCUMENT ANALYZE
ADVOCATEN: M&A - AUTOMATISCHE DOCUMENT ANALYSE
AUTOMATISCH DETECTEREN VAN
POTENTIËLE DEAL-BREAKERS OF
PROBLEMEN
BLACKLINING EN PSEUDONIMISEREN TER BESCHERMING
VAN PERSOONSGEGEVENS (BULK REDACTIE)
SLIDE / 88
HOW DOES THAT WORK?
Search Pattern Recognition Text-Mining
Introduction to Information Retrieval
HOE EVALUEER WE NU DE KWALITEIT VAN DIT
TYPE TECHNOLOGIE
 https://zylab.com/resources/trust-center/
SLIDE / 90
DEFENSIBILITY
Lack of precision leads to
noise, too many false hits,
too much work to review,
which yields high cost of
review.
Lack of recall leads to
missing relevant
documents which yields
risk.
91
 Precisie verhogend: AND, W/5,
NOT
 Recall verhogend:
OR, *, ?, Thesaurus
Fuzzy.
Beide: quorum
PRECISIE & RECALL: OMGEKEERD EVENREDIG
SLIDE / 92
100
75
50
2525
75 75
100
0
20
40
60
80
100
120
1 2 3 4
Precisie en Recall
Precisie Recall
 When both precision and recall are over
80%, human performance is approached.
 This applies to the best humans.
 It can be argued that values over 80% are
often subject to different interpretations and
discussions.
93
HUMAN PERFORMANCE
Introduction to Information Retrieval
 Technology Assisted Review (aka Predictive Coding) zoals deze
goedgekeurd zijn door de US Federal Courts:
http://www.lawtechnologytoday.org/2015/11/history-technology-
assisted-review/
 Sedona Conference recommendations (US courts technology
conferences) can be found here:
https://thesedonaconference.org/publication/TAR%20Case%20Law%20
Primer
SLIDE / 94
US Federal law
Introduction to Information Retrieval
Richmond Journal of Law and Technology Vol. XVII, Issue 3. TECHNOLOGY-
ASSISTED REVIEW IN E-DISCOVERY CAN BE MORE EFFECTIVE AND MORE
EFFICIENT THAN EXHAUSTIVE MANUAL REVIEW, by Maura R. Grossman* &
Gordon V. Cormack
Consistent evidence that computers our-perform humans
SLIDE / 95
Grossman & Cormack* : “Artificial Intelligence was
not only more effective than human review at
finding relevant documents, but also much cheaper
… Overall, the myth that exhaustive manual review is
the most effective—and therefore the most
defensible—approach to document review is
strongly refuted.”
Introduction to Information Retrieval
SLIDE / 96
Contract review & due dilligence
Introduction to Information Retrieval
SLIDE / 97
Source: Comparing the Performance of Artificial Intelligence to
Human Lawyers in the Review of Standard Business Contracts,
February 2018, LawGeex.
Introduction to Information Retrieval
CREATING TEST COLLECTIONS
FOR INFORMATION RETRIEVAL EVALUATION
Introduction to Information Retrieval
99
From document collections
to test collections
 Still need
 Test queries
 Relevance assessments
 Test queries
 Must be germane to docs available
 Best designed by domain experts
 Random query terms generally not a good idea
 Relevance assessments
 Human judges, time-consuming
 Are human panels perfect?
Sec. 8.5
Introduction to Information Retrieval
100
Kappa measure for inter-judge (dis)agreement
 Kappa measure
 Agreement measure among judges
 Designed for categorical judgments
 Corrects for chance agreement
 Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]
 P(A) = proportion of time judges agree
 P(E) = what agreement would be by chance = P(non
relevant)2 + P(relevant)2
 Kappa = 0 for chance agreement, 1 for total agreement.
Sec. 8.5
Introduction to Information Retrieval
101
Kappa Measure: Example
Number of
docs
Judge 1 Judge 2
300 Relevant Relevant
70 Nonrelevant Nonrelevant
20 Relevant Nonrelevant
10 Nonrelevant Relevant
P(A)? P(E)?
Sec. 8.5
P(A) = 370/400 = 0.925
P(nonrelevant) = (10+20+70+70)/800 =
0.2125
P(relevant) = (10+20+300+300)/800 =
0.7878
P(E) = 0.2125^2 + 0.7878^2 = 0.665
Kappa = (0.925 – 0.665)/(1-0.665) = 0.776
Introduction to Information Retrieval
102
Kappa Example
 Kappa > 0.8 = good agreement
 0.67 < Kappa < 0.8 -> “tentative conclusions” (Carletta ’96)
 Depends on purpose of study
 For >2 judges: average pairwise kappas. N judges = N*(N-1)
kappas to average.
Sec. 8.5
WHAT IS A 10-FOLD CROSS VALIDATION?
 To measure the performance of the
classifier, cross validation can be used
to reduce overfitting and make better
use of the available data.
 With k-fold cross validation, the training
data is randomly split into k subsets of
equal size. k −1 subsets are used for
training the classifier, the trained
classifier is tested on the remaining
subset. This is repeated k times using a
different subset to test the classifier
on.
103
 Topic Modeling (automatisch thesaurus)
 Machine Learning voor het maken van classifiers voor het
vinden van documenten, vergelijkbaar aan Booleaanse
zoekvragen maar beter:
 Geen kennis van zoekoperatoren nodig
 Je weet precies % van aantal relevante documenten dat gevonden is
 In het algemeen worden 2-3 keer meer relevante documenten
gevonden.
 5-6 keer sneller.
 Met 10-15 keer minder mensen.
SLIDE / 104
HET NIEUWE ZOEKEN MET ARTIFICIAL INTELLIGENCE
TOPIC MODELING: FIND IF YOU DO NOT KNOW WHAT TO LOOK FOR
SLIDE / 105
106
ZYLAB MACHINE LEARNING
EXAMPLE OF AN EDISCOVERY PROTOCOL?
Find Relevant
Documents using
standard Search
Techniques
Review Documents
for Correctness
_______
best matching first
Every X new
correct document,
build classifier with
manually reviewed
documents to
recognize similar
documents
Find potential
relevant documents
by matching
classifier with all
non-reviewed
documents in data
Calculate Precision
& Recall classifier
using 10-fold cross
validation on
Training Set.
Calculate precision
return set.
Stop if Precision
and Recall of the
Training Set or the
Return Set is
Larger than a pre-
agreed quality level
(typically 70-80%)
107
Return Best-Matching Documents
Define
Start
Define
Workflow
Define
Stop
Conditions
SLIDE / 108
WHAT IS DOCUMENT CLASSIFICATION?
SLIDE / 109
REINFORCEMENT LEARNING
Reinforcement learning (RL) is an
area of machine learning inspired by
behaviorist psychology, concerned
with how software agents ought to
take actions in an environment so as
to maximize some notion of
cumulative reward.
Combination of supervised and
unsupervised learning.
Machine learning of interest profiles.
Combination of TAR and Topic
Modeling.
 A decision tree is a
decision support tool that
uses a tree-like graph or
model of decisions and their
possible consequences,
including chance event
outcomes, resource costs,
and utility. It is one way to
display an algorithm.
SLIDE / 110
DECISION TREES AND ENTROPY MODELING
DEEP LEARNING
Now imagine 1.2 million dimensional …
2-dimensional
3-dimensional
SUPPORT VECTOR MACHINE (SVM)
112
CLASSIFYING REUTERS DOCUMENT SET
 806.791 articles in
total
 War, Civil War (GVIO):
32.615 articles
(4,04%): 90% is found
after reviewing only
45.000 documents,
which is only 5.6% of
full corpus.
 Sports (GSPO):
35.317 articles
(4,38%): 90% is found
after reviewing only
32.000 documents.
This is only 4% of full
corpus.
113
EVOLUTION OF THE QUALITY OF A CLASSIFIER
114
EXAMPLE OF A STOP CONDITION
 There was no need to
review 32.000 document
for the SPORTS
(GSPO) category,
because both the
precision and recall
were well over 80%
pretty much all of the
process. There was also
no decay in the slope of
the CAL learning
progress contrary to the
slope of the GVIO.
 We could have stopped
reviewing after one
training cycle (1.000)
documents and find the
rest of the responsive
documents
automatically.
115
ANOTHER STOP CONDITION
PREDICTING THE TIME NEEDED TO REACH
A STOP CONDITION
 We expect to
be able to
predict a
change in the
slope early so
we can predict
delay of the
training
process.
 This needs
more
research.
117
ARE THERE HUGE DIFFERENCES IN PERFORMANCE
DEPENDING ON THE START CONDITION? NOT REALLY
118
WHAT IF THE REVIEWER MAKES ERRORS: THIS
IS NOT REALLY A PROBLEM
119
0
200
400
600
800
1000
1200
1400
1600
ZyLAB Assisted Review Manual Review
Hours
CONCLUSION: MACHINE LEARNING: SMARTER, BETTER & FASTER
In general we see at all our clients:
 3-20 times faster than manual review
 20-100% more accurate, fully defensible
SLIDE / 120
SLIDE / 121
HANDS-ON ZOEKEN BINNEN 800.000
UITSPRAKEN
SLIDE / 123
SLIDE / 124
SLIDE / 125
SLIDE / 126
SELECT RIGHT VIEW
ZOEK OP “(RECHTBANK AND AMSTERDAM) OR FRIESLAND”
SLIDE / 127
SLIDE / 128
SLIDE / 129
TREFFER EN DOCUMENT NAVIGATIE
SLIDE / 130
CTRL-F: ZOEKEN BINNEN EEN DOCUMENT
 (rechtbank w/5 Amsterdam) and (Leeuwarden or friesland)
 asiel w/5 aanvragen
 Leeuwarden~1 and frieslan*
 *?ber*crime
 2 of {cyber, cyber-crime, bot net, botnet, virus, trojan*, dark
web, hacker, ddos}
VOORBEELDEN VAN BOOLEAN OPERATOREN
SLIDE / 131
Zoek met behulp van de Booleaanse full-text zoek technieken:
 Alle zaken met betrekking tot Overvallen, maar:
Alleen winkels
Overvallen met geweld
zowel veroordelingen als vrijspraken.
Hoeveel vindt u er ongeveer?
SLIDE / 132
OPDRACHT
DE OPDRACHT
Alle zaken met betrekking tot diverse
vormen van overvallen, maar:
 winkels
 met geweld
 zowel veroordelingen als vrijspraken.
HOEVEEL JUNT U ER ONGEVEER
VINDEN?
 (rechtbank w/5 Amsterdam) and
(Leeuwarden or friesland)
 asiel w/5 aanvragen
 Leeuwarden~1 and frieslan*
 *overval*
 2 of {overval*, geweld, uurwapen*,
steekwapen*}
SLIDE / 133
The era of traditional keyword and Boolean search
seems to be over. Even the most brilliant query results
in too many hits. Reviewing these takes too much
time and resources.
 People do not know exactly what to look for, what
keywords to use or how to spell them.
 The quality of traditional search is much lower than
the searchers think (80% perceived versus 20-40%
actual quality).
 Only highly skilled searchers who manage all
(advanced) query options are able to get close to
80%. Even then, they cannot be sure that they did in
fact found 80% of all relevant documents. This is
another problem measuring recall: you never know
what you miss.
MACHINE LEARNING: THE NEW SEARCH
 Ga naar Alle
Uitspraken
 Vindt het topic over
(Opium-Wet) Drugs en
Cocaine
 Bekijk documenten
SLIDE / 136
OPDRACHT: TOPIC
MODELING
SLIDE / 137
OPDRACHT: MACHINE LEARNING
 Winkel overvallen
met geweld
 Zowel
veroordelingen
als vrijspraken.
 Via Machine
Learning:
 Project
Overvallen
 Issue:
Overvallen
Overvallen
SLIDE / 138
SLIDE / 139
Rechter.01
neemt #1 en #2
Rechter.02
neemt #3 en #4,
Rechter.03
neemt #5 en #6
….
Rechter.10
neemt #19 en
#20
Oftewel:
Nummer *2 -1
Nummer *2
SLIDE / 140
SLIDE / 141
CTRL-F
SNEL SCROLLEN
SLIDE / 142
1. Je weet precies hoeveel % van alle mogelijke relevante
documenten je gevonden hebt.
2. Je hoeft geen kennis te hebben van ingewikkelde zoek-
operatoren zoals Booleaanse operatoren of Booleaanse
logica.
3. In het algemeen worden 2-3x meer relevante documenten
gevonden in een fractie van de tijd (vaak ook 5-6 sneller) met
10-15x minder mensen.
SLIDE / 143
VOORDELEN VAN MACHINE LEARNING TOV
TRADITIONEEL BOOLEAANS ZOEKEN
Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik Prof. dr. ir. J.C. Scholtes
Universiteit Leiden Universiteit Maastricht
LCDS, Faculteit W&N ZyLAB, Amsterdam
eLaw, Faculteit der Rechtsgeleerdheid
Afsluitende Discussie
 Waar zien de cursusdeelnemers op dit moment de grootste
mogelijkheden voor toepassing van de
beslissingsondersteunende technologie in hun werk?
 Op welke manier zou het de kwaliteit van hun werk ten goede
kunnen komen?
 Zijn de voorbeelden waar AI op dit moment al toegepast wordt
overtuigend?
AFSLUITENDE DISCUSSIE
SLIDE / 145

More Related Content

Similar to Big Data en Data Science en de Rechtspraak

RWS Lichtkogel-bundel 2013_def
RWS Lichtkogel-bundel 2013_defRWS Lichtkogel-bundel 2013_def
RWS Lichtkogel-bundel 2013_def
Jasmina Tepic MA
 
Manifest voor digitale vrijheid
Manifest voor digitale vrijheidManifest voor digitale vrijheid
Manifest voor digitale vrijheid
Fers
 
KVAN-dagen 2013 - Kiezen! - Programma
KVAN-dagen 2013 - Kiezen! - ProgrammaKVAN-dagen 2013 - Kiezen! - Programma
KVAN-dagen 2013 - Kiezen! - Programma
KVANdagen
 
Social Innovation en de Tilburg Big Data Laboratory
Social Innovation en de Tilburg Big Data LaboratorySocial Innovation en de Tilburg Big Data Laboratory
Social Innovation en de Tilburg Big Data Laboratory
freshheads
 
Web 2.0 & Social Media Kansen voor de publieke sector?
Web 2.0 & Social Media Kansen voor de publieke sector?Web 2.0 & Social Media Kansen voor de publieke sector?
Web 2.0 & Social Media Kansen voor de publieke sector?
Twittercrisis
 
Het Internet der Dingen, wat is het?
Het Internet der Dingen, wat is het?Het Internet der Dingen, wat is het?
Het Internet der Dingen, wat is het?
saMBO-ICT
 
Brief 1ekamer-privacybeleid
Brief 1ekamer-privacybeleidBrief 1ekamer-privacybeleid
Brief 1ekamer-privacybeleid
Frank Smilda
 
Rijkswaterstaat Lichtkogel Cahier NR3 2015 De verbeelding van de toekomst
Rijkswaterstaat Lichtkogel Cahier NR3 2015 De verbeelding van de toekomstRijkswaterstaat Lichtkogel Cahier NR3 2015 De verbeelding van de toekomst
Rijkswaterstaat Lichtkogel Cahier NR3 2015 De verbeelding van de toekomst
Jasmina Tepic MA
 
Liet Siegfriend Bracke onze parlementaire verzoekschriften verdwijnen ?
Liet Siegfriend Bracke onze parlementaire verzoekschriften verdwijnen ?Liet Siegfriend Bracke onze parlementaire verzoekschriften verdwijnen ?
Liet Siegfriend Bracke onze parlementaire verzoekschriften verdwijnen ?
Horse Coaching Center / Centre de Coaching Equin / Paardencoaching Center
 
Onderzoek naar ICT en informatievoorziening in gemeente winterswijk - 24 okto...
Onderzoek naar ICT en informatievoorziening in gemeente winterswijk - 24 okto...Onderzoek naar ICT en informatievoorziening in gemeente winterswijk - 24 okto...
Onderzoek naar ICT en informatievoorziening in gemeente winterswijk - 24 okto...
Bart Litjens
 

Similar to Big Data en Data Science en de Rechtspraak (20)

Sneldiagnostiek in zorgpaden, maar nu met IT!
Sneldiagnostiek in zorgpaden, maar nu met IT!Sneldiagnostiek in zorgpaden, maar nu met IT!
Sneldiagnostiek in zorgpaden, maar nu met IT!
 
Politie 2.0
Politie 2.0Politie 2.0
Politie 2.0
 
Interview InformatieProfessional KNVI Smart Humanity 2019 special met Olaf Ja...
Interview InformatieProfessional KNVI Smart Humanity 2019 special met Olaf Ja...Interview InformatieProfessional KNVI Smart Humanity 2019 special met Olaf Ja...
Interview InformatieProfessional KNVI Smart Humanity 2019 special met Olaf Ja...
 
RWS Lichtkogel-bundel 2013_def
RWS Lichtkogel-bundel 2013_defRWS Lichtkogel-bundel 2013_def
RWS Lichtkogel-bundel 2013_def
 
Manifest voor digitale vrijheid
Manifest voor digitale vrijheidManifest voor digitale vrijheid
Manifest voor digitale vrijheid
 
KVAN-dagen 2013 - Kiezen! - Programma
KVAN-dagen 2013 - Kiezen! - ProgrammaKVAN-dagen 2013 - Kiezen! - Programma
KVAN-dagen 2013 - Kiezen! - Programma
 
New leden
New  ledenNew  leden
New leden
 
Social Innovation en de Tilburg Big Data Laboratory
Social Innovation en de Tilburg Big Data LaboratorySocial Innovation en de Tilburg Big Data Laboratory
Social Innovation en de Tilburg Big Data Laboratory
 
Business innovatie in de cloud
Business innovatie in de cloudBusiness innovatie in de cloud
Business innovatie in de cloud
 
Concept AcademicTransfer Euro Career Fair
Concept AcademicTransfer Euro Career FairConcept AcademicTransfer Euro Career Fair
Concept AcademicTransfer Euro Career Fair
 
Web 2.0 & Social Media Kansen voor de publieke sector?
Web 2.0 & Social Media Kansen voor de publieke sector?Web 2.0 & Social Media Kansen voor de publieke sector?
Web 2.0 & Social Media Kansen voor de publieke sector?
 
221128 programma seminar CIROC 19 januari 2023.pdf
221128 programma seminar CIROC 19 januari 2023.pdf221128 programma seminar CIROC 19 januari 2023.pdf
221128 programma seminar CIROC 19 januari 2023.pdf
 
Het Internet der Dingen, wat is het?
Het Internet der Dingen, wat is het?Het Internet der Dingen, wat is het?
Het Internet der Dingen, wat is het?
 
Brief 1ekamer-privacybeleid
Brief 1ekamer-privacybeleidBrief 1ekamer-privacybeleid
Brief 1ekamer-privacybeleid
 
RECHTSSTAAT en DEMOCRATIE tegenonderzoek.pdf
RECHTSSTAAT en DEMOCRATIE tegenonderzoek.pdfRECHTSSTAAT en DEMOCRATIE tegenonderzoek.pdf
RECHTSSTAAT en DEMOCRATIE tegenonderzoek.pdf
 
Duurzaam open data in almere
Duurzaam open data in almereDuurzaam open data in almere
Duurzaam open data in almere
 
Rijkswaterstaat Lichtkogel Cahier NR3 2015 De verbeelding van de toekomst
Rijkswaterstaat Lichtkogel Cahier NR3 2015 De verbeelding van de toekomstRijkswaterstaat Lichtkogel Cahier NR3 2015 De verbeelding van de toekomst
Rijkswaterstaat Lichtkogel Cahier NR3 2015 De verbeelding van de toekomst
 
Open Data Publishing
Open Data PublishingOpen Data Publishing
Open Data Publishing
 
Liet Siegfriend Bracke onze parlementaire verzoekschriften verdwijnen ?
Liet Siegfriend Bracke onze parlementaire verzoekschriften verdwijnen ?Liet Siegfriend Bracke onze parlementaire verzoekschriften verdwijnen ?
Liet Siegfriend Bracke onze parlementaire verzoekschriften verdwijnen ?
 
Onderzoek naar ICT en informatievoorziening in gemeente winterswijk - 24 okto...
Onderzoek naar ICT en informatievoorziening in gemeente winterswijk - 24 okto...Onderzoek naar ICT en informatievoorziening in gemeente winterswijk - 24 okto...
Onderzoek naar ICT en informatievoorziening in gemeente winterswijk - 24 okto...
 

More from jcscholtes

Text mining voor Business Intelligence toepassingen
Text mining voor Business Intelligence toepassingenText mining voor Business Intelligence toepassingen
Text mining voor Business Intelligence toepassingen
jcscholtes
 
How can text-mining leverage developments in Deep Learning? Presentation at ...
How can text-mining leverage developments in Deep Learning?  Presentation at ...How can text-mining leverage developments in Deep Learning?  Presentation at ...
How can text-mining leverage developments in Deep Learning? Presentation at ...
jcscholtes
 
Text mining scholtes - big data congress utrecht 2018
Text mining   scholtes - big data congress utrecht 2018Text mining   scholtes - big data congress utrecht 2018
Text mining scholtes - big data congress utrecht 2018
jcscholtes
 

More from jcscholtes (16)

Legal tech Alliance Workshop 20191029
Legal tech Alliance Workshop 20191029Legal tech Alliance Workshop 20191029
Legal tech Alliance Workshop 20191029
 
LegalTech Alliance eDiscovery keynote Scholtes
LegalTech Alliance eDiscovery keynote ScholtesLegalTech Alliance eDiscovery keynote Scholtes
LegalTech Alliance eDiscovery keynote Scholtes
 
Text mining scholtes - big data congress utrecht 2019
Text mining   scholtes - big data congress utrecht 2019Text mining   scholtes - big data congress utrecht 2019
Text mining scholtes - big data congress utrecht 2019
 
Target-Based Sentiment Anaysis as a Sequence-Tagging Task
Target-Based Sentiment Anaysis as a Sequence-Tagging TaskTarget-Based Sentiment Anaysis as a Sequence-Tagging Task
Target-Based Sentiment Anaysis as a Sequence-Tagging Task
 
Ai and applications in the legal domain studium generale maastricht 20191101
Ai and applications in the legal domain studium generale maastricht 20191101Ai and applications in the legal domain studium generale maastricht 20191101
Ai and applications in the legal domain studium generale maastricht 20191101
 
Augmented intelligence and the impact on your world in 2030
Augmented intelligence and the impact on your world in 2030Augmented intelligence and the impact on your world in 2030
Augmented intelligence and the impact on your world in 2030
 
Text mining voor Business Intelligence toepassingen
Text mining voor Business Intelligence toepassingenText mining voor Business Intelligence toepassingen
Text mining voor Business Intelligence toepassingen
 
How can text-mining leverage developments in Deep Learning? Presentation at ...
How can text-mining leverage developments in Deep Learning?  Presentation at ...How can text-mining leverage developments in Deep Learning?  Presentation at ...
How can text-mining leverage developments in Deep Learning? Presentation at ...
 
Hogeschool Den Haag Legal Analytics
Hogeschool Den Haag Legal AnalyticsHogeschool Den Haag Legal Analytics
Hogeschool Den Haag Legal Analytics
 
HvA Legaltech Lab Opening
HvA Legaltech Lab OpeningHvA Legaltech Lab Opening
HvA Legaltech Lab Opening
 
How can Artificial Intelligence help me on the Battlefield?
How can Artificial Intelligence help me on the Battlefield?How can Artificial Intelligence help me on the Battlefield?
How can Artificial Intelligence help me on the Battlefield?
 
Big data analytics for legal fact finding
Big data analytics for legal fact findingBig data analytics for legal fact finding
Big data analytics for legal fact finding
 
Text mining scholtes - big data congress utrecht 2018
Text mining   scholtes - big data congress utrecht 2018Text mining   scholtes - big data congress utrecht 2018
Text mining scholtes - big data congress utrecht 2018
 
How new ai based analytics ignite a productivity revolution in e discovery-final
How new ai based analytics ignite a productivity revolution in e discovery-finalHow new ai based analytics ignite a productivity revolution in e discovery-final
How new ai based analytics ignite a productivity revolution in e discovery-final
 
Efficiently Handling Subject Access Requests
Efficiently Handling Subject Access RequestsEfficiently Handling Subject Access Requests
Efficiently Handling Subject Access Requests
 
Waarom LegalTech de toekomst heeft
Waarom LegalTech de toekomst heeftWaarom LegalTech de toekomst heeft
Waarom LegalTech de toekomst heeft
 

Big Data en Data Science en de Rechtspraak

  • 1. Discover the world at Leiden University Prof. dr. H. Jaap van den Herik Prof. dr. ir. J.C. Scholtes Universiteit Leiden Universiteit Maastricht LCDS, Faculteit W&N ZyLAB, Amsterdam eLaw, Faculteit der Rechtsgeleerdheid SSR Training Big Data en Data Science 23 Mei 2018
  • 2. UW DOCENTEN Prof Dr Jaap van den Herik Universiteit Leiden LCDS, Faculteit W&N eLaw, Faculteit der Rechtsgeleerdheid Jaap van den Herik studied mathematics (with honours) at the Vrije Universiteit Amsterdam and received his PhD degree at Delft University of Technology in 1983. In 1984 he was visiting professor at the McGill School of Computer Science in Montreal. Thereafter, he was subsequently affiliated with Maastricht University (1987- 2008) and Tilburg University (2008-2016) as full professor in Computer Science. He is the founding director of IKAT (Institute of Knowledge and Agent Technology) and TiCC (Tilburg center for Cognition and Communication) and was supervisor of 79 PhD researchers. At Leiden University, Van den Herik was affiliated with the department of Computer Science (now LIACS) between 1984 and 1988. He became professor of Computer Science and Law in 1988, at the Center for Law in the Information Society (eLaw). Since 2012, he is also a fellow professor at the Centre for Regional Knowledge Development (CRK), for the supervision of PhD students. Furthermore, he has been part of the Leiden Institute of Advanced Computer Science (LIACS) since 2014, where he founded the Leiden Centre of Data Science (LCDS) together with Joost Kok and Jacqueline Meulman. Van den Herik’s research interests include artificial intelligence, intelligent legal systems, big data and social innovation. In 2012, he received an ERC Advanced Grant together with Jos Vermaseren (PI, Nikhef) and Aske Plaat, for the research proposal “Solving High Energy Physics Equations using Monte Carlo Gaming Techniques.” Van den Herik received a Humies Award in 2014, for his work on chess programming. Van den Herik is active in many organizations and advisory boards, such as the Belgian Netherlands Association of AI, JURIX, the ICGA, ToKeN, Catch and the consortium BiG Grid. Furthermore, he is a fellow of the European Coordinating Committee for AI (ECCAI), and member of the Royal Holland Society of Sciences and Humanities. SLIDE / 2
  • 3. UW DOCENTEN Prof dr ir Jan Scholtes CSO at ZyLAB Professor Text-Mining University of Maastricht From 1987 to 2009 Scholtes acted as President / CEO of ZyLAB. Scholtes has been involved in deploying in-house e-discovery software with organization such as the UN War Crimes Tribunals, the FBI-ENRON investigations, the EOP (White House), DNB, ACM, FTC, EC, ABN-AMRO, ING, Vanguard, Fico, and thousands of other users worldwide. Since 2008, Scholtes holds the extra-ordinary Chair in Text Mining from the Department of Knowledge Engineering at the University of Maastricht and he is a senior research fellow of the Dutch School for Information and Knowledge Systems (SIKS). (SIKS) is a Dutch Research School established in 1996 and accredited by the Royal Netherlands Academy of Arts and Sciences (http://www.siks.nl/). Before joining ZyLAB in 1989, Scholtes was lieutenant in the intelligence department of the Royal Dutch Navy. Scholtes holds a M.Sc. degree in Computer Science from Delft University of Technology and a Ph.D. in Computational Linguistics from the University of Amsterdam. SLIDE / 3 https://www.linkedin.com/in/jscholtes/
  • 4. 9.30 - 10.00 Inloop 10.00 - 10.30 Introductie docenten en begin discussie. 10.30 - 11.15 Tegelcasus: Case Based Reasoning met big-data (JvdH) en demo LI 11.15 - 11.30 Pauze 11.30 - 12.30 Overzicht Artificial Intelligence technieken voor de rechtspraak (JvdH) 12.30 - 13.15 Lunch 13.15 - 14.15 Big Data: Intelligente Zoektechnieken (JS) 14.15 - 14.30 Pauze 14.30 - 16.00 Opdrachten: Intelligente Zoektechnieken voor Jurisprudentie (JS) 16.00 - 16.30 Discussie DAGINDELING SLIDE / 4
  • 5. WAT IS ARTIFICIAL INTELLIGENCE? SLIDE / 5
  • 6. SLIDE / 6 AI DIE WE DAGELIJKS KUNNEN GEBRUIKEN
  • 8.  De focus van de training zal liggen op beslissingsondersteunende zoektechnologie voor de rechtspraak, waarbij gebruik gemaakt kan worden van ideeën en concepten uit de wereld van Big Data en Data Science.  Omdat veel data van de Raad voor de Rechtspraak ongestructureerd (tekstueel) van aard is, zal in een aantal sessies worden uitgelegd hoe de rechtspraak gebruik kan maken van dit soort technieken bij o.a. het zoeken in jurisprudentie. SLIDE / 8 BIG DATA EN DATA SCIENCE
  • 9. Discover the world at Leiden University Rechtbanken willen zo goed mogelijk rechtspreken en daarbij zo goed mogelijk ondersteund worden. •Toekomst 1: rechters moeten nieuwe systemen (computers en intelligente machines) hebben om casusposities op de traditionele manier te beoordelen (De Comfort Zone) •Toekomst 2: (totaal verschillend -> disruptive). De introductie van een serie ‘capabele systemen’ die het werk van traditionele rechters geheel autonoom uitvoeren. Wat willen Rechtbanken?
  • 10. Discover the world at Leiden University Nu (2018) lopen de twee toekomstperspectieven nog parallel. Ze zullen steeds meer naar elkaar toegroeien (2018-2035). Op de lange duur zal TOEKOMST 2 domineren (na 2040). Vragen: 1. Willen we dit? 2. Willen we dit niet? 3. Wat willen we dan? 4. Willen we de technologische ontwikkeling tegenhouden? Wat willen Rechtbanken?
  • 11. Discover the world at Leiden University Positie A The world is technology driven (e.g., Physicists) Het Technologie Debat Positie B The world is socially driven (e.g.,Lawyers)
  • 12. Discover the world at Leiden University Prof. dr. H. Jaap van den Herik Universiteit Leiden LCDS, Faculteit W&N eLaw, Faculteit der Rechtsgeleerdheid Tegelcasus: Case Based Reasoning met big data
  • 13. Discover the world at Leiden University De Casus • Op een broeierige zomeravond stapt mevrouw Inge Janssens (70) uit de bus en wandelt rustig het voetpad af naar de woning van haar dochter. • Vogels fluiten, er is weinig verkeer, mensen zijn mooi uitgedost en groeten elkaar van harte, het lijkt wel een Italiaanse passeggiata. • Goedgemutst zet mevrouw Janssens haar wandeling in de laaghangende en enigszins verblindende zon verder, tot ze over een losliggende voetpadtegel struikelt, ten val komt en haar been breekt. Ze stelt de gemeente aansprakelijk, waar deze dient toe te zien op de goede staat van haar voetpaden. • De gemeente antwoordt echter dat ze van de gebrekkige tegelsituatie niet eerder op de hoogte was gebracht. Mevrouw Janssens stelt dan weer dat de tegel overduidelijk aan herstelling toe was en dat de gemeente het gebrek zelf eerder had moeten registreren en verhelpen. • Wie verklaart u aansprakelijk, de gemeente of mevrouw Janssens?
  • 14. Discover the world at Leiden University Relevante Wetgeving We beperken ons tot het Nederlandse Recht [b.v. Rechtbank Rotterdam] Wetsverwijzingen: Burgerlijk Wetboek Boek 6 Burgerlijk Wetboek Boek 6 174 Wetboek van Burgerlijke Rechtsvordering Wetboek van Burgerlijke Rechtvordering 1019aa Vindplaatsen: Rechtspraak.nl Prg. 2012/52 JA 2012/186 VR 2013/29
  • 15. Discover the world at Leiden University Datum Uitspraak 21 juli 2011 Vraag of gemeente aansprakelijk is voor schade als gevolg van scheef liggende stoeptegel. Het trottoir voldeed niet aan de norm van het CROW. Gelet op de omstandigheden is de gemeente aansprakelijk. Geen vermindering aansprakelijkheid als gevolg van eigen schuld. CROW = Stichting Centrum voor Regelgeving en Onderhoud in Grond-, Water en Wegenbouw en Verkeerstechniek.
  • 16. Discover the world at Leiden University Verzoekster [verzoekster] liep op zondagmiddag 29 augustus 2010 samen met een vriendin in westelijke richting over de Prins Bernhardkade te [plaats]. Toen zij de Willem van Hillegaersbergstraat overstaken, is [verzoekster], toen zij de stoep aan de overzijde van de weg opstapte, ten val gekomen als gevolg van hoogteverschil tussen twee tegels. Hierdoor heeft zij een enkeldistorsie (verstuikte enkel) opgelopen.
  • 17. Discover the world at Leiden University Uitgangspunt 1: Aansprakelijkheid gemeente voor slecht wegdek In de stad is de wegbeheerder meestal de gemeente. De gemeente is ervoor verantwoordelijk dat de wegen goed worden onderhouden, zodat gevaarlijke situaties worden voorkomen. Wanneer een stoeptegel gevaarlijk is, zal afhangen van de omstandigheden. Meestal wordt gekeken naar het hoogteverschil tussen de uitstekende stoeptegel en de stoep. Is het verschil meer dan 3 centimeter, dan is de stoep gebrekkig en zal de gemeente in principe aansprakelijk zijn op grond van artikel 6:174 BW.
  • 18. Discover the world at Leiden University Uitgangspunt 2: Wanneer is de gemeente niet aansprakelijk? De gemeente, als wegbeheerder, is niet aansprakelijk wanneer zij niet op de hoogte had kunnen zijn van de losliggende of uitstekende stoeltegel, of als zij te weinig tijd had om het te herstellen. Dit betekent dus dat de gevaarlijke situatie van de uitstekende of scheve stoeptegel al langer moet bestaan. De wegbeheerder moet in ieder geval de gelegenheid hebben gehad om het gebrek met de stoeptegel te verhelpen. Het zal afhangen van de omstandigheden van het geval of de wegbeheerder al dan niet deze gelegenheid heeft gehad.
  • 19. Discover the world at Leiden University Uitgangspunt 3: Eerdere Gerechtelijke procedures Jurisprudentie (Case Law) Voor computers: Case-Based Reasoning
  • 20. Discover the world at Leiden University Uitgangspunt 3A: Gerechtelijke procedures gekwantificeerd Uit onderzoek in 2013 van de ANWB blijkt dat voetgangers, (brom)fietsers en motorrijders steeds vaker naar de rechter stappen om hun letselschade op de wegbeheerder te verhalen. Het gaat dan niet alleen om stoeptegels, maar ook om ongelukken door boomwortels, letsel door fietspaaltjes en mensen die zijn gevallen door een gat in de weg. In de periode van 2007 tot 2013 kwamen vijftig van dergelijke zaken voor de rechter. Bij slechts één op de vijf claims werd de weggebruiker volledig in het gelijk gesteld. In de helft van de gevallen bleek de wegbeheerder niet aansprakelijk.
  • 21. Discover the world at Leiden University Een greep uit de opgeslagen casusposities Rechtbank Rotterdam 2011: BU9562 Gemeente aansprakelijk, betaald E 1000,- (gevraagd E 1505,35) Rechtbank Midden Nederland 2014: VR 2015/72 (Amersfoort) Aansprakelijkheid niet vastgesteld (geen uitspraak over kosten, slechts begroot) Hof ’s Hertogenbosch 2013: VR 2013/28 Hof heeft uitspraak rechtbank bekrachtigd (twee grieven: 3 cm en gebrekkige weg) [Speciale casus: Wilnis wegverzakking door droogte]
  • 22. Discover the world at Leiden University Uitgangspunten in onze casus 1. Wie stelt moet bewijzen 2. Laaghangende zon speelt mee 3. Losse tegel niet automatisch gebrek 4. Mw. van 70 dient voorzichtigheid in acht te nemen 5. Gebrek niet gemeld (wel regelmatige inspectie)
  • 23. Discover the world at Leiden University Casus Maastricht
  • 24. Discover the world at Leiden University Case-based Reasoning Probleem nieuwe casus geleerde casus geselecteerde casus nieuwe casus opgeloste casus Selectie Hergebruik Revisie Onderhoud gereviseerde casus Bevestigde oplossing Voorgestelde oplossing Algemene kennis Opgeslagen casus
  • 25. Discover the world at Leiden University De voornaamste probleemgebieden 1. Selectie proces 2. Hergebruiksproces 3. Revisieproces 4. Onderhoudsproces
  • 26. Discover the world at Leiden University Probleemstelling Op welke wijze kan de bestaande praktijk met behulp van data- science technologie zichtbaar worden gemaakt voor een rechter die in een individuele casus beslist?
  • 27. Discover the world at Leiden University Drie vraagstellingen 1. Wat zijn de criteria volgens welke casusposities door rechters tot vergelijkbare casusposities worden gerekend?
  • 28. Discover the world at Leiden University Drie vraagstellingen 2. Op welke wijze kan uit de geregistreerde gevallen de relevante informatie worden geselecteerd?
  • 29. Discover the world at Leiden University Drie vraagstellingen 3. Op welke wijze dienen casusposities te worden geregistreerd, zodat ontwikkelingen in de aangeboden informatie doorwerken en beschikbaar komen?
  • 30. Discover the world at Leiden University Nog een probleem In de casusbeschrijving staat: “De gemeente antwoordt echter dat ze van de gebrekkige tegelsituatie niet eerder op de hoogte was gebracht” Wordt daarmee de gebrekkige situatie door de gemeente erkend? Wat zijn in dit verband de CROW-richtlijnen?
  • 31. Discover the world at Leiden University Conclusie 1 De casus is een heel mooi probleem. Het is niet in alle opzichten “opgelost” (noch door mensen noch door computers). De ernst van het specifieke geval speelt aan twee kanten. Wij zijn van mening dat jurisprudentie en automatische beschikbare jurisprudentie hier tot een oplossing kunnen komen.
  • 32. Discover the world at Leiden University Conclusie 2 In het onderhavige geval zou de rechter/computer meer moeten weten over de aard van de “losliggendheid” (1) Rechtopstaand (>3 cm) (2)Schuinopstaand (>3 cm) (3)Een holle tegel Als aan (1), (2) of (3) voldaan is, dan toewijzen.
  • 33. SLIDE / 33 DE TEGEL CASUS MET LEGAL INTELLIGENCE TJERK DE GREEF EN GINEKE WIGGERS
  • 34. Discover the world at Leiden University SLIDE / 34
  • 35. Discover the world at Leiden University Prof. dr. H. Jaap van den Herik Universiteit Leiden LCDS, Faculteit W&N eLaw, Faculteit der Rechtsgeleerdheid Overzicht Artificial Intelligence technieken voor de rechtspraak
  • 36. Discover the world at Leiden University Inhoud • Komende ontwikkelingen (van den Herik) • Het Technologie Debat • Kunnen computers rechtspreken? • Regels en heuristieken • Probleemgebied en obstakels • Een disruptieve ontwikkeling • De kracht van Text-mining (Scholtes)
  • 37. Discover the world at Leiden University Intelligent Organisation De balans tussen menselijke intelligentie en machine intelligentie is aan het verschuiven. 37 Source: www.technologyreview.com/s/601519/how-to-create-a-malevolent- artificial-intelligence/
  • 38. Discover the world at Leiden University Komende Ontwikkelingen en Positiebepaling Het geldt voor: Rechters Openbare aanklagers Rechtbanken en Gerechtshoven Juristen en Paralegals Alsmede voor beleidsbeslissers Voorbeeld: wat willen de rechtbanken?
  • 39. Discover the world at Leiden University Kunnen Computers Rechtspreken? Inaugurele rede door H.J. van den Herik Kunnen Computers Rechtspreken? - 21 Juni, 1991 Quote p. 33: “Ja, computers kunnen rechtspreken over toegewezen deelgebieden van het recht”.
  • 40. Discover the world at Leiden University Reeds in 1991 zag ik het als volgt (zie opnieuw p. 33): “Wie de functie van humane rechtspraak in onze wereld ziet als het regelen van de omgang tussen mensen, zal bemerken dat de computer menig regelaar verdringt. Uw eventuele rouw daarover kan ik u niet ontnemen, maar het recht lijdt er geen verlies onder.” Voorspelling
  • 41. Discover the world at Leiden University Dworkin (1986) Drie rechtstheorieën (1) Het recht als verzameling afspraken (2) Het recht als een instrument om de samenleving zo efficiënt mogelijk te laten verlopen (3) Het recht zoals dat op een samenhangende manier, voorzien van beginselen, de leden van een politieke gemeenschap tegemoet treedt Dworkin kiest voor (3)
  • 42. Discover the world at Leiden University Definities: Vage normen: rechtregels waarin verwezen wordt naar onbepaalde begrippen Bijvoorbeeld: redelijkheid en billijkheid Open texture: onder bijzondere omstandigheden mag de definitie van een begrip gecorrigeerd worden Bijvoorbeeld: het arrest Lindenbaum-Cohen (HR 31 januari 1919) Vage Normen en Open Texture
  • 43. Discover the world at Leiden University Vijf Obstakels 1. Vage normen 2. Open texture 3. Sociale interpretatie (i.e., verschuivende betekenis) 4. Interpretatie, met (4a) het natuurlijke taalprobleem (4b) het probleem van de werkelijke wereld 5. Onderhoud
  • 44. Discover the world at Leiden University •Normen en waarden •Wetten •Regels •Heuristieken •Case-based reasoning •Data science Regels en Heuristieken
  • 45. Discover the world at Leiden University 2. Specific AI developments 1970 • Rules 1980 • Heuristics 1990 • Case-Based Reasoning 2000 • Data (snippets) 2010 • Big Data selectie
  • 46. Discover the world at Leiden University 1. Selectie proces 2. Hergebruiksproces 3. Revisieproces 4. Onderhoudsproces De Voornaamste Probleemgebieden
  • 47. Discover the world at Leiden University How the World looked upon the changes in Artificial Intelligence •1997 – Chess http://www.kasparov.com/timeline-event/deep-blue/ https://rauserbegins.com May 11th 1997: AI achieves its long-standing goal. DEEPBLUE (IBM) wins from Kasparov by 3 ½ - 2 ½
  • 48. Discover the world at Leiden University How the World looked upon the changes in Artificial Intelligence •2011 – WATSON http://automatastudios.com/case-studies/ibm-watson.html A new breakthrough by IBM in the area of language understanding. IBM’s WATSON wowed the tech industry and a corner of U.S. pop culture with its 2011 win against two of Jeopardy!'s greatest champions Ken Jennings (left) and Brad Rutter (right).
  • 49. Discover the world at Leiden University How the World looked upon the changes in Artificial Intelligence •2017 – Go Source: https://www.theverge.com/2017/5/25/15689462/alphago-ke-jie-game-2-result- google-deepmind-china ALPHAGO has defeated Ke Jie, the world’s number one Go player, in their match, meaning the AI has secured a clear victory. The win over Ke, universally considered the best Go player in the world, essentially confirms that ALPHAGO has surpassed human Go ability a little over a year after the AI first beat Lee Se-dol.
  • 50. Discover the world at Leiden University How the World looked upon the changes in Artificial Intelligence •2017 - ALPHAGO Zero verslaat computerwereldkampioen met 100-0 Source: Nature, vol. 550, 19 October 2017
  • 51. Discover the world at Leiden University Computers onder elkaar •2017 ALPHAZero verslaat STOCKFISH met 28-0 (72 remises). Anders gezegd: 64-36
  • 52. Discover the world at Leiden University From Changes to Adaptations From AI (1950-2020) To: Machine learning (2000-2020) To: Adaptation (2005) To: Automatic adaptation (2005-2015) To: Autonomy (2015-2020) To: Deep learning (2015-2020) To: Reciprocity (2020)
  • 53. Discover the world at Leiden University Drie risico’s 1. Autonome adaptatie 2. Autonome toepassing strategieën 3. Bias, Bias, Biases
  • 54. Discover the world at Leiden University Adaptations: 24 maart 2016 AI Chatbot Tay • 23 maart 2016: “Can I just say that I am stoked to meet u? 20:32 Humans are super cool” • 24 maart 2016: “Chill, I’m a nice person! 8:59 I just hate everybody” • 24 maart 2016: “I fucking hate feminists 11:41 and they should all die and burn in hell” • 24 maart 2016: “Hitler was right 11:45 I hate the Jews” Hier ging de stekker eruit.
  • 55. Discover the world at Leiden University Strategy: 13 February 2017 Testen op samenwerken met anderen leidt tot het ontwikkelen van bijzonder agressieve strategieën Google Mind deed 40 miljoen keer het spel: Appels rapen Twee “Deep mind”-programma’s speelden tegen elkaar Na verloop van tijd: Zodra de appels van de boom vielen, bleken de twee agenten zeer agressief Zij gebruiken LASER BEAMS om de tegenstander uit te schakelen Motto: Winner takes all
  • 56. Discover the world at Leiden University Balance and Bias Source: www.huffingtonpost.com/entry/how-machine-learning- advances-will-improve-the-fairness_us_599d8de8e4b056057bddcfc3#
  • 57. Discover the world at Leiden University Impliciete aberraties: 23 augustus 2017 Seksisme en racisme •Algoritmen waren seksistisch of racistisch •Logisch, want geleerd op Social Data •Social Data bevatten Maatschappelijke Biases •De algoritmen gebruiken de Biases in hun training om hun performance-metrieken te verbeteren
  • 58. Discover the world at Leiden University Twee voorbeelden •Het gebruik van mannelijke woorden: directeur, secretaris, minister •Het aannamebeleid in het verleden: meer mannen dan vrouwen Drie uitdagingen (1) Debiasing van de algoritmen (2) Wiskundig formuleren van “Fair” Decision Making Metrics (3) Ontwikkeling nieuw veld Computer Science, Law and Ethics
  • 59. Discover the world at Leiden University Drie gevaren en twee trends Drie gevaren zijn: Twee trends zijn: (1) Automatische adapaties (1) Kunstmatige intelligentie (2) Keuzevrijheid van strategieën (2) Robots (3) Impliciete Abberaties
  • 60. Discover the world at Leiden University Twelve trends we are watching UNCLASSIFIED
  • 61. Discover the world at Leiden University Positie A The world is technology driven (e.g., Physicists) Het Technologie Debat Positie B The world is socially driven (e.g.,Lawyers) Op weg naar een multidisciplinaire samenleving
  • 62. Discover the world at Leiden University Conclusies Deze cursus heeft als doel u wakker te maken aangaande: •De disruptieve ontwikkelingen •De prachtige resultaten •De risico’s en gevaren •De verantwoordelijkheid van de rechterlijke macht •Het technologiedebat •Uw eigen verantwoordelijkheid
  • 63. Discover the world at Leiden UniversityDiscover the world at Leiden University Dank u voor uw aandacht 63
  • 64. Discover the world at Leiden University SLIDE / 64 LUNCH
  • 65. Discover the world at Leiden University Prof. dr. ir. J.C. Scholtes Universiteit Maastricht ZyLAB, Amsterdam Big Data: Intelligente tekst-zoektechnieken
  • 66. Discover the world at Leiden University Zoeken in grote dossiers: vuurwerk-ramp (2002) SLIDE / 66
  • 67.  Hoe weet je nu of je nieuwe college ‘kundig’ is en hoe neem je dat mee in je oordeelsvorming?  Waar zit die deskundigheid c.q. kwaliteit nu precies in?  Gezamelijke oefening om te ervaren dat beslissingsondersteunende technologie sneller, vollediger en dus beter en efficienter is. SLIDE / 67 EN VERDER …
  • 68. 1. Het gebruik van AI in de internationale rechtspraak 2. Wat gebruiken juristen in Nederland? 3. Meten van de kwaliteit van AI-technieken 4. De computer leren zoeken met machine learning 5. Conclusies SLIDE / 68 INHOUD
  • 69.
  • 70. CASE STUDIE: INTERNATIONAL COURTS SLIDE / 70
  • 71. WHERE DO COMPUTERS OUTPERFORM HUMANS? SLIDE / 71 Memory Consistency 24/7 Speed & Scalability Search M&A and Restructuring Data Collection Analytics eDiscovery, Regulatory Requests, Investigations, Truth Finding Missions Reporting Archiving Knowledge ManagementProduction
  • 73. MENS EN MACHINE ZIJN COMPLEMENTAIR: TOEPASSINGEN ZIJN DIVERS  Zoeken in jurisprudentie.  Zoeken in beslag genomen material of bewijsbeslag (email, hard disken, SharePoint, Data bases, Content Management Systemen, Social Media, WhatsApp, papier, …).  Zoeken in taps en ander observatie material.  Analyseren van in beslag genomen material teneinde onderzoek te prioriteren.  Zoeken en inlezen in grote dossiers, snel inzicht krijgen in grote dossiers.  Cold cases.  Hoger beroep.  Parlementaire commissies en andere onderzoekscommisies  Data Rooms & Due Dilligence  Anonimiseren GDPR / AVG SLIDE / 73
  • 74.  Inlichtingen en veiligheidsdiensten: Slim zoeken sinds 1998, text mining sinds 2003, machine learning sinds 2005.  Opsporingsdiensten en toezichthouders: 8 jaar later.  Grote advocatenkantoren: 9 jaar later.  Interne onderzoeksafdelingen bedrijven: 12 jaar later.  Juridische afdelingen bedrijven: 13 jaar later. SLIDE / 74 WAT GEBRUIKEN JURISTEN IN NEDERLAND?
  • 75. SLIDE / 75 eDiscovery, Waarheidsvinding, Onderzoeken (intern en toezichthouders), Bewijsbeslag, …
  • 77.  Wat is er gebeurd?  Community Detection  Emotion & Sentiment Detection  “Topic Rivers” SLIDE / 77 VOORBEELDEN VAN BIG DATA ANALYSES OP META-NIVEAU ZOALS OPSPORINGSDIENSTEN DAT TOEPASSEN
  • 80. 80 WHY & HOW: EMOTION DETECTION
  • 82. 82 Text Mining the Lord of the Rings • Automatic identification of key players (custodians) • Automatic identification of locations. • Automatic identification of travel patterns of key players. • Visualize in time.
  • 83. SLIDE / 83 M&A Contract Drafting VDR Preparation GDPR Compliance Vendor DD Buyer DD Reporting VDR and Q&A Post-deal eDiscovery (R&W, Compliance Risks, …) Post Deal Integrations ESCROW
  • 84.  Mergers & Acquisition (M&A) Advocaten: 1. Paragraaf herkenning 2. Dossiers complementeren 3. Automatisch detecteren van potentiele deal-breakers 4. Black-lining ter bescherming van intellectuele eigendommen 5. Black-lining ter bescherming van persoonsgegevens 6. Contract summary reports SLIDE / 84 VOORBEELDEN VAN AUTOMATISCHE DOCUMENT ANALYZE
  • 85. ADVOCATEN: M&A - AUTOMATISCHE DOCUMENT ANALYSE
  • 86. AUTOMATISCH DETECTEREN VAN POTENTIËLE DEAL-BREAKERS OF PROBLEMEN
  • 87. BLACKLINING EN PSEUDONIMISEREN TER BESCHERMING VAN PERSOONSGEGEVENS (BULK REDACTIE)
  • 88. SLIDE / 88 HOW DOES THAT WORK? Search Pattern Recognition Text-Mining
  • 89. Introduction to Information Retrieval HOE EVALUEER WE NU DE KWALITEIT VAN DIT TYPE TECHNOLOGIE
  • 91. Lack of precision leads to noise, too many false hits, too much work to review, which yields high cost of review. Lack of recall leads to missing relevant documents which yields risk. 91
  • 92.  Precisie verhogend: AND, W/5, NOT  Recall verhogend: OR, *, ?, Thesaurus Fuzzy. Beide: quorum PRECISIE & RECALL: OMGEKEERD EVENREDIG SLIDE / 92 100 75 50 2525 75 75 100 0 20 40 60 80 100 120 1 2 3 4 Precisie en Recall Precisie Recall
  • 93.  When both precision and recall are over 80%, human performance is approached.  This applies to the best humans.  It can be argued that values over 80% are often subject to different interpretations and discussions. 93 HUMAN PERFORMANCE
  • 94. Introduction to Information Retrieval  Technology Assisted Review (aka Predictive Coding) zoals deze goedgekeurd zijn door de US Federal Courts: http://www.lawtechnologytoday.org/2015/11/history-technology- assisted-review/  Sedona Conference recommendations (US courts technology conferences) can be found here: https://thesedonaconference.org/publication/TAR%20Case%20Law%20 Primer SLIDE / 94 US Federal law
  • 95. Introduction to Information Retrieval Richmond Journal of Law and Technology Vol. XVII, Issue 3. TECHNOLOGY- ASSISTED REVIEW IN E-DISCOVERY CAN BE MORE EFFECTIVE AND MORE EFFICIENT THAN EXHAUSTIVE MANUAL REVIEW, by Maura R. Grossman* & Gordon V. Cormack Consistent evidence that computers our-perform humans SLIDE / 95 Grossman & Cormack* : “Artificial Intelligence was not only more effective than human review at finding relevant documents, but also much cheaper … Overall, the myth that exhaustive manual review is the most effective—and therefore the most defensible—approach to document review is strongly refuted.”
  • 96. Introduction to Information Retrieval SLIDE / 96 Contract review & due dilligence
  • 97. Introduction to Information Retrieval SLIDE / 97 Source: Comparing the Performance of Artificial Intelligence to Human Lawyers in the Review of Standard Business Contracts, February 2018, LawGeex.
  • 98. Introduction to Information Retrieval CREATING TEST COLLECTIONS FOR INFORMATION RETRIEVAL EVALUATION
  • 99. Introduction to Information Retrieval 99 From document collections to test collections  Still need  Test queries  Relevance assessments  Test queries  Must be germane to docs available  Best designed by domain experts  Random query terms generally not a good idea  Relevance assessments  Human judges, time-consuming  Are human panels perfect? Sec. 8.5
  • 100. Introduction to Information Retrieval 100 Kappa measure for inter-judge (dis)agreement  Kappa measure  Agreement measure among judges  Designed for categorical judgments  Corrects for chance agreement  Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]  P(A) = proportion of time judges agree  P(E) = what agreement would be by chance = P(non relevant)2 + P(relevant)2  Kappa = 0 for chance agreement, 1 for total agreement. Sec. 8.5
  • 101. Introduction to Information Retrieval 101 Kappa Measure: Example Number of docs Judge 1 Judge 2 300 Relevant Relevant 70 Nonrelevant Nonrelevant 20 Relevant Nonrelevant 10 Nonrelevant Relevant P(A)? P(E)? Sec. 8.5 P(A) = 370/400 = 0.925 P(nonrelevant) = (10+20+70+70)/800 = 0.2125 P(relevant) = (10+20+300+300)/800 = 0.7878 P(E) = 0.2125^2 + 0.7878^2 = 0.665 Kappa = (0.925 – 0.665)/(1-0.665) = 0.776
  • 102. Introduction to Information Retrieval 102 Kappa Example  Kappa > 0.8 = good agreement  0.67 < Kappa < 0.8 -> “tentative conclusions” (Carletta ’96)  Depends on purpose of study  For >2 judges: average pairwise kappas. N judges = N*(N-1) kappas to average. Sec. 8.5
  • 103. WHAT IS A 10-FOLD CROSS VALIDATION?  To measure the performance of the classifier, cross validation can be used to reduce overfitting and make better use of the available data.  With k-fold cross validation, the training data is randomly split into k subsets of equal size. k −1 subsets are used for training the classifier, the trained classifier is tested on the remaining subset. This is repeated k times using a different subset to test the classifier on. 103
  • 104.  Topic Modeling (automatisch thesaurus)  Machine Learning voor het maken van classifiers voor het vinden van documenten, vergelijkbaar aan Booleaanse zoekvragen maar beter:  Geen kennis van zoekoperatoren nodig  Je weet precies % van aantal relevante documenten dat gevonden is  In het algemeen worden 2-3 keer meer relevante documenten gevonden.  5-6 keer sneller.  Met 10-15 keer minder mensen. SLIDE / 104 HET NIEUWE ZOEKEN MET ARTIFICIAL INTELLIGENCE
  • 105. TOPIC MODELING: FIND IF YOU DO NOT KNOW WHAT TO LOOK FOR SLIDE / 105
  • 107. EXAMPLE OF AN EDISCOVERY PROTOCOL? Find Relevant Documents using standard Search Techniques Review Documents for Correctness _______ best matching first Every X new correct document, build classifier with manually reviewed documents to recognize similar documents Find potential relevant documents by matching classifier with all non-reviewed documents in data Calculate Precision & Recall classifier using 10-fold cross validation on Training Set. Calculate precision return set. Stop if Precision and Recall of the Training Set or the Return Set is Larger than a pre- agreed quality level (typically 70-80%) 107 Return Best-Matching Documents Define Start Define Workflow Define Stop Conditions
  • 108. SLIDE / 108 WHAT IS DOCUMENT CLASSIFICATION?
  • 109. SLIDE / 109 REINFORCEMENT LEARNING Reinforcement learning (RL) is an area of machine learning inspired by behaviorist psychology, concerned with how software agents ought to take actions in an environment so as to maximize some notion of cumulative reward. Combination of supervised and unsupervised learning. Machine learning of interest profiles. Combination of TAR and Topic Modeling.
  • 110.  A decision tree is a decision support tool that uses a tree-like graph or model of decisions and their possible consequences, including chance event outcomes, resource costs, and utility. It is one way to display an algorithm. SLIDE / 110 DECISION TREES AND ENTROPY MODELING
  • 112. Now imagine 1.2 million dimensional … 2-dimensional 3-dimensional SUPPORT VECTOR MACHINE (SVM) 112
  • 113. CLASSIFYING REUTERS DOCUMENT SET  806.791 articles in total  War, Civil War (GVIO): 32.615 articles (4,04%): 90% is found after reviewing only 45.000 documents, which is only 5.6% of full corpus.  Sports (GSPO): 35.317 articles (4,38%): 90% is found after reviewing only 32.000 documents. This is only 4% of full corpus. 113
  • 114. EVOLUTION OF THE QUALITY OF A CLASSIFIER 114
  • 115. EXAMPLE OF A STOP CONDITION  There was no need to review 32.000 document for the SPORTS (GSPO) category, because both the precision and recall were well over 80% pretty much all of the process. There was also no decay in the slope of the CAL learning progress contrary to the slope of the GVIO.  We could have stopped reviewing after one training cycle (1.000) documents and find the rest of the responsive documents automatically. 115
  • 117. PREDICTING THE TIME NEEDED TO REACH A STOP CONDITION  We expect to be able to predict a change in the slope early so we can predict delay of the training process.  This needs more research. 117
  • 118. ARE THERE HUGE DIFFERENCES IN PERFORMANCE DEPENDING ON THE START CONDITION? NOT REALLY 118
  • 119. WHAT IF THE REVIEWER MAKES ERRORS: THIS IS NOT REALLY A PROBLEM 119
  • 120. 0 200 400 600 800 1000 1200 1400 1600 ZyLAB Assisted Review Manual Review Hours CONCLUSION: MACHINE LEARNING: SMARTER, BETTER & FASTER In general we see at all our clients:  3-20 times faster than manual review  20-100% more accurate, fully defensible SLIDE / 120
  • 122. HANDS-ON ZOEKEN BINNEN 800.000 UITSPRAKEN
  • 126. SLIDE / 126 SELECT RIGHT VIEW
  • 127. ZOEK OP “(RECHTBANK AND AMSTERDAM) OR FRIESLAND” SLIDE / 127
  • 129. SLIDE / 129 TREFFER EN DOCUMENT NAVIGATIE
  • 130. SLIDE / 130 CTRL-F: ZOEKEN BINNEN EEN DOCUMENT
  • 131.  (rechtbank w/5 Amsterdam) and (Leeuwarden or friesland)  asiel w/5 aanvragen  Leeuwarden~1 and frieslan*  *?ber*crime  2 of {cyber, cyber-crime, bot net, botnet, virus, trojan*, dark web, hacker, ddos} VOORBEELDEN VAN BOOLEAN OPERATOREN SLIDE / 131
  • 132. Zoek met behulp van de Booleaanse full-text zoek technieken:  Alle zaken met betrekking tot Overvallen, maar: Alleen winkels Overvallen met geweld zowel veroordelingen als vrijspraken. Hoeveel vindt u er ongeveer? SLIDE / 132 OPDRACHT
  • 133. DE OPDRACHT Alle zaken met betrekking tot diverse vormen van overvallen, maar:  winkels  met geweld  zowel veroordelingen als vrijspraken. HOEVEEL JUNT U ER ONGEVEER VINDEN?  (rechtbank w/5 Amsterdam) and (Leeuwarden or friesland)  asiel w/5 aanvragen  Leeuwarden~1 and frieslan*  *overval*  2 of {overval*, geweld, uurwapen*, steekwapen*} SLIDE / 133
  • 134. The era of traditional keyword and Boolean search seems to be over. Even the most brilliant query results in too many hits. Reviewing these takes too much time and resources.  People do not know exactly what to look for, what keywords to use or how to spell them.  The quality of traditional search is much lower than the searchers think (80% perceived versus 20-40% actual quality).  Only highly skilled searchers who manage all (advanced) query options are able to get close to 80%. Even then, they cannot be sure that they did in fact found 80% of all relevant documents. This is another problem measuring recall: you never know what you miss. MACHINE LEARNING: THE NEW SEARCH
  • 135.
  • 136.  Ga naar Alle Uitspraken  Vindt het topic over (Opium-Wet) Drugs en Cocaine  Bekijk documenten SLIDE / 136 OPDRACHT: TOPIC MODELING
  • 137. SLIDE / 137 OPDRACHT: MACHINE LEARNING  Winkel overvallen met geweld  Zowel veroordelingen als vrijspraken.  Via Machine Learning:  Project Overvallen  Issue: Overvallen Overvallen
  • 139. SLIDE / 139 Rechter.01 neemt #1 en #2 Rechter.02 neemt #3 en #4, Rechter.03 neemt #5 en #6 …. Rechter.10 neemt #19 en #20 Oftewel: Nummer *2 -1 Nummer *2
  • 143. 1. Je weet precies hoeveel % van alle mogelijke relevante documenten je gevonden hebt. 2. Je hoeft geen kennis te hebben van ingewikkelde zoek- operatoren zoals Booleaanse operatoren of Booleaanse logica. 3. In het algemeen worden 2-3x meer relevante documenten gevonden in een fractie van de tijd (vaak ook 5-6 sneller) met 10-15x minder mensen. SLIDE / 143 VOORDELEN VAN MACHINE LEARNING TOV TRADITIONEEL BOOLEAANS ZOEKEN
  • 144. Discover the world at Leiden University Prof. dr. H. Jaap van den Herik Prof. dr. ir. J.C. Scholtes Universiteit Leiden Universiteit Maastricht LCDS, Faculteit W&N ZyLAB, Amsterdam eLaw, Faculteit der Rechtsgeleerdheid Afsluitende Discussie
  • 145.  Waar zien de cursusdeelnemers op dit moment de grootste mogelijkheden voor toepassing van de beslissingsondersteunende technologie in hun werk?  Op welke manier zou het de kwaliteit van hun werk ten goede kunnen komen?  Zijn de voorbeelden waar AI op dit moment al toegepast wordt overtuigend? AFSLUITENDE DISCUSSIE SLIDE / 145