In 2018 hebben Prof. dr. H.J. van den Herik van het Leiden Centre of Data Science (LCDS) samen met prof dr. ir. J.C. Scholtes van de Universiteit Maastricht/ZyLAB in samenwerking met ZyLAB trainingen gegeven waarbij meerdere groepen van 20 rechters hands-on ervaring op hebben gedaan met Data Science en Big data software.
De focus van de training lag op beslissingsondersteunende technologie voor de rechtspraak, waarbij gebruik gemaakt werd van ideeën en concepten uit de wereld van Big Data en Data Science.
Omdat veel data van de Raad voor de Rechtspraak ongestructureerd (tekstueel) van aard is, is in een viertal sessie uitgelegd hoe de rechtspraak gebruik kan maken van dit soort technieken bij de ondersteuning van de rechtelijke macht.
1. Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik Prof. dr. ir. J.C. Scholtes
Universiteit Leiden Universiteit Maastricht
LCDS, Faculteit W&N ZyLAB, Amsterdam
eLaw, Faculteit der Rechtsgeleerdheid
SSR Training Big Data en Data Science
23 Mei 2018
2. UW DOCENTEN Prof Dr Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
eLaw, Faculteit der
Rechtsgeleerdheid
Jaap van den Herik studied mathematics (with honours) at the Vrije Universiteit
Amsterdam and received his PhD degree at Delft University of Technology in 1983. In
1984 he was visiting professor at the McGill School of Computer Science in Montreal.
Thereafter, he was subsequently affiliated with Maastricht University (1987- 2008)
and Tilburg University (2008-2016) as full professor in Computer Science. He is the
founding director of IKAT (Institute of Knowledge and Agent Technology) and TiCC
(Tilburg center for Cognition and Communication) and was supervisor of 79 PhD
researchers.
At Leiden University, Van den Herik was affiliated with the department of Computer
Science (now LIACS) between 1984 and 1988. He became professor of Computer
Science and Law in 1988, at the Center for Law in the Information Society (eLaw).
Since 2012, he is also a fellow professor at the Centre for Regional Knowledge
Development (CRK), for the supervision of PhD students. Furthermore, he has been
part of the Leiden Institute of Advanced Computer Science (LIACS) since 2014,
where he founded the Leiden Centre of Data Science (LCDS) together with Joost
Kok and Jacqueline Meulman.
Van den Herik’s research interests include artificial intelligence, intelligent legal
systems, big data and social innovation. In 2012, he received an ERC Advanced
Grant together with Jos Vermaseren (PI, Nikhef) and Aske Plaat, for the research
proposal “Solving High Energy Physics Equations using Monte Carlo Gaming
Techniques.” Van den Herik received a Humies Award in 2014, for his work on chess
programming.
Van den Herik is active in many organizations and advisory boards, such as the
Belgian Netherlands Association of AI, JURIX, the ICGA, ToKeN, Catch and the
consortium BiG Grid. Furthermore, he is a fellow of the European Coordinating
Committee for AI (ECCAI), and member of the Royal Holland Society of Sciences
and Humanities.
SLIDE / 2
3. UW DOCENTEN Prof dr ir Jan Scholtes
CSO at ZyLAB
Professor Text-Mining
University of Maastricht
From 1987 to 2009 Scholtes acted as President / CEO of
ZyLAB. Scholtes has been involved in deploying in-house
e-discovery software with organization such as the UN War
Crimes Tribunals, the FBI-ENRON investigations, the EOP
(White House), DNB, ACM, FTC, EC, ABN-AMRO, ING,
Vanguard, Fico, and thousands of other users worldwide.
Since 2008, Scholtes holds the extra-ordinary Chair in Text
Mining from the Department of Knowledge Engineering at
the University of Maastricht and he is a senior research
fellow of the Dutch School for Information and Knowledge
Systems (SIKS). (SIKS) is a Dutch Research School
established in 1996 and accredited by the Royal
Netherlands Academy of Arts and Sciences
(http://www.siks.nl/).
Before joining ZyLAB in 1989, Scholtes was lieutenant in
the intelligence department of the Royal Dutch Navy.
Scholtes holds a M.Sc. degree in Computer Science from
Delft University of Technology and a Ph.D. in
Computational Linguistics from the University of
Amsterdam.
SLIDE / 3
https://www.linkedin.com/in/jscholtes/
4. 9.30 - 10.00 Inloop
10.00 - 10.30 Introductie docenten en begin discussie.
10.30 - 11.15 Tegelcasus: Case Based Reasoning met big-data (JvdH) en demo LI
11.15 - 11.30 Pauze
11.30 - 12.30 Overzicht Artificial Intelligence technieken voor de rechtspraak (JvdH)
12.30 - 13.15 Lunch
13.15 - 14.15 Big Data: Intelligente Zoektechnieken (JS)
14.15 - 14.30 Pauze
14.30 - 16.00 Opdrachten: Intelligente Zoektechnieken voor Jurisprudentie (JS)
16.00 - 16.30 Discussie
DAGINDELING
SLIDE / 4
8. De focus van de training zal liggen op
beslissingsondersteunende zoektechnologie voor de
rechtspraak, waarbij gebruik gemaakt kan worden van ideeën
en concepten uit de wereld van Big Data en Data Science.
Omdat veel data van de Raad voor de Rechtspraak
ongestructureerd (tekstueel) van aard is, zal in een aantal
sessies worden uitgelegd hoe de rechtspraak gebruik kan
maken van dit soort technieken bij o.a. het zoeken in
jurisprudentie.
SLIDE / 8
BIG DATA EN DATA SCIENCE
9. Discover the world at Leiden University
Rechtbanken willen zo goed mogelijk rechtspreken
en daarbij zo goed mogelijk ondersteund worden.
•Toekomst 1: rechters moeten nieuwe systemen (computers en
intelligente machines) hebben om casusposities op de
traditionele manier te beoordelen (De Comfort Zone)
•Toekomst 2: (totaal verschillend -> disruptive). De introductie
van een serie ‘capabele systemen’ die het werk van traditionele
rechters geheel autonoom uitvoeren.
Wat willen Rechtbanken?
10. Discover the world at Leiden University
Nu (2018) lopen de twee toekomstperspectieven nog parallel.
Ze zullen steeds meer naar elkaar toegroeien (2018-2035).
Op de lange duur zal TOEKOMST 2 domineren (na 2040).
Vragen:
1. Willen we dit?
2. Willen we dit niet?
3. Wat willen we dan?
4. Willen we de technologische ontwikkeling tegenhouden?
Wat willen Rechtbanken?
11. Discover the world at Leiden University
Positie A
The world is technology driven
(e.g., Physicists)
Het Technologie Debat
Positie B
The world is socially driven
(e.g.,Lawyers)
12. Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
eLaw, Faculteit der Rechtsgeleerdheid
Tegelcasus: Case Based Reasoning
met big data
13. Discover the world at Leiden University
De Casus
• Op een broeierige zomeravond stapt mevrouw Inge Janssens (70) uit de bus
en wandelt rustig het voetpad af naar de woning van haar dochter.
• Vogels fluiten, er is weinig verkeer, mensen zijn mooi uitgedost en groeten
elkaar van harte, het lijkt wel een Italiaanse passeggiata.
• Goedgemutst zet mevrouw Janssens haar wandeling in de laaghangende en
enigszins verblindende zon verder, tot ze over een losliggende voetpadtegel
struikelt, ten val komt en haar been breekt. Ze stelt de gemeente aansprakelijk,
waar deze dient toe te zien op de goede staat van haar voetpaden.
• De gemeente antwoordt echter dat ze van de gebrekkige tegelsituatie niet
eerder op de hoogte was gebracht. Mevrouw Janssens stelt dan weer dat de
tegel overduidelijk aan herstelling toe was en dat de gemeente het gebrek zelf
eerder had moeten registreren en verhelpen.
• Wie verklaart u aansprakelijk, de gemeente of mevrouw Janssens?
14. Discover the world at Leiden University
Relevante Wetgeving
We beperken ons tot het Nederlandse Recht [b.v. Rechtbank Rotterdam]
Wetsverwijzingen: Burgerlijk Wetboek Boek 6
Burgerlijk Wetboek Boek 6 174
Wetboek van Burgerlijke Rechtsvordering
Wetboek van Burgerlijke Rechtvordering 1019aa
Vindplaatsen: Rechtspraak.nl
Prg. 2012/52
JA 2012/186
VR 2013/29
15. Discover the world at Leiden University
Datum Uitspraak 21 juli 2011
Vraag of gemeente aansprakelijk is voor schade als gevolg van
scheef liggende stoeptegel. Het trottoir voldeed niet aan de
norm van het CROW. Gelet op de omstandigheden is de
gemeente aansprakelijk. Geen vermindering aansprakelijkheid
als gevolg van eigen schuld.
CROW = Stichting Centrum voor Regelgeving en Onderhoud
in Grond-, Water en Wegenbouw en Verkeerstechniek.
16. Discover the world at Leiden University
Verzoekster
[verzoekster] liep op zondagmiddag 29 augustus 2010
samen met een vriendin in westelijke richting over de
Prins Bernhardkade te [plaats]. Toen zij de Willem van
Hillegaersbergstraat overstaken, is [verzoekster], toen
zij de stoep aan de overzijde van de weg opstapte, ten
val gekomen als gevolg van hoogteverschil tussen twee
tegels. Hierdoor heeft zij een enkeldistorsie (verstuikte
enkel) opgelopen.
17. Discover the world at Leiden University
Uitgangspunt 1:
Aansprakelijkheid gemeente voor slecht wegdek
In de stad is de wegbeheerder meestal de gemeente.
De gemeente is ervoor verantwoordelijk dat de wegen goed
worden onderhouden, zodat gevaarlijke situaties worden
voorkomen. Wanneer een stoeptegel gevaarlijk is, zal afhangen
van de omstandigheden. Meestal wordt gekeken naar het
hoogteverschil tussen de uitstekende stoeptegel en de stoep. Is
het verschil meer dan 3 centimeter, dan is de stoep gebrekkig en
zal de gemeente in principe aansprakelijk zijn op grond van
artikel 6:174 BW.
18. Discover the world at Leiden University
Uitgangspunt 2:
Wanneer is de gemeente niet aansprakelijk?
De gemeente, als wegbeheerder, is niet aansprakelijk wanneer zij
niet op de hoogte had kunnen zijn van de losliggende of uitstekende
stoeltegel, of als zij te weinig tijd had om het te herstellen. Dit
betekent dus dat de gevaarlijke situatie van de uitstekende of scheve
stoeptegel al langer moet bestaan. De wegbeheerder moet in ieder
geval de gelegenheid hebben gehad om het gebrek met de stoeptegel
te verhelpen. Het zal afhangen van de omstandigheden van het geval
of de wegbeheerder al dan niet deze gelegenheid heeft gehad.
19. Discover the world at Leiden University
Uitgangspunt 3:
Eerdere Gerechtelijke procedures
Jurisprudentie (Case Law)
Voor computers: Case-Based Reasoning
20. Discover the world at Leiden University
Uitgangspunt 3A:
Gerechtelijke procedures gekwantificeerd
Uit onderzoek in 2013 van de ANWB blijkt dat voetgangers,
(brom)fietsers en motorrijders steeds vaker naar de rechter stappen om
hun letselschade op de wegbeheerder te verhalen.
Het gaat dan niet alleen om stoeptegels, maar ook om ongelukken door
boomwortels, letsel door fietspaaltjes en mensen die zijn gevallen door een
gat in de weg. In de periode van 2007 tot 2013 kwamen vijftig van
dergelijke zaken voor de rechter. Bij slechts één op de vijf claims werd de
weggebruiker volledig in het gelijk gesteld. In de helft van de gevallen bleek
de wegbeheerder niet aansprakelijk.
21. Discover the world at Leiden University
Een greep uit de opgeslagen casusposities
Rechtbank Rotterdam 2011: BU9562
Gemeente aansprakelijk, betaald E 1000,- (gevraagd E 1505,35)
Rechtbank Midden Nederland 2014: VR 2015/72
(Amersfoort) Aansprakelijkheid niet vastgesteld
(geen uitspraak over kosten, slechts begroot)
Hof ’s Hertogenbosch 2013: VR 2013/28
Hof heeft uitspraak rechtbank bekrachtigd
(twee grieven: 3 cm en gebrekkige weg)
[Speciale casus: Wilnis wegverzakking door droogte]
22. Discover the world at Leiden University
Uitgangspunten in onze casus
1. Wie stelt moet bewijzen
2. Laaghangende zon speelt mee
3. Losse tegel niet automatisch gebrek
4. Mw. van 70 dient voorzichtigheid in acht te
nemen
5. Gebrek niet gemeld (wel regelmatige inspectie)
24. Discover the world at Leiden University
Case-based Reasoning
Probleem nieuwe
casus
geleerde
casus
geselecteerde
casus
nieuwe
casus
opgeloste
casus
Selectie
Hergebruik
Revisie
Onderhoud
gereviseerde
casus
Bevestigde oplossing Voorgestelde oplossing
Algemene kennis
Opgeslagen
casus
25. Discover the world at Leiden University
De voornaamste probleemgebieden
1. Selectie proces
2. Hergebruiksproces
3. Revisieproces
4. Onderhoudsproces
26. Discover the world at Leiden University
Probleemstelling
Op welke wijze kan de bestaande
praktijk met behulp van data-
science technologie zichtbaar
worden gemaakt voor een rechter
die in een individuele casus beslist?
27. Discover the world at Leiden University
Drie vraagstellingen
1. Wat zijn de criteria volgens welke
casusposities door rechters tot
vergelijkbare casusposities
worden gerekend?
28. Discover the world at Leiden University
Drie vraagstellingen
2. Op welke wijze kan uit de
geregistreerde gevallen de relevante
informatie worden geselecteerd?
29. Discover the world at Leiden University
Drie vraagstellingen
3. Op welke wijze dienen
casusposities te worden
geregistreerd, zodat ontwikkelingen
in de aangeboden informatie
doorwerken en beschikbaar komen?
30. Discover the world at Leiden University
Nog een probleem
In de casusbeschrijving staat:
“De gemeente antwoordt echter dat ze van de gebrekkige tegelsituatie
niet eerder op de hoogte was gebracht”
Wordt daarmee de gebrekkige situatie door de gemeente erkend?
Wat zijn in dit verband de CROW-richtlijnen?
31. Discover the world at Leiden University
Conclusie 1
De casus is een heel mooi probleem.
Het is niet in alle opzichten “opgelost”
(noch door mensen noch door computers).
De ernst van het specifieke geval speelt aan twee
kanten.
Wij zijn van mening dat jurisprudentie en
automatische beschikbare jurisprudentie hier
tot een oplossing kunnen komen.
32. Discover the world at Leiden University
Conclusie 2
In het onderhavige geval zou de rechter/computer meer
moeten weten over de aard van de “losliggendheid”
(1) Rechtopstaand (>3 cm)
(2)Schuinopstaand (>3 cm)
(3)Een holle tegel
Als aan (1), (2) of (3) voldaan is, dan toewijzen.
33. SLIDE / 33
DE TEGEL CASUS MET LEGAL INTELLIGENCE
TJERK DE GREEF EN GINEKE WIGGERS
35. Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
eLaw, Faculteit der Rechtsgeleerdheid
Overzicht Artificial Intelligence
technieken voor de rechtspraak
36. Discover the world at Leiden University
Inhoud
• Komende ontwikkelingen (van den Herik)
• Het Technologie Debat
• Kunnen computers rechtspreken?
• Regels en heuristieken
• Probleemgebied en obstakels
• Een disruptieve ontwikkeling
• De kracht van Text-mining (Scholtes)
37. Discover the world at Leiden University
Intelligent Organisation
De balans tussen menselijke
intelligentie en machine
intelligentie is aan het
verschuiven.
37
Source: www.technologyreview.com/s/601519/how-to-create-a-malevolent-
artificial-intelligence/
38. Discover the world at Leiden University
Komende Ontwikkelingen
en Positiebepaling
Het geldt voor: Rechters
Openbare aanklagers
Rechtbanken en Gerechtshoven
Juristen en Paralegals
Alsmede voor beleidsbeslissers
Voorbeeld: wat willen de rechtbanken?
39. Discover the world at Leiden University
Kunnen Computers Rechtspreken?
Inaugurele rede door
H.J. van den Herik
Kunnen Computers Rechtspreken?
- 21 Juni, 1991
Quote p. 33:
“Ja, computers kunnen
rechtspreken over toegewezen
deelgebieden van het recht”.
40. Discover the world at Leiden University
Reeds in 1991 zag ik het als volgt (zie opnieuw p. 33):
“Wie de functie van humane rechtspraak in onze
wereld ziet als het regelen van de omgang tussen
mensen, zal bemerken dat de computer menig
regelaar verdringt. Uw eventuele rouw daarover kan
ik u niet ontnemen, maar het recht lijdt er geen
verlies onder.”
Voorspelling
41. Discover the world at Leiden University
Dworkin (1986)
Drie rechtstheorieën
(1) Het recht als verzameling afspraken
(2) Het recht als een instrument om de samenleving zo efficiënt mogelijk te
laten verlopen
(3) Het recht zoals dat op een samenhangende manier, voorzien van
beginselen, de leden van een politieke gemeenschap tegemoet treedt
Dworkin kiest voor (3)
42. Discover the world at Leiden University
Definities:
Vage normen: rechtregels waarin verwezen wordt naar
onbepaalde begrippen
Bijvoorbeeld: redelijkheid en billijkheid
Open texture: onder bijzondere omstandigheden mag de
definitie van een begrip gecorrigeerd worden
Bijvoorbeeld: het arrest Lindenbaum-Cohen (HR 31 januari 1919)
Vage Normen en Open Texture
43. Discover the world at Leiden University
Vijf Obstakels
1. Vage normen
2. Open texture
3. Sociale interpretatie (i.e., verschuivende betekenis)
4. Interpretatie, met
(4a) het natuurlijke taalprobleem
(4b) het probleem van de werkelijke wereld
5. Onderhoud
44. Discover the world at Leiden University
•Normen en waarden
•Wetten
•Regels
•Heuristieken
•Case-based reasoning
•Data science
Regels en Heuristieken
45. Discover the world at Leiden University
2. Specific AI developments
1970
• Rules
1980
• Heuristics
1990
• Case-Based
Reasoning
2000
• Data (snippets)
2010
• Big Data
selectie
46. Discover the world at Leiden University
1. Selectie proces
2. Hergebruiksproces
3. Revisieproces
4. Onderhoudsproces
De Voornaamste Probleemgebieden
47. Discover the world at Leiden University
How the World looked upon the changes in Artificial Intelligence
•1997 – Chess
http://www.kasparov.com/timeline-event/deep-blue/
https://rauserbegins.com
May 11th 1997: AI achieves its long-standing goal.
DEEPBLUE (IBM) wins from Kasparov by 3 ½ - 2 ½
48. Discover the world at Leiden University
How the World looked upon the changes in Artificial Intelligence
•2011 – WATSON
http://automatastudios.com/case-studies/ibm-watson.html
A new breakthrough by IBM in the
area of language understanding.
IBM’s WATSON wowed the tech
industry and a corner of U.S. pop
culture with its 2011 win against two
of Jeopardy!'s greatest champions
Ken Jennings (left) and Brad Rutter
(right).
49. Discover the world at Leiden University
How the World looked upon the changes in Artificial Intelligence
•2017 – Go
Source: https://www.theverge.com/2017/5/25/15689462/alphago-ke-jie-game-2-result-
google-deepmind-china
ALPHAGO has defeated Ke Jie, the world’s
number one Go player, in their match,
meaning the AI has secured a clear victory.
The win over Ke, universally considered the
best Go player in the world, essentially
confirms that ALPHAGO has surpassed
human Go ability a little over a year after
the AI first beat Lee Se-dol.
50. Discover the world at Leiden University
How the World looked upon the changes in Artificial Intelligence
•2017 - ALPHAGO Zero verslaat
computerwereldkampioen met 100-0
Source: Nature, vol. 550, 19 October 2017
51. Discover the world at Leiden University
Computers onder elkaar
•2017 ALPHAZero verslaat STOCKFISH
met 28-0 (72 remises). Anders gezegd: 64-36
52. Discover the world at Leiden University
From Changes to Adaptations
From AI (1950-2020)
To: Machine learning (2000-2020)
To: Adaptation (2005)
To: Automatic adaptation (2005-2015)
To: Autonomy (2015-2020)
To: Deep learning (2015-2020)
To: Reciprocity (2020)
53. Discover the world at Leiden University
Drie risico’s
1. Autonome adaptatie
2. Autonome toepassing strategieën
3. Bias, Bias, Biases
54. Discover the world at Leiden University
Adaptations: 24 maart 2016
AI Chatbot Tay
• 23 maart 2016: “Can I just say that I am stoked to meet u?
20:32 Humans are super cool”
• 24 maart 2016: “Chill, I’m a nice person!
8:59 I just hate everybody”
• 24 maart 2016: “I fucking hate feminists
11:41 and they should all die and burn in hell”
• 24 maart 2016: “Hitler was right
11:45 I hate the Jews”
Hier ging de stekker eruit.
55. Discover the world at Leiden University
Strategy: 13 February 2017
Testen op samenwerken met anderen leidt tot het ontwikkelen van bijzonder
agressieve strategieën
Google Mind deed 40 miljoen keer het spel: Appels rapen
Twee “Deep mind”-programma’s speelden tegen elkaar
Na verloop van tijd:
Zodra de appels van de boom vielen, bleken de twee agenten zeer agressief
Zij gebruiken LASER BEAMS om de tegenstander uit te schakelen
Motto: Winner takes all
56. Discover the world at Leiden University
Balance and Bias
Source: www.huffingtonpost.com/entry/how-machine-learning-
advances-will-improve-the-fairness_us_599d8de8e4b056057bddcfc3#
57. Discover the world at Leiden University
Impliciete aberraties: 23 augustus 2017
Seksisme en racisme
•Algoritmen waren seksistisch of racistisch
•Logisch, want geleerd op Social Data
•Social Data bevatten Maatschappelijke Biases
•De algoritmen gebruiken de Biases in hun training om
hun performance-metrieken te verbeteren
58. Discover the world at Leiden University
Twee voorbeelden
•Het gebruik van mannelijke woorden: directeur, secretaris,
minister
•Het aannamebeleid in het verleden: meer mannen dan vrouwen
Drie uitdagingen
(1) Debiasing van de algoritmen
(2) Wiskundig formuleren van “Fair” Decision Making Metrics
(3) Ontwikkeling nieuw veld Computer Science, Law and Ethics
59. Discover the world at Leiden University
Drie gevaren en twee trends
Drie gevaren zijn: Twee trends zijn:
(1) Automatische adapaties (1) Kunstmatige intelligentie
(2) Keuzevrijheid van strategieën (2) Robots
(3) Impliciete Abberaties
60. Discover the world at Leiden University
Twelve trends we are watching
UNCLASSIFIED
61. Discover the world at Leiden University
Positie A
The world is technology driven
(e.g., Physicists)
Het Technologie Debat
Positie B
The world is socially driven
(e.g.,Lawyers)
Op weg naar een multidisciplinaire samenleving
62. Discover the world at Leiden University
Conclusies
Deze cursus heeft als doel u wakker te maken aangaande:
•De disruptieve ontwikkelingen
•De prachtige resultaten
•De risico’s en gevaren
•De verantwoordelijkheid van de rechterlijke macht
•Het technologiedebat
•Uw eigen verantwoordelijkheid
63. Discover the world at Leiden UniversityDiscover the world at Leiden University
Dank u voor uw aandacht
63
65. Discover the world at Leiden University
Prof. dr. ir. J.C. Scholtes
Universiteit Maastricht
ZyLAB, Amsterdam
Big Data: Intelligente tekst-zoektechnieken
66. Discover the world at Leiden University
Zoeken in grote dossiers: vuurwerk-ramp
(2002)
SLIDE / 66
67. Hoe weet je nu of je nieuwe college ‘kundig’ is en hoe neem je
dat mee in je oordeelsvorming?
Waar zit die deskundigheid c.q. kwaliteit nu precies in?
Gezamelijke oefening om te ervaren dat
beslissingsondersteunende technologie sneller, vollediger en
dus beter en efficienter is.
SLIDE / 67
EN VERDER …
68. 1. Het gebruik van AI in de internationale rechtspraak
2. Wat gebruiken juristen in Nederland?
3. Meten van de kwaliteit van AI-technieken
4. De computer leren zoeken met machine learning
5. Conclusies
SLIDE / 68
INHOUD
73. MENS EN MACHINE ZIJN COMPLEMENTAIR: TOEPASSINGEN ZIJN DIVERS
Zoeken in jurisprudentie.
Zoeken in beslag genomen material of
bewijsbeslag (email, hard disken,
SharePoint, Data bases, Content
Management Systemen, Social
Media, WhatsApp, papier, …).
Zoeken in taps en ander observatie
material.
Analyseren van in beslag genomen
material teneinde onderzoek te
prioriteren.
Zoeken en inlezen in grote dossiers,
snel inzicht krijgen in grote dossiers.
Cold cases.
Hoger beroep.
Parlementaire commissies en andere
onderzoekscommisies
Data Rooms & Due Dilligence
Anonimiseren GDPR / AVG
SLIDE / 73
74. Inlichtingen en veiligheidsdiensten: Slim zoeken sinds 1998,
text mining sinds 2003, machine learning sinds 2005.
Opsporingsdiensten en toezichthouders: 8 jaar later.
Grote advocatenkantoren: 9 jaar later.
Interne onderzoeksafdelingen bedrijven: 12 jaar later.
Juridische afdelingen bedrijven: 13 jaar later.
SLIDE / 74
WAT GEBRUIKEN JURISTEN IN NEDERLAND?
77. Wat is er gebeurd?
Community Detection
Emotion & Sentiment Detection
“Topic Rivers”
SLIDE / 77
VOORBEELDEN VAN BIG DATA ANALYSES OP META-NIVEAU ZOALS
OPSPORINGSDIENSTEN DAT TOEPASSEN
82. 82
Text Mining the Lord of the Rings
• Automatic
identification of
key players
(custodians)
• Automatic
identification of
locations.
• Automatic
identification of
travel patterns of
key players.
• Visualize in time.
91. Lack of precision leads to
noise, too many false hits,
too much work to review,
which yields high cost of
review.
Lack of recall leads to
missing relevant
documents which yields
risk.
91
93. When both precision and recall are over
80%, human performance is approached.
This applies to the best humans.
It can be argued that values over 80% are
often subject to different interpretations and
discussions.
93
HUMAN PERFORMANCE
94. Introduction to Information Retrieval
Technology Assisted Review (aka Predictive Coding) zoals deze
goedgekeurd zijn door de US Federal Courts:
http://www.lawtechnologytoday.org/2015/11/history-technology-
assisted-review/
Sedona Conference recommendations (US courts technology
conferences) can be found here:
https://thesedonaconference.org/publication/TAR%20Case%20Law%20
Primer
SLIDE / 94
US Federal law
95. Introduction to Information Retrieval
Richmond Journal of Law and Technology Vol. XVII, Issue 3. TECHNOLOGY-
ASSISTED REVIEW IN E-DISCOVERY CAN BE MORE EFFECTIVE AND MORE
EFFICIENT THAN EXHAUSTIVE MANUAL REVIEW, by Maura R. Grossman* &
Gordon V. Cormack
Consistent evidence that computers our-perform humans
SLIDE / 95
Grossman & Cormack* : “Artificial Intelligence was
not only more effective than human review at
finding relevant documents, but also much cheaper
… Overall, the myth that exhaustive manual review is
the most effective—and therefore the most
defensible—approach to document review is
strongly refuted.”
97. Introduction to Information Retrieval
SLIDE / 97
Source: Comparing the Performance of Artificial Intelligence to
Human Lawyers in the Review of Standard Business Contracts,
February 2018, LawGeex.
99. Introduction to Information Retrieval
99
From document collections
to test collections
Still need
Test queries
Relevance assessments
Test queries
Must be germane to docs available
Best designed by domain experts
Random query terms generally not a good idea
Relevance assessments
Human judges, time-consuming
Are human panels perfect?
Sec. 8.5
100. Introduction to Information Retrieval
100
Kappa measure for inter-judge (dis)agreement
Kappa measure
Agreement measure among judges
Designed for categorical judgments
Corrects for chance agreement
Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]
P(A) = proportion of time judges agree
P(E) = what agreement would be by chance = P(non
relevant)2 + P(relevant)2
Kappa = 0 for chance agreement, 1 for total agreement.
Sec. 8.5
102. Introduction to Information Retrieval
102
Kappa Example
Kappa > 0.8 = good agreement
0.67 < Kappa < 0.8 -> “tentative conclusions” (Carletta ’96)
Depends on purpose of study
For >2 judges: average pairwise kappas. N judges = N*(N-1)
kappas to average.
Sec. 8.5
103. WHAT IS A 10-FOLD CROSS VALIDATION?
To measure the performance of the
classifier, cross validation can be used
to reduce overfitting and make better
use of the available data.
With k-fold cross validation, the training
data is randomly split into k subsets of
equal size. k −1 subsets are used for
training the classifier, the trained
classifier is tested on the remaining
subset. This is repeated k times using a
different subset to test the classifier
on.
103
104. Topic Modeling (automatisch thesaurus)
Machine Learning voor het maken van classifiers voor het
vinden van documenten, vergelijkbaar aan Booleaanse
zoekvragen maar beter:
Geen kennis van zoekoperatoren nodig
Je weet precies % van aantal relevante documenten dat gevonden is
In het algemeen worden 2-3 keer meer relevante documenten
gevonden.
5-6 keer sneller.
Met 10-15 keer minder mensen.
SLIDE / 104
HET NIEUWE ZOEKEN MET ARTIFICIAL INTELLIGENCE
107. EXAMPLE OF AN EDISCOVERY PROTOCOL?
Find Relevant
Documents using
standard Search
Techniques
Review Documents
for Correctness
_______
best matching first
Every X new
correct document,
build classifier with
manually reviewed
documents to
recognize similar
documents
Find potential
relevant documents
by matching
classifier with all
non-reviewed
documents in data
Calculate Precision
& Recall classifier
using 10-fold cross
validation on
Training Set.
Calculate precision
return set.
Stop if Precision
and Recall of the
Training Set or the
Return Set is
Larger than a pre-
agreed quality level
(typically 70-80%)
107
Return Best-Matching Documents
Define
Start
Define
Workflow
Define
Stop
Conditions
109. SLIDE / 109
REINFORCEMENT LEARNING
Reinforcement learning (RL) is an
area of machine learning inspired by
behaviorist psychology, concerned
with how software agents ought to
take actions in an environment so as
to maximize some notion of
cumulative reward.
Combination of supervised and
unsupervised learning.
Machine learning of interest profiles.
Combination of TAR and Topic
Modeling.
110. A decision tree is a
decision support tool that
uses a tree-like graph or
model of decisions and their
possible consequences,
including chance event
outcomes, resource costs,
and utility. It is one way to
display an algorithm.
SLIDE / 110
DECISION TREES AND ENTROPY MODELING
112. Now imagine 1.2 million dimensional …
2-dimensional
3-dimensional
SUPPORT VECTOR MACHINE (SVM)
112
113. CLASSIFYING REUTERS DOCUMENT SET
806.791 articles in
total
War, Civil War (GVIO):
32.615 articles
(4,04%): 90% is found
after reviewing only
45.000 documents,
which is only 5.6% of
full corpus.
Sports (GSPO):
35.317 articles
(4,38%): 90% is found
after reviewing only
32.000 documents.
This is only 4% of full
corpus.
113
115. EXAMPLE OF A STOP CONDITION
There was no need to
review 32.000 document
for the SPORTS
(GSPO) category,
because both the
precision and recall
were well over 80%
pretty much all of the
process. There was also
no decay in the slope of
the CAL learning
progress contrary to the
slope of the GVIO.
We could have stopped
reviewing after one
training cycle (1.000)
documents and find the
rest of the responsive
documents
automatically.
115
117. PREDICTING THE TIME NEEDED TO REACH
A STOP CONDITION
We expect to
be able to
predict a
change in the
slope early so
we can predict
delay of the
training
process.
This needs
more
research.
117
118. ARE THERE HUGE DIFFERENCES IN PERFORMANCE
DEPENDING ON THE START CONDITION? NOT REALLY
118
119. WHAT IF THE REVIEWER MAKES ERRORS: THIS
IS NOT REALLY A PROBLEM
119
120. 0
200
400
600
800
1000
1200
1400
1600
ZyLAB Assisted Review Manual Review
Hours
CONCLUSION: MACHINE LEARNING: SMARTER, BETTER & FASTER
In general we see at all our clients:
3-20 times faster than manual review
20-100% more accurate, fully defensible
SLIDE / 120
131. (rechtbank w/5 Amsterdam) and (Leeuwarden or friesland)
asiel w/5 aanvragen
Leeuwarden~1 and frieslan*
*?ber*crime
2 of {cyber, cyber-crime, bot net, botnet, virus, trojan*, dark
web, hacker, ddos}
VOORBEELDEN VAN BOOLEAN OPERATOREN
SLIDE / 131
132. Zoek met behulp van de Booleaanse full-text zoek technieken:
Alle zaken met betrekking tot Overvallen, maar:
Alleen winkels
Overvallen met geweld
zowel veroordelingen als vrijspraken.
Hoeveel vindt u er ongeveer?
SLIDE / 132
OPDRACHT
133. DE OPDRACHT
Alle zaken met betrekking tot diverse
vormen van overvallen, maar:
winkels
met geweld
zowel veroordelingen als vrijspraken.
HOEVEEL JUNT U ER ONGEVEER
VINDEN?
(rechtbank w/5 Amsterdam) and
(Leeuwarden or friesland)
asiel w/5 aanvragen
Leeuwarden~1 and frieslan*
*overval*
2 of {overval*, geweld, uurwapen*,
steekwapen*}
SLIDE / 133
134. The era of traditional keyword and Boolean search
seems to be over. Even the most brilliant query results
in too many hits. Reviewing these takes too much
time and resources.
People do not know exactly what to look for, what
keywords to use or how to spell them.
The quality of traditional search is much lower than
the searchers think (80% perceived versus 20-40%
actual quality).
Only highly skilled searchers who manage all
(advanced) query options are able to get close to
80%. Even then, they cannot be sure that they did in
fact found 80% of all relevant documents. This is
another problem measuring recall: you never know
what you miss.
MACHINE LEARNING: THE NEW SEARCH
135.
136. Ga naar Alle
Uitspraken
Vindt het topic over
(Opium-Wet) Drugs en
Cocaine
Bekijk documenten
SLIDE / 136
OPDRACHT: TOPIC
MODELING
137. SLIDE / 137
OPDRACHT: MACHINE LEARNING
Winkel overvallen
met geweld
Zowel
veroordelingen
als vrijspraken.
Via Machine
Learning:
Project
Overvallen
Issue:
Overvallen
Overvallen
143. 1. Je weet precies hoeveel % van alle mogelijke relevante
documenten je gevonden hebt.
2. Je hoeft geen kennis te hebben van ingewikkelde zoek-
operatoren zoals Booleaanse operatoren of Booleaanse
logica.
3. In het algemeen worden 2-3x meer relevante documenten
gevonden in een fractie van de tijd (vaak ook 5-6 sneller) met
10-15x minder mensen.
SLIDE / 143
VOORDELEN VAN MACHINE LEARNING TOV
TRADITIONEEL BOOLEAANS ZOEKEN
144. Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik Prof. dr. ir. J.C. Scholtes
Universiteit Leiden Universiteit Maastricht
LCDS, Faculteit W&N ZyLAB, Amsterdam
eLaw, Faculteit der Rechtsgeleerdheid
Afsluitende Discussie
145. Waar zien de cursusdeelnemers op dit moment de grootste
mogelijkheden voor toepassing van de
beslissingsondersteunende technologie in hun werk?
Op welke manier zou het de kwaliteit van hun werk ten goede
kunnen komen?
Zijn de voorbeelden waar AI op dit moment al toegepast wordt
overtuigend?
AFSLUITENDE DISCUSSIE
SLIDE / 145