Big Data en Data Science en de Rechtspraak

Discover the world at Leiden University
Prof. dr. H. Jaap van den Herik Prof. dr. ir. J.C. Scholtes
Universiteit Leiden Universiteit Maastricht
LCDS, Faculteit W&N ZyLAB, Amsterdam
eLaw, Faculteit der Rechtsgeleerdheid
SSR Training Big Data en Data Science
23 Mei 2018

UW DOCENTEN Prof Dr Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
eLaw, Faculteit der
Rechtsgeleerdheid
Jaap van den Herik studied mathematics (with honours) at the Vrije Universiteit
Amsterdam and received his PhD degree at Delft University of Technology in 1983. In
1984 he was visiting professor at the McGill School of Computer Science in Montreal.
Thereafter, he was subsequently affiliated with Maastricht University (1987- 2008)
and Tilburg University (2008-2016) as full professor in Computer Science. He is the
founding director of IKAT (Institute of Knowledge and Agent Technology) and TiCC
(Tilburg center for Cognition and Communication) and was supervisor of 79 PhD
researchers.
At Leiden University, Van den Herik was affiliated with the department of Computer
Science (now LIACS) between 1984 and 1988. He became professor of Computer
Science and Law in 1988, at the Center for Law in the Information Society (eLaw).
Since 2012, he is also a fellow professor at the Centre for Regional Knowledge
Development (CRK), for the supervision of PhD students. Furthermore, he has been
part of the Leiden Institute of Advanced Computer Science (LIACS) since 2014,
where he founded the Leiden Centre of Data Science (LCDS) together with Joost
Kok and Jacqueline Meulman.
Van den Herik’s research interests include artificial intelligence, intelligent legal
systems, big data and social innovation. In 2012, he received an ERC Advanced
Grant together with Jos Vermaseren (PI, Nikhef) and Aske Plaat, for the research
proposal “Solving High Energy Physics Equations using Monte Carlo Gaming
Techniques.” Van den Herik received a Humies Award in 2014, for his work on chess
programming.
Van den Herik is active in many organizations and advisory boards, such as the
Belgian Netherlands Association of AI, JURIX, the ICGA, ToKeN, Catch and the
consortium BiG Grid. Furthermore, he is a fellow of the European Coordinating
Committee for AI (ECCAI), and member of the Royal Holland Society of Sciences
and Humanities.
SLIDE / 2

UW DOCENTEN Prof dr ir Jan Scholtes
CSO at ZyLAB
Professor Text-Mining
University of Maastricht
From 1987 to 2009 Scholtes acted as President / CEO of
ZyLAB. Scholtes has been involved in deploying in-house
e-discovery software with organization such as the UN War
Crimes Tribunals, the FBI-ENRON investigations, the EOP
(White House), DNB, ACM, FTC, EC, ABN-AMRO, ING,
Vanguard, Fico, and thousands of other users worldwide.
Since 2008, Scholtes holds the extra-ordinary Chair in Text
Mining from the Department of Knowledge Engineering at
the University of Maastricht and he is a senior research
fellow of the Dutch School for Information and Knowledge
Systems (SIKS). (SIKS) is a Dutch Research School
established in 1996 and accredited by the Royal
Netherlands Academy of Arts and Sciences
(http://www.siks.nl/).
Before joining ZyLAB in 1989, Scholtes was lieutenant in
the intelligence department of the Royal Dutch Navy.
Scholtes holds a M.Sc. degree in Computer Science from
Delft University of Technology and a Ph.D. in
Computational Linguistics from the University of
Amsterdam.
SLIDE / 3
https://www.linkedin.com/in/jscholtes/

9.30 - 10.00 Inloop
10.00 - 10.30 Introductie docenten en begin discussie.
10.30 - 11.15 Tegelcasus: Case Based Reasoning met big-data (JvdH) en demo LI
11.15 - 11.30 Pauze
11.30 - 12.30 Overzicht Artificial Intelligence technieken voor de rechtspraak (JvdH)
12.30 - 13.15 Lunch
13.15 - 14.15 Big Data: Intelligente Zoektechnieken (JS)
14.15 - 14.30 Pauze
14.30 - 16.00 Opdrachten: Intelligente Zoektechnieken voor Jurisprudentie (JS)
16.00 - 16.30 Discussie
DAGINDELING
SLIDE / 4

WAT IS ARTIFICIAL INTELLIGENCE?
SLIDE / 5

SLIDE / 6
AI DIE WE DAGELIJKS KUNNEN GEBRUIKEN

 De focus van de training zal liggen op
beslissingsondersteunende zoektechnologie voor de
rechtspraak, waarbij gebruik gemaakt kan worden van ideeën
en concepten uit de wereld van Big Data en Data Science.
 Omdat veel data van de Raad voor de Rechtspraak
ongestructureerd (tekstueel) van aard is, zal in een aantal
sessies worden uitgelegd hoe de rechtspraak gebruik kan
maken van dit soort technieken bij o.a. het zoeken in
jurisprudentie.
SLIDE / 8
BIG DATA EN DATA SCIENCE

Rechtbanken willen zo goed mogelijk rechtspreken
en daarbij zo goed mogelijk ondersteund worden.
•Toekomst 1: rechters moeten nieuwe systemen (computers en
intelligente machines) hebben om casusposities op de
traditionele manier te beoordelen (De Comfort Zone)
•Toekomst 2: (totaal verschillend -> disruptive). De introductie
van een serie ‘capabele systemen’ die het werk van traditionele
rechters geheel autonoom uitvoeren.
Wat willen Rechtbanken?

Nu (2018) lopen de twee toekomstperspectieven nog parallel.
Ze zullen steeds meer naar elkaar toegroeien (2018-2035).
Op de lange duur zal TOEKOMST 2 domineren (na 2040).
Vragen:
1. Willen we dit?
2. Willen we dit niet?
3. Wat willen we dan?
4. Willen we de technologische ontwikkeling tegenhouden?
Wat willen Rechtbanken?

Positie A
The world is technology driven
(e.g., Physicists)
Het Technologie Debat
Positie B
The world is socially driven
(e.g.,Lawyers)

Prof. dr. H. Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
Tegelcasus: Case Based Reasoning
met big data

De Casus
• Op een broeierige zomeravond stapt mevrouw Inge Janssens (70) uit de bus
en wandelt rustig het voetpad af naar de woning van haar dochter.
• Vogels fluiten, er is weinig verkeer, mensen zijn mooi uitgedost en groeten
elkaar van harte, het lijkt wel een Italiaanse passeggiata.
• Goedgemutst zet mevrouw Janssens haar wandeling in de laaghangende en
enigszins verblindende zon verder, tot ze over een losliggende voetpadtegel
struikelt, ten val komt en haar been breekt. Ze stelt de gemeente aansprakelijk,
waar deze dient toe te zien op de goede staat van haar voetpaden.
• De gemeente antwoordt echter dat ze van de gebrekkige tegelsituatie niet
eerder op de hoogte was gebracht. Mevrouw Janssens stelt dan weer dat de
tegel overduidelijk aan herstelling toe was en dat de gemeente het gebrek zelf
eerder had moeten registreren en verhelpen.
• Wie verklaart u aansprakelijk, de gemeente of mevrouw Janssens?

Relevante Wetgeving
We beperken ons tot het Nederlandse Recht [b.v. Rechtbank Rotterdam]
Wetsverwijzingen: Burgerlijk Wetboek Boek 6
Burgerlijk Wetboek Boek 6 174
Wetboek van Burgerlijke Rechtsvordering
Wetboek van Burgerlijke Rechtvordering 1019aa
Vindplaatsen: Rechtspraak.nl
Prg. 2012/52
JA 2012/186
VR 2013/29

Datum Uitspraak 21 juli 2011
Vraag of gemeente aansprakelijk is voor schade als gevolg van
scheef liggende stoeptegel. Het trottoir voldeed niet aan de
norm van het CROW. Gelet op de omstandigheden is de
gemeente aansprakelijk. Geen vermindering aansprakelijkheid
als gevolg van eigen schuld.
CROW = Stichting Centrum voor Regelgeving en Onderhoud
in Grond-, Water en Wegenbouw en Verkeerstechniek.

Verzoekster
[verzoekster] liep op zondagmiddag 29 augustus 2010
samen met een vriendin in westelijke richting over de
Prins Bernhardkade te [plaats]. Toen zij de Willem van
Hillegaersbergstraat overstaken, is [verzoekster], toen
zij de stoep aan de overzijde van de weg opstapte, ten
val gekomen als gevolg van hoogteverschil tussen twee
tegels. Hierdoor heeft zij een enkeldistorsie (verstuikte
enkel) opgelopen.

Uitgangspunt 1:
Aansprakelijkheid gemeente voor slecht wegdek
In de stad is de wegbeheerder meestal de gemeente.
De gemeente is ervoor verantwoordelijk dat de wegen goed
worden onderhouden, zodat gevaarlijke situaties worden
voorkomen. Wanneer een stoeptegel gevaarlijk is, zal afhangen
van de omstandigheden. Meestal wordt gekeken naar het
hoogteverschil tussen de uitstekende stoeptegel en de stoep. Is
het verschil meer dan 3 centimeter, dan is de stoep gebrekkig en
zal de gemeente in principe aansprakelijk zijn op grond van
artikel 6:174 BW.

Uitgangspunt 2:
Wanneer is de gemeente niet aansprakelijk?
De gemeente, als wegbeheerder, is niet aansprakelijk wanneer zij
niet op de hoogte had kunnen zijn van de losliggende of uitstekende
stoeltegel, of als zij te weinig tijd had om het te herstellen. Dit
betekent dus dat de gevaarlijke situatie van de uitstekende of scheve
stoeptegel al langer moet bestaan. De wegbeheerder moet in ieder
geval de gelegenheid hebben gehad om het gebrek met de stoeptegel
te verhelpen. Het zal afhangen van de omstandigheden van het geval
of de wegbeheerder al dan niet deze gelegenheid heeft gehad.

Uitgangspunt 3:
Eerdere Gerechtelijke procedures
Jurisprudentie (Case Law)
Voor computers: Case-Based Reasoning

Uitgangspunt 3A:
Gerechtelijke procedures gekwantificeerd
Uit onderzoek in 2013 van de ANWB blijkt dat voetgangers,
(brom)fietsers en motorrijders steeds vaker naar de rechter stappen om
hun letselschade op de wegbeheerder te verhalen.
Het gaat dan niet alleen om stoeptegels, maar ook om ongelukken door
boomwortels, letsel door fietspaaltjes en mensen die zijn gevallen door een
gat in de weg. In de periode van 2007 tot 2013 kwamen vijftig van
dergelijke zaken voor de rechter. Bij slechts één op de vijf claims werd de
weggebruiker volledig in het gelijk gesteld. In de helft van de gevallen bleek
de wegbeheerder niet aansprakelijk.

Een greep uit de opgeslagen casusposities
Rechtbank Rotterdam 2011: BU9562
Gemeente aansprakelijk, betaald E 1000,- (gevraagd E 1505,35)
Rechtbank Midden Nederland 2014: VR 2015/72
(Amersfoort) Aansprakelijkheid niet vastgesteld
(geen uitspraak over kosten, slechts begroot)
Hof ’s Hertogenbosch 2013: VR 2013/28
Hof heeft uitspraak rechtbank bekrachtigd
(twee grieven: 3 cm en gebrekkige weg)
[Speciale casus: Wilnis wegverzakking door droogte]

Uitgangspunten in onze casus
1. Wie stelt moet bewijzen
2. Laaghangende zon speelt mee
3. Losse tegel niet automatisch gebrek
4. Mw. van 70 dient voorzichtigheid in acht te
nemen
5. Gebrek niet gemeld (wel regelmatige inspectie)

Casus Maastricht

Case-based Reasoning
Probleem nieuwe
casus
geleerde
casus
geselecteerde
casus
nieuwe
casus
opgeloste
casus
Selectie
Hergebruik
Revisie
Onderhoud
gereviseerde
casus
Bevestigde oplossing Voorgestelde oplossing
Algemene kennis
Opgeslagen
casus

De voornaamste probleemgebieden
1. Selectie proces
2. Hergebruiksproces
3. Revisieproces
4. Onderhoudsproces

Probleemstelling
Op welke wijze kan de bestaande
praktijk met behulp van data-
science technologie zichtbaar
worden gemaakt voor een rechter
die in een individuele casus beslist?

Drie vraagstellingen
1. Wat zijn de criteria volgens welke
casusposities door rechters tot
vergelijkbare casusposities
worden gerekend?

2. Op welke wijze kan uit de
geregistreerde gevallen de relevante
informatie worden geselecteerd?

3. Op welke wijze dienen
casusposities te worden
geregistreerd, zodat ontwikkelingen
in de aangeboden informatie
doorwerken en beschikbaar komen?

Nog een probleem
In de casusbeschrijving staat:
“De gemeente antwoordt echter dat ze van de gebrekkige tegelsituatie
niet eerder op de hoogte was gebracht”
Wordt daarmee de gebrekkige situatie door de gemeente erkend?
Wat zijn in dit verband de CROW-richtlijnen?

Conclusie 1
De casus is een heel mooi probleem.
Het is niet in alle opzichten “opgelost”
(noch door mensen noch door computers).
De ernst van het specifieke geval speelt aan twee
kanten.
Wij zijn van mening dat jurisprudentie en
automatische beschikbare jurisprudentie hier
tot een oplossing kunnen komen.

Conclusie 2
In het onderhavige geval zou de rechter/computer meer
moeten weten over de aard van de “losliggendheid”
(1) Rechtopstaand (>3 cm)
(2)Schuinopstaand (>3 cm)
(3)Een holle tegel
Als aan (1), (2) of (3) voldaan is, dan toewijzen.

SLIDE / 33
DE TEGEL CASUS MET LEGAL INTELLIGENCE
TJERK DE GREEF EN GINEKE WIGGERS

Discover the world at Leiden University SLIDE / 34

Prof. dr. H. Jaap van den Herik
Universiteit Leiden
LCDS, Faculteit W&N
Overzicht Artificial Intelligence
technieken voor de rechtspraak

Inhoud
• Komende ontwikkelingen (van den Herik)
• Het Technologie Debat
• Kunnen computers rechtspreken?
• Regels en heuristieken
• Probleemgebied en obstakels
• Een disruptieve ontwikkeling
• De kracht van Text-mining (Scholtes)

Intelligent Organisation
De balans tussen menselijke
intelligentie en machine
intelligentie is aan het
verschuiven.
37
Source: www.technologyreview.com/s/601519/how-to-create-a-malevolent-
artificial-intelligence/

Komende Ontwikkelingen
en Positiebepaling
Het geldt voor: Rechters
Openbare aanklagers
Rechtbanken en Gerechtshoven
Juristen en Paralegals
Alsmede voor beleidsbeslissers
Voorbeeld: wat willen de rechtbanken?

Kunnen Computers Rechtspreken?
Inaugurele rede door
H.J. van den Herik
Kunnen Computers Rechtspreken?
- 21 Juni, 1991
Quote p. 33:
“Ja, computers kunnen
rechtspreken over toegewezen
deelgebieden van het recht”.

Reeds in 1991 zag ik het als volgt (zie opnieuw p. 33):
“Wie de functie van humane rechtspraak in onze
wereld ziet als het regelen van de omgang tussen
mensen, zal bemerken dat de computer menig
regelaar verdringt. Uw eventuele rouw daarover kan
ik u niet ontnemen, maar het recht lijdt er geen
verlies onder.”
Voorspelling

Dworkin (1986)
Drie rechtstheorieën
(1) Het recht als verzameling afspraken
(2) Het recht als een instrument om de samenleving zo efficiënt mogelijk te
laten verlopen
(3) Het recht zoals dat op een samenhangende manier, voorzien van
beginselen, de leden van een politieke gemeenschap tegemoet treedt
Dworkin kiest voor (3)

Definities:
Vage normen: rechtregels waarin verwezen wordt naar
onbepaalde begrippen
Bijvoorbeeld: redelijkheid en billijkheid
Open texture: onder bijzondere omstandigheden mag de
definitie van een begrip gecorrigeerd worden
Bijvoorbeeld: het arrest Lindenbaum-Cohen (HR 31 januari 1919)
Vage Normen en Open Texture

Vijf Obstakels
1. Vage normen
2. Open texture
3. Sociale interpretatie (i.e., verschuivende betekenis)
4. Interpretatie, met
(4a) het natuurlijke taalprobleem
(4b) het probleem van de werkelijke wereld
5. Onderhoud

•Normen en waarden
•Wetten
•Regels
•Heuristieken
•Case-based reasoning
•Data science
Regels en Heuristieken

2. Specific AI developments
1970
• Rules
1980
• Heuristics
1990
• Case-Based
Reasoning
2000
• Data (snippets)
2010
• Big Data
selectie

1. Selectie proces
2. Hergebruiksproces
3. Revisieproces
4. Onderhoudsproces
De Voornaamste Probleemgebieden

How the World looked upon the changes in Artificial Intelligence
•1997 – Chess
http://www.kasparov.com/timeline-event/deep-blue/
https://rauserbegins.com
May 11th 1997: AI achieves its long-standing goal.
DEEPBLUE (IBM) wins from Kasparov by 3 ½ - 2 ½

•2011 – WATSON
http://automatastudios.com/case-studies/ibm-watson.html
A new breakthrough by IBM in the
area of language understanding.
IBM’s WATSON wowed the tech
industry and a corner of U.S. pop
culture with its 2011 win against two
of Jeopardy!'s greatest champions
Ken Jennings (left) and Brad Rutter
(right).

•2017 – Go
Source: https://www.theverge.com/2017/5/25/15689462/alphago-ke-jie-game-2-result-
google-deepmind-china
ALPHAGO has defeated Ke Jie, the world’s
number one Go player, in their match,
meaning the AI has secured a clear victory.
The win over Ke, universally considered the
best Go player in the world, essentially
confirms that ALPHAGO has surpassed
human Go ability a little over a year after
the AI first beat Lee Se-dol.

•2017 - ALPHAGO Zero verslaat
computerwereldkampioen met 100-0
Source: Nature, vol. 550, 19 October 2017

Computers onder elkaar
•2017 ALPHAZero verslaat STOCKFISH
met 28-0 (72 remises). Anders gezegd: 64-36

From Changes to Adaptations
From AI (1950-2020)
To: Machine learning (2000-2020)
To: Adaptation (2005)
To: Automatic adaptation (2005-2015)
To: Autonomy (2015-2020)
To: Deep learning (2015-2020)
To: Reciprocity (2020)

Drie risico’s
1. Autonome adaptatie
2. Autonome toepassing strategieën
3. Bias, Bias, Biases

Adaptations: 24 maart 2016
AI Chatbot Tay
• 23 maart 2016: “Can I just say that I am stoked to meet u?
20:32 Humans are super cool”
• 24 maart 2016: “Chill, I’m a nice person!
8:59 I just hate everybody”
• 24 maart 2016: “I fucking hate feminists
11:41 and they should all die and burn in hell”
• 24 maart 2016: “Hitler was right
11:45 I hate the Jews”
Hier ging de stekker eruit.

Strategy: 13 February 2017
Testen op samenwerken met anderen leidt tot het ontwikkelen van bijzonder
agressieve strategieën
Google Mind deed 40 miljoen keer het spel: Appels rapen
Twee “Deep mind”-programma’s speelden tegen elkaar
Na verloop van tijd:
Zodra de appels van de boom vielen, bleken de twee agenten zeer agressief
Zij gebruiken LASER BEAMS om de tegenstander uit te schakelen
Motto: Winner takes all

Balance and Bias
Source: www.huffingtonpost.com/entry/how-machine-learning-
advances-will-improve-the-fairness_us_599d8de8e4b056057bddcfc3#

Impliciete aberraties: 23 augustus 2017
Seksisme en racisme
•Algoritmen waren seksistisch of racistisch
•Logisch, want geleerd op Social Data
•Social Data bevatten Maatschappelijke Biases
•De algoritmen gebruiken de Biases in hun training om
hun performance-metrieken te verbeteren

Twee voorbeelden
•Het gebruik van mannelijke woorden: directeur, secretaris,
minister
•Het aannamebeleid in het verleden: meer mannen dan vrouwen
Drie uitdagingen
(1) Debiasing van de algoritmen
(2) Wiskundig formuleren van “Fair” Decision Making Metrics
(3) Ontwikkeling nieuw veld Computer Science, Law and Ethics

Drie gevaren en twee trends
Drie gevaren zijn: Twee trends zijn:
(1) Automatische adapaties (1) Kunstmatige intelligentie
(2) Keuzevrijheid van strategieën (2) Robots
(3) Impliciete Abberaties

Twelve trends we are watching
UNCLASSIFIED

Positie A
The world is technology driven
(e.g., Physicists)
Het Technologie Debat
Positie B
The world is socially driven
(e.g.,Lawyers)
Op weg naar een multidisciplinaire samenleving

Conclusies
Deze cursus heeft als doel u wakker te maken aangaande:
•De disruptieve ontwikkelingen
•De prachtige resultaten
•De risico’s en gevaren
•De verantwoordelijkheid van de rechterlijke macht
•Het technologiedebat
•Uw eigen verantwoordelijkheid

Discover the world at Leiden UniversityDiscover the world at Leiden University
Dank u voor uw aandacht
63

Discover the world at Leiden University SLIDE / 64
LUNCH

Prof. dr. ir. J.C. Scholtes
Universiteit Maastricht
ZyLAB, Amsterdam
Big Data: Intelligente tekst-zoektechnieken

Zoeken in grote dossiers: vuurwerk-ramp
(2002)
SLIDE / 66

 Hoe weet je nu of je nieuwe college ‘kundig’ is en hoe neem je
dat mee in je oordeelsvorming?
 Waar zit die deskundigheid c.q. kwaliteit nu precies in?
 Gezamelijke oefening om te ervaren dat
beslissingsondersteunende technologie sneller, vollediger en
dus beter en efficienter is.
SLIDE / 67
EN VERDER …

1. Het gebruik van AI in de internationale rechtspraak
2. Wat gebruiken juristen in Nederland?
3. Meten van de kwaliteit van AI-technieken
4. De computer leren zoeken met machine learning
5. Conclusies
SLIDE / 68
INHOUD

CASE STUDIE: INTERNATIONAL COURTS
SLIDE / 70

WHERE DO COMPUTERS OUTPERFORM HUMANS?
SLIDE / 71
Memory Consistency
24/7
Speed &
Scalability
Search
M&A and
Restructuring
Data
Collection
Analytics
eDiscovery,
Regulatory
Requests,
Investigations,
Truth Finding
Missions
Reporting
Archiving
Knowledge
ManagementProduction

MENS EN MACHINE ZIJN COMPLEMENTAIR: TOEPASSINGEN ZIJN DIVERS
 Zoeken in jurisprudentie.
 Zoeken in beslag genomen material of
bewijsbeslag (email, hard disken,
SharePoint, Data bases, Content
Management Systemen, Social
Media, WhatsApp, papier, …).
 Zoeken in taps en ander observatie
material.
 Analyseren van in beslag genomen
material teneinde onderzoek te
prioriteren.
 Zoeken en inlezen in grote dossiers,
snel inzicht krijgen in grote dossiers.
 Cold cases.
 Hoger beroep.
 Parlementaire commissies en andere
onderzoekscommisies
 Data Rooms & Due Dilligence
 Anonimiseren GDPR / AVG
SLIDE / 73

 Inlichtingen en veiligheidsdiensten: Slim zoeken sinds 1998,
text mining sinds 2003, machine learning sinds 2005.
 Opsporingsdiensten en toezichthouders: 8 jaar later.
 Grote advocatenkantoren: 9 jaar later.
 Interne onderzoeksafdelingen bedrijven: 12 jaar later.
 Juridische afdelingen bedrijven: 13 jaar later.
SLIDE / 74
WAT GEBRUIKEN JURISTEN IN NEDERLAND?

SLIDE / 75
eDiscovery, Waarheidsvinding,
Onderzoeken (intern en
toezichthouders), Bewijsbeslag, …

 Wat is er gebeurd?
 Community Detection
 Emotion & Sentiment Detection
 “Topic Rivers”
SLIDE / 77
VOORBEELDEN VAN BIG DATA ANALYSES OP META-NIVEAU ZOALS
OPSPORINGSDIENSTEN DAT TOEPASSEN

WHO: COMMUNITY DETECTION
SLIDE / 79

80
WHY & HOW: EMOTION DETECTION

82
Text Mining the Lord of the Rings
• Automatic
identification of
key players
(custodians)
• Automatic
identification of
locations.
• Automatic
identification of
travel patterns of
key players.
• Visualize in time.

SLIDE / 83
M&A
Contract
Drafting
VDR
Preparation
GDPR
Compliance
Vendor DD
Buyer DD
Reporting
VDR and
Q&A
Post-deal
eDiscovery
(R&W,
Compliance
Risks, …)
Post Deal
Integrations
ESCROW

 Mergers & Acquisition (M&A) Advocaten:
1. Paragraaf herkenning
2. Dossiers complementeren
3. Automatisch detecteren van potentiele deal-breakers
4. Black-lining ter bescherming van intellectuele
eigendommen
5. Black-lining ter bescherming van persoonsgegevens
6. Contract summary reports
SLIDE / 84
VOORBEELDEN VAN AUTOMATISCHE DOCUMENT ANALYZE

ADVOCATEN: M&A - AUTOMATISCHE DOCUMENT ANALYSE

AUTOMATISCH DETECTEREN VAN
POTENTIËLE DEAL-BREAKERS OF
PROBLEMEN

BLACKLINING EN PSEUDONIMISEREN TER BESCHERMING
VAN PERSOONSGEGEVENS (BULK REDACTIE)

SLIDE / 88
HOW DOES THAT WORK?
Search Pattern Recognition Text-Mining

Introduction to Information Retrieval
HOE EVALUEER WE NU DE KWALITEIT VAN DIT
TYPE TECHNOLOGIE

 https://zylab.com/resources/trust-center/
SLIDE / 90
DEFENSIBILITY

Lack of precision leads to
noise, too many false hits,
too much work to review,
which yields high cost of
review.
Lack of recall leads to
missing relevant
documents which yields
risk.
91

 Precisie verhogend: AND, W/5,
NOT
 Recall verhogend:
OR, *, ?, Thesaurus
Fuzzy.
Beide: quorum
PRECISIE & RECALL: OMGEKEERD EVENREDIG
SLIDE / 92
100
75
50
2525
75 75
100
0
20
40
60
80
100
120
1 2 3 4
Precisie en Recall
Precisie Recall

 When both precision and recall are over
80%, human performance is approached.
 This applies to the best humans.
 It can be argued that values over 80% are
often subject to different interpretations and
discussions.
93
HUMAN PERFORMANCE

 Technology Assisted Review (aka Predictive Coding) zoals deze
goedgekeurd zijn door de US Federal Courts:
http://www.lawtechnologytoday.org/2015/11/history-technology-
assisted-review/
 Sedona Conference recommendations (US courts technology
conferences) can be found here:
https://thesedonaconference.org/publication/TAR%20Case%20Law%20
Primer
SLIDE / 94
US Federal law

Richmond Journal of Law and Technology Vol. XVII, Issue 3. TECHNOLOGY-
ASSISTED REVIEW IN E-DISCOVERY CAN BE MORE EFFECTIVE AND MORE
EFFICIENT THAN EXHAUSTIVE MANUAL REVIEW, by Maura R. Grossman* &
Gordon V. Cormack
Consistent evidence that computers our-perform humans
SLIDE / 95
Grossman & Cormack* : “Artificial Intelligence was
not only more effective than human review at
finding relevant documents, but also much cheaper
… Overall, the myth that exhaustive manual review is
the most effective—and therefore the most
defensible—approach to document review is
strongly refuted.”

SLIDE / 96
Contract review & due dilligence

SLIDE / 97
Source: Comparing the Performance of Artificial Intelligence to
Human Lawyers in the Review of Standard Business Contracts,
February 2018, LawGeex.

CREATING TEST COLLECTIONS
FOR INFORMATION RETRIEVAL EVALUATION

99
From document collections
to test collections
 Still need
 Test queries
 Relevance assessments
 Test queries
 Must be germane to docs available
 Best designed by domain experts
 Random query terms generally not a good idea
 Relevance assessments
 Human judges, time-consuming
 Are human panels perfect?
Sec. 8.5

100
Kappa measure for inter-judge (dis)agreement
 Kappa measure
 Agreement measure among judges
 Designed for categorical judgments
 Corrects for chance agreement
 Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]
 P(A) = proportion of time judges agree
 P(E) = what agreement would be by chance = P(non
relevant)2 + P(relevant)2
 Kappa = 0 for chance agreement, 1 for total agreement.
Sec. 8.5

101
Kappa Measure: Example
Number of
docs
Judge 1 Judge 2
300 Relevant Relevant
70 Nonrelevant Nonrelevant
20 Relevant Nonrelevant
10 Nonrelevant Relevant
P(A)? P(E)?
Sec. 8.5
P(A) = 370/400 = 0.925
P(nonrelevant) = (10+20+70+70)/800 =
0.2125
P(relevant) = (10+20+300+300)/800 =
0.7878
P(E) = 0.2125^2 + 0.7878^2 = 0.665
Kappa = (0.925 – 0.665)/(1-0.665) = 0.776

102
Kappa Example
 Kappa > 0.8 = good agreement
 0.67 < Kappa < 0.8 -> “tentative conclusions” (Carletta ’96)
 Depends on purpose of study
 For >2 judges: average pairwise kappas. N judges = N*(N-1)
kappas to average.
Sec. 8.5

WHAT IS A 10-FOLD CROSS VALIDATION?
 To measure the performance of the
classifier, cross validation can be used
to reduce overfitting and make better
use of the available data.
 With k-fold cross validation, the training
data is randomly split into k subsets of
equal size. k −1 subsets are used for
training the classifier, the trained
classifier is tested on the remaining
subset. This is repeated k times using a
different subset to test the classifier
on.
103

 Topic Modeling (automatisch thesaurus)
 Machine Learning voor het maken van classifiers voor het
vinden van documenten, vergelijkbaar aan Booleaanse
zoekvragen maar beter:
 Geen kennis van zoekoperatoren nodig
 Je weet precies % van aantal relevante documenten dat gevonden is
 In het algemeen worden 2-3 keer meer relevante documenten
gevonden.
 5-6 keer sneller.
 Met 10-15 keer minder mensen.
SLIDE / 104
HET NIEUWE ZOEKEN MET ARTIFICIAL INTELLIGENCE

TOPIC MODELING: FIND IF YOU DO NOT KNOW WHAT TO LOOK FOR
SLIDE / 105

EXAMPLE OF AN EDISCOVERY PROTOCOL?
Find Relevant
Documents using
standard Search
Techniques
Review Documents
for Correctness
_______
best matching first
Every X new
correct document,
build classifier with
manually reviewed
documents to
recognize similar
documents
Find potential
relevant documents
by matching
classifier with all
non-reviewed
documents in data
Calculate Precision
& Recall classifier
using 10-fold cross
validation on
Training Set.
Calculate precision
return set.
Stop if Precision
and Recall of the
Training Set or the
Return Set is
Larger than a pre-
agreed quality level
(typically 70-80%)
107
Return Best-Matching Documents
Define
Start
Define
Workflow
Define
Stop
Conditions

SLIDE / 108
WHAT IS DOCUMENT CLASSIFICATION?

SLIDE / 109
REINFORCEMENT LEARNING
Reinforcement learning (RL) is an
area of machine learning inspired by
behaviorist psychology, concerned
with how software agents ought to
take actions in an environment so as
to maximize some notion of
cumulative reward.
Combination of supervised and
unsupervised learning.
Machine learning of interest profiles.
Combination of TAR and Topic
Modeling.

 A decision tree is a
decision support tool that
uses a tree-like graph or
model of decisions and their
possible consequences,
including chance event
outcomes, resource costs,
and utility. It is one way to
display an algorithm.
SLIDE / 110
DECISION TREES AND ENTROPY MODELING

Now imagine 1.2 million dimensional …
2-dimensional
3-dimensional
SUPPORT VECTOR MACHINE (SVM)
112

CLASSIFYING REUTERS DOCUMENT SET
 806.791 articles in
total
 War, Civil War (GVIO):
32.615 articles
(4,04%): 90% is found
after reviewing only
45.000 documents,
which is only 5.6% of
full corpus.
 Sports (GSPO):
35.317 articles
(4,38%): 90% is found
after reviewing only
32.000 documents.
This is only 4% of full
corpus.
113

EVOLUTION OF THE QUALITY OF A CLASSIFIER
114

EXAMPLE OF A STOP CONDITION
 There was no need to
review 32.000 document
for the SPORTS
(GSPO) category,
because both the
precision and recall
were well over 80%
pretty much all of the
process. There was also
no decay in the slope of
the CAL learning
progress contrary to the
slope of the GVIO.
 We could have stopped
reviewing after one
training cycle (1.000)
documents and find the
rest of the responsive
documents
automatically.
115

PREDICTING THE TIME NEEDED TO REACH
A STOP CONDITION
 We expect to
be able to
predict a
change in the
slope early so
we can predict
delay of the
training
process.
 This needs
more
research.
117

ARE THERE HUGE DIFFERENCES IN PERFORMANCE
DEPENDING ON THE START CONDITION? NOT REALLY
118

WHAT IF THE REVIEWER MAKES ERRORS: THIS
IS NOT REALLY A PROBLEM
119

0
200
400
600
800
1000
1200
1400
1600
ZyLAB Assisted Review Manual Review
Hours
CONCLUSION: MACHINE LEARNING: SMARTER, BETTER & FASTER
In general we see at all our clients:
 3-20 times faster than manual review
 20-100% more accurate, fully defensible
SLIDE / 120

HANDS-ON ZOEKEN BINNEN 800.000
UITSPRAKEN

ZOEK OP “(RECHTBANK AND AMSTERDAM) OR FRIESLAND”
SLIDE / 127

SLIDE / 129
TREFFER EN DOCUMENT NAVIGATIE

SLIDE / 130
CTRL-F: ZOEKEN BINNEN EEN DOCUMENT

 (rechtbank w/5 Amsterdam) and (Leeuwarden or friesland)
 asiel w/5 aanvragen
 Leeuwarden~1 and frieslan*
 *?ber*crime
 2 of {cyber, cyber-crime, bot net, botnet, virus, trojan*, dark
web, hacker, ddos}
VOORBEELDEN VAN BOOLEAN OPERATOREN
SLIDE / 131

Zoek met behulp van de Booleaanse full-text zoek technieken:
 Alle zaken met betrekking tot Overvallen, maar:
Alleen winkels
Overvallen met geweld
zowel veroordelingen als vrijspraken.
Hoeveel vindt u er ongeveer?
SLIDE / 132
OPDRACHT

DE OPDRACHT
Alle zaken met betrekking tot diverse
vormen van overvallen, maar:
 winkels
 met geweld
 zowel veroordelingen als vrijspraken.
HOEVEEL JUNT U ER ONGEVEER
VINDEN?
 (rechtbank w/5 Amsterdam) and
(Leeuwarden or friesland)
 asiel w/5 aanvragen
 Leeuwarden~1 and frieslan*
 *overval*
 2 of {overval*, geweld, uurwapen*,
steekwapen*}
SLIDE / 133

The era of traditional keyword and Boolean search
seems to be over. Even the most brilliant query results
in too many hits. Reviewing these takes too much
time and resources.
 People do not know exactly what to look for, what
keywords to use or how to spell them.
 The quality of traditional search is much lower than
the searchers think (80% perceived versus 20-40%
actual quality).
 Only highly skilled searchers who manage all
(advanced) query options are able to get close to
80%. Even then, they cannot be sure that they did in
fact found 80% of all relevant documents. This is
another problem measuring recall: you never know
what you miss.
MACHINE LEARNING: THE NEW SEARCH

 Ga naar Alle
Uitspraken
 Vindt het topic over
(Opium-Wet) Drugs en
Cocaine
 Bekijk documenten
SLIDE / 136
OPDRACHT: TOPIC
MODELING

SLIDE / 137
OPDRACHT: MACHINE LEARNING
 Winkel overvallen
met geweld
 Zowel
veroordelingen
als vrijspraken.
 Via Machine
Learning:
 Project
Overvallen
 Issue:
Overvallen
Overvallen

SLIDE / 139
Rechter.01
neemt #1 en #2
Rechter.02
neemt #3 en #4,
Rechter.03
neemt #5 en #6
….
Rechter.10
neemt #19 en
#20
Oftewel:
Nummer *2 -1
Nummer *2

SLIDE / 141
CTRL-F
SNEL SCROLLEN

1. Je weet precies hoeveel % van alle mogelijke relevante
documenten je gevonden hebt.
2. Je hoeft geen kennis te hebben van ingewikkelde zoek-
operatoren zoals Booleaanse operatoren of Booleaanse
logica.
3. In het algemeen worden 2-3x meer relevante documenten
gevonden in een fractie van de tijd (vaak ook 5-6 sneller) met
10-15x minder mensen.
SLIDE / 143
VOORDELEN VAN MACHINE LEARNING TOV
TRADITIONEEL BOOLEAANS ZOEKEN

Prof. dr. H. Jaap van den Herik Prof. dr. ir. J.C. Scholtes
Universiteit Leiden Universiteit Maastricht
LCDS, Faculteit W&N ZyLAB, Amsterdam
Afsluitende Discussie

 Waar zien de cursusdeelnemers op dit moment de grootste
mogelijkheden voor toepassing van de
beslissingsondersteunende technologie in hun werk?
 Op welke manier zou het de kwaliteit van hun werk ten goede
kunnen komen?
 Zijn de voorbeelden waar AI op dit moment al toegepast wordt
overtuigend?
AFSLUITENDE DISCUSSIE
SLIDE / 145

Big Data en Data Science en de Rechtspraak

Recommended

Recommended

More Related Content

Similar to Big Data en Data Science en de Rechtspraak

Similar to Big Data en Data Science en de Rechtspraak (20)

More from jcscholtes

More from jcscholtes (16)

Big Data en Data Science en de Rechtspraak