Dit is het eerste college uit een serie over software engineering voor big data. In dit college behandelen we alle facetten van corporate performance management (naar aanleiding van het boek performance management van Nieuwenhuyse en vanHoudt. Dit combineren we met het boek practical data sciene in R van Zumel en Mount. Tezamen vormt dit een goed overzicht van de aspecten die meespelen in de wereld van big data science projecten binnen organisaties.
2. Het doel van dit college is
• dat we afspraken maken over hoe we komen tot een
jargon lijst
• Dat je de plek van data science in de organisatie context
kent
• Dat je het data science proces kent
• Dat je inzicht hebt in welke stakeholders je nodig hebt in
een organisatie voor een succesvol data science project
3. Wederzijdse Afspraken
Data Science Jargon
Uitleg inhoud SE theorie en praktijk
The Big Picture of Analytics
The Data Science Process
Roles in a Data Science project
4.
5. Kennen
kent het jargon
kent het IT landschap van big data
kent methoden van project aanpak
binnen de data science CRISPDM
kent de inrichting van data
warehouse
kent de code conventies
gebruikelijk voor R
Kunnen
kan een project indelen en uitvoeren
naar CRISP-DM methodiek
Kan eenvoudige statistische methoden
toepassen in R
Kan zelfstandig data acquireren en
inladen in R
Kan data beoordelen op validiteit /
integriteit en waar nodig opschonen
Kan exploratieve data visualisaties
maken
Kan R code voorzien van commentaar
ten behoeve van leesbaarheid
Leerdoelen voor het vak
6. thema thema Data Science Process Aquiring data Databases Data Exploration
weeknummer Lesweek week 1 week 2 week 3 week 4
kalenderweek 36 37 38 39
theorie College CRISPDM
Relational databases
datawarehousing
ELT/ETL anomalies / data cleaning
Literatuur Practical data science in R hfst 1 data science proces
hfst 2 Loading data in R
hfst 4 managing data
Performance management
Uitdagingen en definities van
performance management
Hoofdstuk 1 Behoefte aan een
gestructureerde aanpak van
Hoofdstuk 12 Extractie -
Transformatie - Loading
Hoofdstuk 8 Online
Analytical Processing Performance Management-
Infrastructuur
Praktijk datacamp
Writing functions in R / data
manipulation with dplyr
Loading data into R /Clean
data in R
data vizualisation with
ggplot 1
data vizualisation with
ggplot 2
Exam
Deadline first 3 datacamp
courses
werkcollege Access Noorderwind database
relationele database
bouwen SIS
datawharehouse SIS Data cleaning EV data
assignment (Friday) Titanic competition
download a dataset
plot dataset in order to
find distribution type
generate 4 different
distibutions
scatterplot different
groups + facetting
lon /lat + cleaning ervan
optioneel kennisverhoging
A Hands-on Introduction to
Statistics with R
7. `
Data Wrangling Deployment Documentation Exam Capstone
week 5 week 6 week 7 week 8 week 9
40 41 43 44 45
OLAP
Deployment with Shiny
server
Documentation
hfst 3 Exploring data
hfst 10 documentation and
deployment
Hoofdstuk 9 Rapportering
Ggvis + shiny server Shiny server dashboards
Reporting with Markdown and
Knitr
Deadline second 3
datacamp courses
theory exam deadline project
interactief plaatje gis plaatje dashboard
** data table **
15. Gebrek aan voorspelbaarheid
goede doelstellingen kunnen pas gemaakt worden als een goed kennis
van de te verwachten evoluties aanwezig is
gebrek aan verantwoording
er is nood aan de mogelijkheid om performantie indicatoren toe te
wijzen aan de personen die het dichtst staan bij de business
gebrek aan visibiliteit
is er een volledig zicht op de performance van de volledige organisatie?
Is het duidelijk welke rol iedereen en alle processen spelen bij de
totstandkoming van de uiteindelijke bedrijfsresultaten?
Hfst 1 performance management - frustraties
17. Corporate performance management?
Balanceren tussen verleden en toekomst en tussen financieel en business
CPM wil een gebalanceerd zicht geven op bedrijfsperformantie met een gepaste mix
van financiële en operationele maatstaven, gecombineerd met de technologie die
de historische en verwachte activiteit op een effectieve manier voorstelt.
Butler Group, 2004. Corporate Performance Management, A new approach to business control and planning. Technology Evaluation
and Comparison Report.
18. CPM verzoent het verleden, het heden en de toekomst
Cognos, 2004. The Visionary CFO.
Leadership in Corporate Performance
Management. Cognos Press, Canada.
19.
20. Hoe complexer de berekeningen en tools in de organisatie
hoe groter de meerwaarde is
Er wordt altijd een moeten worden gezocht in:
Snelheid*complexiteit*data volume=
Benodigde rekenkracht
21.
22.
23. « We did a Pareto analysis, a grid analysis, a decision tree, a force field
analysis... And then the boss decided to go with his gut. »
24. Vanuit beslissingsperspectief zie je de volgende IT tools
Butler Group, 2004. Corporate Performance Management, A new approach to business
control and planning. Technology Evaluation and Comparison Report.
Binnenste cyclus
elementen ter
ondersteuning
van het
beslissingsproces
Proactiviteit ontbreekt
ietwat
Analytical Intelligence
moet meer
kunnen doen
Buitenste cyclus
Cooke & Slack
decision-
making
process
25. Performance management onderdelen
"a set of techniques and tools for
the acquisition and transformation
of raw data into meaningful and
useful information for business
analysis purposes
Inzicht genereren in de toekomst v
van de organisatie op basis van
best-in-class methodieken
Voor onze minor zijn Business intelligence en Analytical inteligence van belang
26. Turning from a rear view mirror on the business...
Business intelligence is feitelijk een slimme manier om achteruit te kijken
27. 5. IMPLEMENTATIE VAN STRATEGIE
Terwijl Analytical intelligence vooral* vooruit kijkt
Analytical intelligence kijkt niet alleen vooruit in de zin van
voorspellingen maar kijkt ook naar waarom de dingen gaan zoals ze
gaan, vanuit beter begrip over het systeem waar je in zit kun je betere
beslissingen maken
28. Op het laagste niveau is de informatie
operationeel en locaal. Gedetailleerde
informatie ontstaat en wordt gebruikt
door ERP processen.
Op het tactische niveau wordt de
informatie gedeeltelijk geaggregeerd en
samengevat om het nemen van
bedrijfsbeslissingen op het onderliggende
niveau te ondersteunen.
Op het hoogste niveau wordt de scope
strategisch en globaal, sterk
samengevatte informatie is beschikbaar
om strategische communicatie en
feedback toe te laten.
Het is belangrijk te noteren dat informatie
beweegt van onder naar boven en van
boven naar onder. Strategische
beslissingen worden bovenaan genomen
en geventileerd naar beneden,
performance management feedback keert
terug naar boven van onder naar boven.
Deze interactie tussen top-down en
bottom-up wordt voortdurend iteratief
doorlopen en beweegt als een “jo-jo”.
De Business Intelligence
pyramide illustreert de
informatiestromen door de
organisatie een
4. MONITORING VAN CORPORATE PERFORMANCE
29. Uitgewerkt ziet het er dan zo uit
(voor zover bedrijven daadwerkelijk in staat zijn
een volledige uitrol te maken van de strategische
piramide)
30.
31. ANALYTICAL INTELLIGENCE? ~ data science
• Beter inzicht in de bestaande processen via
operationeel onderzoek levert inzichten en
hefbomen op die bruikbaar zijn:
Bij het zetten van targets
Het onderbouwen van plannen
Het bouwen van (nieuwe) strategieën
Verklaren en beter begrijpen van
geobserveerde performantie
Het anticiperen van gevolgen van
beslissingen
Het doorgronden van strategische
oorzaak- en gevolgrelaties
Het modelleren van de volledige business
35. • Why do the sponsors want the project in the first place? What do
they lack, and what do they need?
• What are they doing to solve the problem now, and why isn’t that
good enough?
• What resources will you need: what kind of data and how much staff?
Will you have domain experts to collaborate with, and what are the
computational resources?
• How do the project sponsors plan to deploy your results? What are
the constraints that have to be met for successful deployment?
Data Science proces –
Define the goal
36. • What data is available to me?
• Will it help me solve the problem?
• Is it enough?
• Is the data quality good enough
Data Science proces – collect and
manage data
37. • Classification—Deciding if something belongs to one category or
another
• Scoring—Predicting or estimating a numeric value, such as a price or
probability
• Ranking—Learning to order items by preferences
• Clustering—Grouping items into most-similar groups
• Finding relations—Finding correlations or potential causes of effects
seen in the data
• Characterization—Very general plotting and report generation from
data
Data Science proces – build the model
38. • Is it accurate enough for your needs?
• Does it generalize well?
• Does it perform better than “the obvious guess”?
• Better than whatever estimate you currently use?
• Do the results of the model (coefficients, clusters, rules) make sense
in the context of the problem domain?
Data Science proces – evaluate the
model
39.
40. Listing 1.2 practica data science in R
Data Science proces – the obvious
guess?!
41. Listing 1.2 practica data science in R
Data Science proces – the obvious
guess?!
42.
43. • How should they interpret the model?
• What does the model output look like?
• If the model provides a trace of which rules in the decision tree
executed, how do they read that?
• If the model provides a confidence score in addition to a
classification, how should they use the confidence score?
• When might they potentially overrule the model?
Data Science proces – present results
44. At least one person will read your code and
that is FUTURE YOU!
45. Welke vragen zou je stellen omtrent implementatie?
Data Science proces
53. DEFINIEER HET BUSINESS PROBLEM – HOW TO SOLVE IT
• What is the unknown (the number I am trying to calculate)?
• What data are given, and which can be estimated using knowledge
I already have?
• Can I restate the problem in different words?
• Can I draw a picture or graph framing the problem?
• Is there another similar problem I have already solved that could
give me the key to a solution?
• Can I make some simple assumptions that might help me solve the
problem more easily?
• Can I just solve one of the problems?
• Can I solve a simplified version of the problem, using round
numbers that are roughly right?
• Are there any answers that I know are wrong?
How to Solve it: A New Aspect of Mathematical Method (Polya G., 1957)
55. 3.3. EVALUEER DE OMGEVING
• Zal de organisatie er iets kunnen en willen aan doen?
• Hoe zit de locale politiek in elkaar?
• In welke mate bestaat een cultuur die kwantitatief
genoeg is?
• Zal IT willen meewerken om de verandering te
automatiseren?
• Zal Operations de resultaten gebruiken voor betere
werking of zullen ze blijven werken zoals ze al altijd
hebben gewerkt?
• Is de scope van de vraag in proportie tot het mandaat
of zeggenschap dat we hebben? Kunnen we met
andere woorden zelf iets aan het probleem doen?