SlideShare a Scribd company logo
1 of 61
SOFTWARE ENGINEERING COLLEGE 1
SETTING THE SCENE
Het doel van dit college is
• dat we afspraken maken over hoe we komen tot een
jargon lijst
• Dat je de plek van data science in de organisatie context
kent
• Dat je het data science proces kent
• Dat je inzicht hebt in welke stakeholders je nodig hebt in
een organisatie voor een succesvol data science project
Wederzijdse Afspraken
Data Science Jargon
Uitleg inhoud SE theorie en praktijk
The Big Picture of Analytics
The Data Science Process
Roles in a Data Science project
Kennen
 kent het jargon
 kent het IT landschap van big data
 kent methoden van project aanpak
binnen de data science CRISPDM
 kent de inrichting van data
warehouse
 kent de code conventies
gebruikelijk voor R
Kunnen
 kan een project indelen en uitvoeren
naar CRISP-DM methodiek
 Kan eenvoudige statistische methoden
toepassen in R
 Kan zelfstandig data acquireren en
inladen in R
 Kan data beoordelen op validiteit /
integriteit en waar nodig opschonen
 Kan exploratieve data visualisaties
maken
 Kan R code voorzien van commentaar
ten behoeve van leesbaarheid
Leerdoelen voor het vak
thema thema Data Science Process Aquiring data Databases Data Exploration
weeknummer Lesweek week 1 week 2 week 3 week 4
kalenderweek 36 37 38 39
theorie College CRISPDM
Relational databases
datawarehousing
ELT/ETL anomalies / data cleaning
Literatuur Practical data science in R hfst 1 data science proces
hfst 2 Loading data in R
hfst 4 managing data
Performance management
Uitdagingen en definities van
performance management
Hoofdstuk 1 Behoefte aan een
gestructureerde aanpak van
Hoofdstuk 12 Extractie -
Transformatie - Loading
Hoofdstuk 8 Online
Analytical Processing Performance Management-
Infrastructuur
Praktijk datacamp
Writing functions in R / data
manipulation with dplyr
Loading data into R /Clean
data in R
data vizualisation with
ggplot 1
data vizualisation with
ggplot 2
Exam
Deadline first 3 datacamp
courses
werkcollege Access Noorderwind database
relationele database
bouwen SIS
datawharehouse SIS Data cleaning EV data
assignment (Friday) Titanic competition
download a dataset
plot dataset in order to
find distribution type
generate 4 different
distibutions
scatterplot different
groups + facetting
lon /lat + cleaning ervan
optioneel kennisverhoging
A Hands-on Introduction to
Statistics with R
`
Data Wrangling Deployment Documentation Exam Capstone
week 5 week 6 week 7 week 8 week 9
40 41 43 44 45
OLAP
Deployment with Shiny
server
Documentation
hfst 3 Exploring data
hfst 10 documentation and
deployment
Hoofdstuk 9 Rapportering
Ggvis + shiny server Shiny server dashboards
Reporting with Markdown and
Knitr
Deadline second 3
datacamp courses
theory exam deadline project
interactief plaatje gis plaatje dashboard
** data table **
Het Data Science Jargon
Data Warehouse Concepts Course v.6.0
Directors
…all Analysis
& Ad-Hoc rept.
…all Mgmt
Reporting
Managers
Analysts
(Fin., Sal., Prod., …)
(ELASTIC) DATA WAREHOUSE
Operational
Systems
Data Warehouse
ETL versus ELT
Gebrek aan voorspelbaarheid
goede doelstellingen kunnen pas gemaakt worden als een goed kennis
van de te verwachten evoluties aanwezig is
gebrek aan verantwoording
er is nood aan de mogelijkheid om performantie indicatoren toe te
wijzen aan de personen die het dichtst staan bij de business
gebrek aan visibiliteit
is er een volledig zicht op de performance van de volledige organisatie?
Is het duidelijk welke rol iedereen en alle processen spelen bij de
totstandkoming van de uiteindelijke bedrijfsresultaten?
Hfst 1 performance management - frustraties
Organisatie structuur in 1 slide
Corporate performance management?
Balanceren tussen verleden en toekomst en tussen financieel en business
CPM wil een gebalanceerd zicht geven op bedrijfsperformantie met een gepaste mix
van financiële en operationele maatstaven, gecombineerd met de technologie die
de historische en verwachte activiteit op een effectieve manier voorstelt.
Butler Group, 2004. Corporate Performance Management, A new approach to business control and planning. Technology Evaluation
and Comparison Report.
CPM verzoent het verleden, het heden en de toekomst
Cognos, 2004. The Visionary CFO.
Leadership in Corporate Performance
Management. Cognos Press, Canada.
Hoe complexer de berekeningen en tools in de organisatie
hoe groter de meerwaarde is
Er wordt altijd een moeten worden gezocht in:
Snelheid*complexiteit*data volume=
Benodigde rekenkracht
« We did a Pareto analysis, a grid analysis, a decision tree, a force field
analysis... And then the boss decided to go with his gut. »
Vanuit beslissingsperspectief zie je de volgende IT tools
Butler Group, 2004. Corporate Performance Management, A new approach to business
control and planning. Technology Evaluation and Comparison Report.
Binnenste cyclus
elementen ter
ondersteuning
van het
beslissingsproces
Proactiviteit ontbreekt
ietwat
Analytical Intelligence
moet meer
kunnen doen
Buitenste cyclus
Cooke & Slack
decision-
making
process
Performance management onderdelen
"a set of techniques and tools for
the acquisition and transformation
of raw data into meaningful and
useful information for business
analysis purposes
Inzicht genereren in de toekomst v
van de organisatie op basis van
best-in-class methodieken
Voor onze minor zijn Business intelligence en Analytical inteligence van belang
Turning from a rear view mirror on the business...
Business intelligence is feitelijk een slimme manier om achteruit te kijken
5. IMPLEMENTATIE VAN STRATEGIE
Terwijl Analytical intelligence vooral* vooruit kijkt
Analytical intelligence kijkt niet alleen vooruit in de zin van
voorspellingen maar kijkt ook naar waarom de dingen gaan zoals ze
gaan, vanuit beter begrip over het systeem waar je in zit kun je betere
beslissingen maken
Op het laagste niveau is de informatie
operationeel en locaal. Gedetailleerde
informatie ontstaat en wordt gebruikt
door ERP processen.
Op het tactische niveau wordt de
informatie gedeeltelijk geaggregeerd en
samengevat om het nemen van
bedrijfsbeslissingen op het onderliggende
niveau te ondersteunen.
Op het hoogste niveau wordt de scope
strategisch en globaal, sterk
samengevatte informatie is beschikbaar
om strategische communicatie en
feedback toe te laten.
Het is belangrijk te noteren dat informatie
beweegt van onder naar boven en van
boven naar onder. Strategische
beslissingen worden bovenaan genomen
en geventileerd naar beneden,
performance management feedback keert
terug naar boven van onder naar boven.
Deze interactie tussen top-down en
bottom-up wordt voortdurend iteratief
doorlopen en beweegt als een “jo-jo”.
De Business Intelligence
pyramide illustreert de
informatiestromen door de
organisatie een
4. MONITORING VAN CORPORATE PERFORMANCE
Uitgewerkt ziet het er dan zo uit
(voor zover bedrijven daadwerkelijk in staat zijn
een volledige uitrol te maken van de strategische
piramide)
ANALYTICAL INTELLIGENCE? ~ data science
• Beter inzicht in de bestaande processen via
operationeel onderzoek levert inzichten en
hefbomen op die bruikbaar zijn:
 Bij het zetten van targets
 Het onderbouwen van plannen
 Het bouwen van (nieuwe) strategieën
 Verklaren en beter begrijpen van
geobserveerde performantie
 Het anticiperen van gevolgen van
beslissingen
 Het doorgronden van strategische
oorzaak- en gevolgrelaties
 Het modelleren van de volledige business
Data science proces
Software enginering processen
Data Science proces
• Why do the sponsors want the project in the first place? What do
they lack, and what do they need?
• What are they doing to solve the problem now, and why isn’t that
good enough?
• What resources will you need: what kind of data and how much staff?
Will you have domain experts to collaborate with, and what are the
computational resources?
• How do the project sponsors plan to deploy your results? What are
the constraints that have to be met for successful deployment?
Data Science proces –
Define the goal
• What data is available to me?
• Will it help me solve the problem?
• Is it enough?
• Is the data quality good enough
Data Science proces – collect and
manage data
• Classification—Deciding if something belongs to one category or
another
• Scoring—Predicting or estimating a numeric value, such as a price or
probability
• Ranking—Learning to order items by preferences
• Clustering—Grouping items into most-similar groups
• Finding relations—Finding correlations or potential causes of effects
seen in the data
• Characterization—Very general plotting and report generation from
data
Data Science proces – build the model
• Is it accurate enough for your needs?
• Does it generalize well?
• Does it perform better than “the obvious guess”?
• Better than whatever estimate you currently use?
• Do the results of the model (coefficients, clusters, rules) make sense
in the context of the problem domain?
Data Science proces – evaluate the
model
Listing 1.2 practica data science in R
Data Science proces – the obvious
guess?!
Listing 1.2 practica data science in R
Data Science proces – the obvious
guess?!
• How should they interpret the model?
• What does the model output look like?
• If the model provides a trace of which rules in the decision tree
executed, how do they read that?
• If the model provides a confidence score in addition to a
classification, how should they use the confidence score?
• When might they potentially overrule the model?
Data Science proces – present results
At least one person will read your code and
that is FUTURE YOU!
Welke vragen zou je stellen omtrent implementatie?
Data Science proces
Voorbeeld 2 data science proces
CRISPDM
Cross Industry Standard Process for Data Mining
Numerieke « business problem-solving » methode
SAS Institute Methodology, 1998. Data Mining Projects.
Sas Institute, #0518 Draft.
NUMERIEKE « BUSINESS PROBLEM-SOLVING » METHODE
DEFINIEER HET BUSINESS PROBLEM – HOW TO SOLVE IT
• What is the unknown (the number I am trying to calculate)?
• What data are given, and which can be estimated using knowledge
I already have?
• Can I restate the problem in different words?
• Can I draw a picture or graph framing the problem?
• Is there another similar problem I have already solved that could
give me the key to a solution?
• Can I make some simple assumptions that might help me solve the
problem more easily?
• Can I just solve one of the problems?
• Can I solve a simplified version of the problem, using round
numbers that are roughly right?
• Are there any answers that I know are wrong?
How to Solve it: A New Aspect of Mathematical Method (Polya G., 1957)
EVALUEER DE OMGEVING
3.3. EVALUEER DE OMGEVING
• Zal de organisatie er iets kunnen en willen aan doen?
• Hoe zit de locale politiek in elkaar?
• In welke mate bestaat een cultuur die kwantitatief
genoeg is?
• Zal IT willen meewerken om de verandering te
automatiseren?
• Zal Operations de resultaten gebruiken voor betere
werking of zullen ze blijven werken zoals ze al altijd
hebben gewerkt?
• Is de scope van de vraag in proportie tot het mandaat
of zeggenschap dat we hebben? Kunnen we met
andere woorden zelf iets aan het probleem doen?
Zorg dat de data beschikbaar is
IMPLEMENTEER IN PRODUCTIE
4.3. EVALUEER MODELLEN
Rollen in data science project
ROLLEN IN DATA SCIENCE PROJECT
https://www.youtube.com/watch?v=jyju2P-
7hPA&list=PLAwxTw4SYaPm4R6j_wzVOCV9fJaiQDYx4
ASSIGNMENT
LECTURE
Bereid je voor op de basis van Relationele Databases
Blended learning tips
https://www.youtube.com/watch?v=-fQ-bRllhXc
optioneel
https://www.youtube.com/watch?v=jyju2P-7hPA&list=PLAwxTw4SYaPm4R6j_wzVOCV9fJaiQDYx4
https://www.youtube.com/watch?v=z2kbsG8zsLM

More Related Content

Viewers also liked

Software Engineering College 5 -managing data
Software Engineering College 5 -managing dataSoftware Engineering College 5 -managing data
Software Engineering College 5 -managing dataJurjen Helmus
 
Software Engineering College 6 -timeseries data
Software Engineering College 6 -timeseries dataSoftware Engineering College 6 -timeseries data
Software Engineering College 6 -timeseries dataJurjen Helmus
 
promotie big data in urban technology
promotie big data in urban technologypromotie big data in urban technology
promotie big data in urban technologyJurjen Helmus
 
Creativiteit en Krantbeleving: Design for interaction
Creativiteit en Krantbeleving: Design for interactionCreativiteit en Krantbeleving: Design for interaction
Creativiteit en Krantbeleving: Design for interactionJurjen Helmus
 
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurskansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
kansen van Internet of things voor Technisch Bedrijfskunde IngenieursJurjen Helmus
 
Hogeschool van Amsterdam Engineeringsweek 2010, TRIZ
Hogeschool van Amsterdam Engineeringsweek 2010, TRIZHogeschool van Amsterdam Engineeringsweek 2010, TRIZ
Hogeschool van Amsterdam Engineeringsweek 2010, TRIZJurjen Helmus
 
presentatie booreiland metaproducten
presentatie booreiland metaproductenpresentatie booreiland metaproducten
presentatie booreiland metaproductenJurjen Helmus
 
Lezing Projectmanagement Engineering Week
Lezing Projectmanagement Engineering WeekLezing Projectmanagement Engineering Week
Lezing Projectmanagement Engineering WeekJurjen Helmus
 
Innovation management at Saab
Innovation management at Saab Innovation management at Saab
Innovation management at Saab Jurjen Helmus
 
gouden tips voor Blended learning en future proof onderwijs
gouden tips voor Blended learning en future proof onderwijsgouden tips voor Blended learning en future proof onderwijs
gouden tips voor Blended learning en future proof onderwijsJurjen Helmus
 
Software Engineering College 4 - exploring data
Software Engineering College 4 - exploring dataSoftware Engineering College 4 - exploring data
Software Engineering College 4 - exploring dataJurjen Helmus
 
Debian Policy - 5.6.12 Version
Debian Policy - 5.6.12 VersionDebian Policy - 5.6.12 Version
Debian Policy - 5.6.12 VersionShih-Yuan Lee
 
University amsterdam youthpeacebuilding2011
University amsterdam youthpeacebuilding2011University amsterdam youthpeacebuilding2011
University amsterdam youthpeacebuilding2011Wout Visser
 
Lecture roadmapping product service combinations
Lecture roadmapping product service combinationsLecture roadmapping product service combinations
Lecture roadmapping product service combinationsJurjen Helmus
 
S&O Marleen van de Kerkhof Duurzaamheid Engineeringweek Hogeschool van Amsterdam
S&O Marleen van de Kerkhof Duurzaamheid Engineeringweek Hogeschool van AmsterdamS&O Marleen van de Kerkhof Duurzaamheid Engineeringweek Hogeschool van Amsterdam
S&O Marleen van de Kerkhof Duurzaamheid Engineeringweek Hogeschool van AmsterdamJurjen Helmus
 
Soft values of harbours
Soft values of harboursSoft values of harbours
Soft values of harboursJurjen Helmus
 
Denkpatronen open innovatie en keten innovatie - 2012-2013
Denkpatronen open innovatie en keten innovatie - 2012-2013Denkpatronen open innovatie en keten innovatie - 2012-2013
Denkpatronen open innovatie en keten innovatie - 2012-2013Jurjen Helmus
 
Scenario analyse en planning voor innovatie
Scenario analyse en planning voor innovatie Scenario analyse en planning voor innovatie
Scenario analyse en planning voor innovatie Jurjen Helmus
 

Viewers also liked (20)

Software Engineering College 5 -managing data
Software Engineering College 5 -managing dataSoftware Engineering College 5 -managing data
Software Engineering College 5 -managing data
 
Software Engineering College 6 -timeseries data
Software Engineering College 6 -timeseries dataSoftware Engineering College 6 -timeseries data
Software Engineering College 6 -timeseries data
 
promotie big data in urban technology
promotie big data in urban technologypromotie big data in urban technology
promotie big data in urban technology
 
Creativiteit en Krantbeleving: Design for interaction
Creativiteit en Krantbeleving: Design for interactionCreativiteit en Krantbeleving: Design for interaction
Creativiteit en Krantbeleving: Design for interaction
 
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurskansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
 
Cleantech
CleantechCleantech
Cleantech
 
Hogeschool van Amsterdam Engineeringsweek 2010, TRIZ
Hogeschool van Amsterdam Engineeringsweek 2010, TRIZHogeschool van Amsterdam Engineeringsweek 2010, TRIZ
Hogeschool van Amsterdam Engineeringsweek 2010, TRIZ
 
presentatie booreiland metaproducten
presentatie booreiland metaproductenpresentatie booreiland metaproducten
presentatie booreiland metaproducten
 
Lezing Projectmanagement Engineering Week
Lezing Projectmanagement Engineering WeekLezing Projectmanagement Engineering Week
Lezing Projectmanagement Engineering Week
 
Innovation management at Saab
Innovation management at Saab Innovation management at Saab
Innovation management at Saab
 
gouden tips voor Blended learning en future proof onderwijs
gouden tips voor Blended learning en future proof onderwijsgouden tips voor Blended learning en future proof onderwijs
gouden tips voor Blended learning en future proof onderwijs
 
Software Engineering College 4 - exploring data
Software Engineering College 4 - exploring dataSoftware Engineering College 4 - exploring data
Software Engineering College 4 - exploring data
 
Debian Policy - 5.6.12 Version
Debian Policy - 5.6.12 VersionDebian Policy - 5.6.12 Version
Debian Policy - 5.6.12 Version
 
University amsterdam youthpeacebuilding2011
University amsterdam youthpeacebuilding2011University amsterdam youthpeacebuilding2011
University amsterdam youthpeacebuilding2011
 
Lecture roadmapping product service combinations
Lecture roadmapping product service combinationsLecture roadmapping product service combinations
Lecture roadmapping product service combinations
 
S&O Marleen van de Kerkhof Duurzaamheid Engineeringweek Hogeschool van Amsterdam
S&O Marleen van de Kerkhof Duurzaamheid Engineeringweek Hogeschool van AmsterdamS&O Marleen van de Kerkhof Duurzaamheid Engineeringweek Hogeschool van Amsterdam
S&O Marleen van de Kerkhof Duurzaamheid Engineeringweek Hogeschool van Amsterdam
 
Soft values of harbours
Soft values of harboursSoft values of harbours
Soft values of harbours
 
Oso Model
Oso   ModelOso   Model
Oso Model
 
Denkpatronen open innovatie en keten innovatie - 2012-2013
Denkpatronen open innovatie en keten innovatie - 2012-2013Denkpatronen open innovatie en keten innovatie - 2012-2013
Denkpatronen open innovatie en keten innovatie - 2012-2013
 
Scenario analyse en planning voor innovatie
Scenario analyse en planning voor innovatie Scenario analyse en planning voor innovatie
Scenario analyse en planning voor innovatie
 

Similar to Software for big data - setting the scene

DDMA 3 maart 2009 Pieter Vijn over Data Governance
DDMA 3 maart 2009 Pieter Vijn over Data GovernanceDDMA 3 maart 2009 Pieter Vijn over Data Governance
DDMA 3 maart 2009 Pieter Vijn over Data GovernanceDDMA
 
Trends in architecture ("De Master Spreekt", HU, 2014)
Trends in architecture ("De Master Spreekt", HU, 2014)Trends in architecture ("De Master Spreekt", HU, 2014)
Trends in architecture ("De Master Spreekt", HU, 2014)Bas van Gils
 
2010 I Rendementbijeenkomst
2010 I Rendementbijeenkomst2010 I Rendementbijeenkomst
2010 I Rendementbijeenkomstmr38schev
 
Kerncompetenties voor de architect, informatiemanager en IT-governance-adviseur
Kerncompetenties voor de architect, informatiemanager en IT-governance-adviseurKerncompetenties voor de architect, informatiemanager en IT-governance-adviseur
Kerncompetenties voor de architect, informatiemanager en IT-governance-adviseurDanny Greefhorst
 
Marketing Intelligence voor Managers – Stappenplan voor toolkeuze
Marketing Intelligence voor Managers – Stappenplan voor toolkeuzeMarketing Intelligence voor Managers – Stappenplan voor toolkeuze
Marketing Intelligence voor Managers – Stappenplan voor toolkeuzeFourPoints Business Intelligence
 
FB_24-31_Ronald Damhof
FB_24-31_Ronald DamhofFB_24-31_Ronald Damhof
FB_24-31_Ronald DamhofPrudenza B.V
 
NL - Module 2 - Using your own Data
NL - Module 2 - Using your own DataNL - Module 2 - Using your own Data
NL - Module 2 - Using your own Datacaniceconsulting
 
Masterclass Innovatie in de zorg; hoe realiseer je een innovatieklimaat met IT?
Masterclass Innovatie in de zorg; hoe realiseer je een innovatieklimaat met IT?Masterclass Innovatie in de zorg; hoe realiseer je een innovatieklimaat met IT?
Masterclass Innovatie in de zorg; hoe realiseer je een innovatieklimaat met IT?Frank Willems
 
Web Analytics In Uw Organisatie
Web Analytics In Uw OrganisatieWeb Analytics In Uw Organisatie
Web Analytics In Uw OrganisatieRene Nijhuis
 
Presentatie enterprise-architectuur en GEMMA
Presentatie enterprise-architectuur en GEMMAPresentatie enterprise-architectuur en GEMMA
Presentatie enterprise-architectuur en GEMMADanny Greefhorst
 
091213 Salespresentatie Collegium Ccp Linked In
091213 Salespresentatie Collegium Ccp Linked In091213 Salespresentatie Collegium Ccp Linked In
091213 Salespresentatie Collegium Ccp Linked Inleeuw333
 
091213 Salespresentatie Collegium Ccp Linked In
091213 Salespresentatie Collegium Ccp Linked In091213 Salespresentatie Collegium Ccp Linked In
091213 Salespresentatie Collegium Ccp Linked Inleeuw333
 
Zoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTZoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTDynamic People B.V.
 
SolvX whitepaper - voorspellende modellen
SolvX whitepaper - voorspellende modellenSolvX whitepaper - voorspellende modellen
SolvX whitepaper - voorspellende modellenSolvX
 
HR analytics & HR reporting = HR Intelligence, een introductie
HR analytics & HR reporting = HR Intelligence, een introductieHR analytics & HR reporting = HR Intelligence, een introductie
HR analytics & HR reporting = HR Intelligence, een introductieAnalitiQs
 
Data Science As A Service - by Ordina
Data Science As A Service - by OrdinaData Science As A Service - by Ordina
Data Science As A Service - by OrdinaTom Francis
 
Flyerdatascience
FlyerdatascienceFlyerdatascience
FlyerdatascienceTom Francis
 

Similar to Software for big data - setting the scene (20)

DDMA 3 maart 2009 Pieter Vijn over Data Governance
DDMA 3 maart 2009 Pieter Vijn over Data GovernanceDDMA 3 maart 2009 Pieter Vijn over Data Governance
DDMA 3 maart 2009 Pieter Vijn over Data Governance
 
Trends in architecture ("De Master Spreekt", HU, 2014)
Trends in architecture ("De Master Spreekt", HU, 2014)Trends in architecture ("De Master Spreekt", HU, 2014)
Trends in architecture ("De Master Spreekt", HU, 2014)
 
2010 I Rendementbijeenkomst
2010 I Rendementbijeenkomst2010 I Rendementbijeenkomst
2010 I Rendementbijeenkomst
 
Kerncompetenties voor de architect, informatiemanager en IT-governance-adviseur
Kerncompetenties voor de architect, informatiemanager en IT-governance-adviseurKerncompetenties voor de architect, informatiemanager en IT-governance-adviseur
Kerncompetenties voor de architect, informatiemanager en IT-governance-adviseur
 
Marketing Intelligence voor Managers – Stappenplan voor toolkeuze
Marketing Intelligence voor Managers – Stappenplan voor toolkeuzeMarketing Intelligence voor Managers – Stappenplan voor toolkeuze
Marketing Intelligence voor Managers – Stappenplan voor toolkeuze
 
FB_24-31_Ronald Damhof
FB_24-31_Ronald DamhofFB_24-31_Ronald Damhof
FB_24-31_Ronald Damhof
 
NL - Module 2 - Using your own Data
NL - Module 2 - Using your own DataNL - Module 2 - Using your own Data
NL - Module 2 - Using your own Data
 
datadriven-education-3.0-coney
datadriven-education-3.0-coneydatadriven-education-3.0-coney
datadriven-education-3.0-coney
 
Masterclass Innovatie in de zorg; hoe realiseer je een innovatieklimaat met IT?
Masterclass Innovatie in de zorg; hoe realiseer je een innovatieklimaat met IT?Masterclass Innovatie in de zorg; hoe realiseer je een innovatieklimaat met IT?
Masterclass Innovatie in de zorg; hoe realiseer je een innovatieklimaat met IT?
 
2 Part4
2 Part42 Part4
2 Part4
 
Web Analytics In Uw Organisatie
Web Analytics In Uw OrganisatieWeb Analytics In Uw Organisatie
Web Analytics In Uw Organisatie
 
Presentatie enterprise-architectuur en GEMMA
Presentatie enterprise-architectuur en GEMMAPresentatie enterprise-architectuur en GEMMA
Presentatie enterprise-architectuur en GEMMA
 
091213 Salespresentatie Collegium Ccp Linked In
091213 Salespresentatie Collegium Ccp Linked In091213 Salespresentatie Collegium Ccp Linked In
091213 Salespresentatie Collegium Ccp Linked In
 
091213 Salespresentatie Collegium Ccp Linked In
091213 Salespresentatie Collegium Ccp Linked In091213 Salespresentatie Collegium Ccp Linked In
091213 Salespresentatie Collegium Ccp Linked In
 
2 Part5
2 Part52 Part5
2 Part5
 
Zoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICTZoeken in SharePoint by Arno Flapper Imtech ICT
Zoeken in SharePoint by Arno Flapper Imtech ICT
 
SolvX whitepaper - voorspellende modellen
SolvX whitepaper - voorspellende modellenSolvX whitepaper - voorspellende modellen
SolvX whitepaper - voorspellende modellen
 
HR analytics & HR reporting = HR Intelligence, een introductie
HR analytics & HR reporting = HR Intelligence, een introductieHR analytics & HR reporting = HR Intelligence, een introductie
HR analytics & HR reporting = HR Intelligence, een introductie
 
Data Science As A Service - by Ordina
Data Science As A Service - by OrdinaData Science As A Service - by Ordina
Data Science As A Service - by Ordina
 
Flyerdatascience
FlyerdatascienceFlyerdatascience
Flyerdatascience
 

More from Jurjen Helmus

Software Engineering College 2 - ETL and databases
Software Engineering College 2 - ETL and databasesSoftware Engineering College 2 - ETL and databases
Software Engineering College 2 - ETL and databasesJurjen Helmus
 
innoveren_met_big_data_jr_helmus
innoveren_met_big_data_jr_helmusinnoveren_met_big_data_jr_helmus
innoveren_met_big_data_jr_helmusJurjen Helmus
 
Roadmapping product service combinations
Roadmapping product service combinationsRoadmapping product service combinations
Roadmapping product service combinationsJurjen Helmus
 
Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap Jurjen Helmus
 
Workshop webcollege - cursus didactiek
Workshop webcollege - cursus didactiekWorkshop webcollege - cursus didactiek
Workshop webcollege - cursus didactiekJurjen Helmus
 
Value chain innovation - Breaking the chains
Value chain innovation - Breaking the chainsValue chain innovation - Breaking the chains
Value chain innovation - Breaking the chainsJurjen Helmus
 
Roadmapping Product Service Combinations
Roadmapping Product Service CombinationsRoadmapping Product Service Combinations
Roadmapping Product Service CombinationsJurjen Helmus
 
Microles lateraal denken
Microles lateraal denkenMicroles lateraal denken
Microles lateraal denkenJurjen Helmus
 
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...Jurjen Helmus
 
Marktinschatting en forecasting
Marktinschatting en forecastingMarktinschatting en forecasting
Marktinschatting en forecastingJurjen Helmus
 
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van AmsterdamDuurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van AmsterdamJurjen Helmus
 
Weekprogramma Engineeringweek
Weekprogramma EngineeringweekWeekprogramma Engineeringweek
Weekprogramma EngineeringweekJurjen Helmus
 

More from Jurjen Helmus (13)

Software Engineering College 2 - ETL and databases
Software Engineering College 2 - ETL and databasesSoftware Engineering College 2 - ETL and databases
Software Engineering College 2 - ETL and databases
 
innoveren_met_big_data_jr_helmus
innoveren_met_big_data_jr_helmusinnoveren_met_big_data_jr_helmus
innoveren_met_big_data_jr_helmus
 
Roadmapping product service combinations
Roadmapping product service combinationsRoadmapping product service combinations
Roadmapping product service combinations
 
Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap
 
Workshop webcollege - cursus didactiek
Workshop webcollege - cursus didactiekWorkshop webcollege - cursus didactiek
Workshop webcollege - cursus didactiek
 
Value chain innovation - Breaking the chains
Value chain innovation - Breaking the chainsValue chain innovation - Breaking the chains
Value chain innovation - Breaking the chains
 
Roadmapping Product Service Combinations
Roadmapping Product Service CombinationsRoadmapping Product Service Combinations
Roadmapping Product Service Combinations
 
Microles lateraal denken
Microles lateraal denkenMicroles lateraal denken
Microles lateraal denken
 
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
 
Marktinschatting en forecasting
Marktinschatting en forecastingMarktinschatting en forecasting
Marktinschatting en forecasting
 
4.2 voorlichting
4.2 voorlichting4.2 voorlichting
4.2 voorlichting
 
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van AmsterdamDuurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
 
Weekprogramma Engineeringweek
Weekprogramma EngineeringweekWeekprogramma Engineeringweek
Weekprogramma Engineeringweek
 

Software for big data - setting the scene

  • 1. SOFTWARE ENGINEERING COLLEGE 1 SETTING THE SCENE
  • 2. Het doel van dit college is • dat we afspraken maken over hoe we komen tot een jargon lijst • Dat je de plek van data science in de organisatie context kent • Dat je het data science proces kent • Dat je inzicht hebt in welke stakeholders je nodig hebt in een organisatie voor een succesvol data science project
  • 3. Wederzijdse Afspraken Data Science Jargon Uitleg inhoud SE theorie en praktijk The Big Picture of Analytics The Data Science Process Roles in a Data Science project
  • 4.
  • 5. Kennen  kent het jargon  kent het IT landschap van big data  kent methoden van project aanpak binnen de data science CRISPDM  kent de inrichting van data warehouse  kent de code conventies gebruikelijk voor R Kunnen  kan een project indelen en uitvoeren naar CRISP-DM methodiek  Kan eenvoudige statistische methoden toepassen in R  Kan zelfstandig data acquireren en inladen in R  Kan data beoordelen op validiteit / integriteit en waar nodig opschonen  Kan exploratieve data visualisaties maken  Kan R code voorzien van commentaar ten behoeve van leesbaarheid Leerdoelen voor het vak
  • 6. thema thema Data Science Process Aquiring data Databases Data Exploration weeknummer Lesweek week 1 week 2 week 3 week 4 kalenderweek 36 37 38 39 theorie College CRISPDM Relational databases datawarehousing ELT/ETL anomalies / data cleaning Literatuur Practical data science in R hfst 1 data science proces hfst 2 Loading data in R hfst 4 managing data Performance management Uitdagingen en definities van performance management Hoofdstuk 1 Behoefte aan een gestructureerde aanpak van Hoofdstuk 12 Extractie - Transformatie - Loading Hoofdstuk 8 Online Analytical Processing Performance Management- Infrastructuur Praktijk datacamp Writing functions in R / data manipulation with dplyr Loading data into R /Clean data in R data vizualisation with ggplot 1 data vizualisation with ggplot 2 Exam Deadline first 3 datacamp courses werkcollege Access Noorderwind database relationele database bouwen SIS datawharehouse SIS Data cleaning EV data assignment (Friday) Titanic competition download a dataset plot dataset in order to find distribution type generate 4 different distibutions scatterplot different groups + facetting lon /lat + cleaning ervan optioneel kennisverhoging A Hands-on Introduction to Statistics with R
  • 7. ` Data Wrangling Deployment Documentation Exam Capstone week 5 week 6 week 7 week 8 week 9 40 41 43 44 45 OLAP Deployment with Shiny server Documentation hfst 3 Exploring data hfst 10 documentation and deployment Hoofdstuk 9 Rapportering Ggvis + shiny server Shiny server dashboards Reporting with Markdown and Knitr Deadline second 3 datacamp courses theory exam deadline project interactief plaatje gis plaatje dashboard ** data table **
  • 8.
  • 10. Data Warehouse Concepts Course v.6.0 Directors …all Analysis & Ad-Hoc rept. …all Mgmt Reporting Managers Analysts (Fin., Sal., Prod., …) (ELASTIC) DATA WAREHOUSE Operational Systems Data Warehouse
  • 11.
  • 13.
  • 14.
  • 15. Gebrek aan voorspelbaarheid goede doelstellingen kunnen pas gemaakt worden als een goed kennis van de te verwachten evoluties aanwezig is gebrek aan verantwoording er is nood aan de mogelijkheid om performantie indicatoren toe te wijzen aan de personen die het dichtst staan bij de business gebrek aan visibiliteit is er een volledig zicht op de performance van de volledige organisatie? Is het duidelijk welke rol iedereen en alle processen spelen bij de totstandkoming van de uiteindelijke bedrijfsresultaten? Hfst 1 performance management - frustraties
  • 17. Corporate performance management? Balanceren tussen verleden en toekomst en tussen financieel en business CPM wil een gebalanceerd zicht geven op bedrijfsperformantie met een gepaste mix van financiële en operationele maatstaven, gecombineerd met de technologie die de historische en verwachte activiteit op een effectieve manier voorstelt. Butler Group, 2004. Corporate Performance Management, A new approach to business control and planning. Technology Evaluation and Comparison Report.
  • 18. CPM verzoent het verleden, het heden en de toekomst Cognos, 2004. The Visionary CFO. Leadership in Corporate Performance Management. Cognos Press, Canada.
  • 19.
  • 20. Hoe complexer de berekeningen en tools in de organisatie hoe groter de meerwaarde is Er wordt altijd een moeten worden gezocht in: Snelheid*complexiteit*data volume= Benodigde rekenkracht
  • 21.
  • 22.
  • 23. « We did a Pareto analysis, a grid analysis, a decision tree, a force field analysis... And then the boss decided to go with his gut. »
  • 24. Vanuit beslissingsperspectief zie je de volgende IT tools Butler Group, 2004. Corporate Performance Management, A new approach to business control and planning. Technology Evaluation and Comparison Report. Binnenste cyclus elementen ter ondersteuning van het beslissingsproces Proactiviteit ontbreekt ietwat Analytical Intelligence moet meer kunnen doen Buitenste cyclus Cooke & Slack decision- making process
  • 25. Performance management onderdelen "a set of techniques and tools for the acquisition and transformation of raw data into meaningful and useful information for business analysis purposes Inzicht genereren in de toekomst v van de organisatie op basis van best-in-class methodieken Voor onze minor zijn Business intelligence en Analytical inteligence van belang
  • 26. Turning from a rear view mirror on the business... Business intelligence is feitelijk een slimme manier om achteruit te kijken
  • 27. 5. IMPLEMENTATIE VAN STRATEGIE Terwijl Analytical intelligence vooral* vooruit kijkt Analytical intelligence kijkt niet alleen vooruit in de zin van voorspellingen maar kijkt ook naar waarom de dingen gaan zoals ze gaan, vanuit beter begrip over het systeem waar je in zit kun je betere beslissingen maken
  • 28. Op het laagste niveau is de informatie operationeel en locaal. Gedetailleerde informatie ontstaat en wordt gebruikt door ERP processen. Op het tactische niveau wordt de informatie gedeeltelijk geaggregeerd en samengevat om het nemen van bedrijfsbeslissingen op het onderliggende niveau te ondersteunen. Op het hoogste niveau wordt de scope strategisch en globaal, sterk samengevatte informatie is beschikbaar om strategische communicatie en feedback toe te laten. Het is belangrijk te noteren dat informatie beweegt van onder naar boven en van boven naar onder. Strategische beslissingen worden bovenaan genomen en geventileerd naar beneden, performance management feedback keert terug naar boven van onder naar boven. Deze interactie tussen top-down en bottom-up wordt voortdurend iteratief doorlopen en beweegt als een “jo-jo”. De Business Intelligence pyramide illustreert de informatiestromen door de organisatie een 4. MONITORING VAN CORPORATE PERFORMANCE
  • 29. Uitgewerkt ziet het er dan zo uit (voor zover bedrijven daadwerkelijk in staat zijn een volledige uitrol te maken van de strategische piramide)
  • 30.
  • 31. ANALYTICAL INTELLIGENCE? ~ data science • Beter inzicht in de bestaande processen via operationeel onderzoek levert inzichten en hefbomen op die bruikbaar zijn:  Bij het zetten van targets  Het onderbouwen van plannen  Het bouwen van (nieuwe) strategieën  Verklaren en beter begrijpen van geobserveerde performantie  Het anticiperen van gevolgen van beslissingen  Het doorgronden van strategische oorzaak- en gevolgrelaties  Het modelleren van de volledige business
  • 35. • Why do the sponsors want the project in the first place? What do they lack, and what do they need? • What are they doing to solve the problem now, and why isn’t that good enough? • What resources will you need: what kind of data and how much staff? Will you have domain experts to collaborate with, and what are the computational resources? • How do the project sponsors plan to deploy your results? What are the constraints that have to be met for successful deployment? Data Science proces – Define the goal
  • 36. • What data is available to me? • Will it help me solve the problem? • Is it enough? • Is the data quality good enough Data Science proces – collect and manage data
  • 37. • Classification—Deciding if something belongs to one category or another • Scoring—Predicting or estimating a numeric value, such as a price or probability • Ranking—Learning to order items by preferences • Clustering—Grouping items into most-similar groups • Finding relations—Finding correlations or potential causes of effects seen in the data • Characterization—Very general plotting and report generation from data Data Science proces – build the model
  • 38. • Is it accurate enough for your needs? • Does it generalize well? • Does it perform better than “the obvious guess”? • Better than whatever estimate you currently use? • Do the results of the model (coefficients, clusters, rules) make sense in the context of the problem domain? Data Science proces – evaluate the model
  • 39.
  • 40. Listing 1.2 practica data science in R Data Science proces – the obvious guess?!
  • 41. Listing 1.2 practica data science in R Data Science proces – the obvious guess?!
  • 42.
  • 43. • How should they interpret the model? • What does the model output look like? • If the model provides a trace of which rules in the decision tree executed, how do they read that? • If the model provides a confidence score in addition to a classification, how should they use the confidence score? • When might they potentially overrule the model? Data Science proces – present results
  • 44. At least one person will read your code and that is FUTURE YOU!
  • 45. Welke vragen zou je stellen omtrent implementatie? Data Science proces
  • 46. Voorbeeld 2 data science proces
  • 47. CRISPDM Cross Industry Standard Process for Data Mining
  • 48.
  • 49. Numerieke « business problem-solving » methode SAS Institute Methodology, 1998. Data Mining Projects. Sas Institute, #0518 Draft.
  • 50. NUMERIEKE « BUSINESS PROBLEM-SOLVING » METHODE
  • 51.
  • 52.
  • 53. DEFINIEER HET BUSINESS PROBLEM – HOW TO SOLVE IT • What is the unknown (the number I am trying to calculate)? • What data are given, and which can be estimated using knowledge I already have? • Can I restate the problem in different words? • Can I draw a picture or graph framing the problem? • Is there another similar problem I have already solved that could give me the key to a solution? • Can I make some simple assumptions that might help me solve the problem more easily? • Can I just solve one of the problems? • Can I solve a simplified version of the problem, using round numbers that are roughly right? • Are there any answers that I know are wrong? How to Solve it: A New Aspect of Mathematical Method (Polya G., 1957)
  • 55. 3.3. EVALUEER DE OMGEVING • Zal de organisatie er iets kunnen en willen aan doen? • Hoe zit de locale politiek in elkaar? • In welke mate bestaat een cultuur die kwantitatief genoeg is? • Zal IT willen meewerken om de verandering te automatiseren? • Zal Operations de resultaten gebruiken voor betere werking of zullen ze blijven werken zoals ze al altijd hebben gewerkt? • Is de scope van de vraag in proportie tot het mandaat of zeggenschap dat we hebben? Kunnen we met andere woorden zelf iets aan het probleem doen?
  • 56. Zorg dat de data beschikbaar is
  • 59. Rollen in data science project
  • 60. ROLLEN IN DATA SCIENCE PROJECT
  • 61. https://www.youtube.com/watch?v=jyju2P- 7hPA&list=PLAwxTw4SYaPm4R6j_wzVOCV9fJaiQDYx4 ASSIGNMENT LECTURE Bereid je voor op de basis van Relationele Databases Blended learning tips https://www.youtube.com/watch?v=-fQ-bRllhXc optioneel https://www.youtube.com/watch?v=jyju2P-7hPA&list=PLAwxTw4SYaPm4R6j_wzVOCV9fJaiQDYx4 https://www.youtube.com/watch?v=z2kbsG8zsLM