SlideShare a Scribd company logo
Hvordan få forretningsverdi av Big Data
Bouvet Innsikt 2013-11-21
Lars Marius Garshol, larsga@bouvet.no, http://twitter.com/larsga
1
Anvendelser

2
Hvor er forretningsverdien?
• Skal Big Data få forretningsverdi for deg
må du
– finne de verdifulle spørsmålene,
– besvare dem med data-analyse, og
– handle!

• All verdens data og analyse er verdiløs hvis
den ikke fører til handling

3
Offentlig tilsyn
• Gitt masse data om tilsynsobjektene
– virksomhetstype, geografisk plassering, tid for
forrige tilsyn, eiertype, dato opprettet, ...

• er det mulig å forutsi hvilke objekter det
mest sannsynlig er problemer med?
– så kan man prioritere tilsyn mot disse

• Utgangspunkt
– man sitter på masse data om objektene
– man vet allerede hvor det ble funnet problemer i
fortiden
– kan bruke dette for å trene en modell
4
Svindel
• Er det mulig å identifisere hvilke søknader
som er svindelforsøk?
• Igjen, gitt
– alle data i søknaden,
– som man har om søker fra før,

• kan man trene opp en modell som forutsier
dette?
• Vil kreve at man har informasjon om hvem
som begikk svindel tidligere
– for å kunne lære opp en modell

5
Hvilke kunder er på vei ut?
• Å gjenvinne kunder er svært dyrt
– veldig mye å hente på å overbevise kunden om å bli
– krever at man vet hvem som er i faresonen

• Kan man identifisere kunder i faresonen?
– se på generelle attributter ved kunden
– se på hvordan kunden bruker produktet
– dataeksos er sentralt her

6
Produktanbefaling (1)
• Kunder som kjøpte dette har også kjøpt ...
– kan brukes på nettsider, f.eks, for å vise relaterte
produkter
– lett å lage, krever bare ordreinformasjon
– teknikken heter “frequent itemsets”

7
Produktanbefaling (2)
• Vi tror du vil like ...
– for å gjøre dette trenger man informasjon om hva
enkeltkunder liker
– kilden kan være ratinger, kjøp, dataeksos ...
– kan enten utnytte bare kundeinfo, eller ta hensyn
til produktegenskaper
– gitt nok data er dette lett å bygge med rimelig
resultat
– kan gjøres med k-nearest neighbours, eller
matrisefaktorisering

8
Kundesegmentering
• Kan man automatisk identifisere grupper av
kunder?
– dvs, gitt data om kundene og deres oppførsel, kan man
automatisk lage grupper av like kunder?
– kan f.eks kombineres med personas fra Kundereisen

• Dette er clustering
– krever informasjon om kunden pluss oppførsel
– lang rekke med ulike teknikker
– krever ingen opplæring eller forhåndsdefinerte grupper

• Algoritmen vil automatisk plassere kunden
– dette kan etterpå brukes som input til videre analyse

9
Automatisk datakobling
• Det finnes teknikker for å automatisk koble
datasett uten felles identifikator
– kalles “record linkage”, historie tilbake til 1946
– vi har avanserte verktøy for dette1)

• Kan brukes til en hel rekke ting
– konsolidering av kontaktdatabaser/CRM
– kobling av interne data mot eksterne data
• enten data man kjøper, eller åpne data

– innhenting av kundeinformasjon fra sosiale medier

10

1) http://code.google.com/p/duke/
A/B-testing
• Big Data-analyse handler om å bruke mer
pålitelige verktøy enn magefølelse
• Dette kan også brukes på f.eks
– valg mellom alternative brukergrensesnitt
– valg av tiltak overfor kunder
– ...

• Kan løses med vanlig statistisk hypotesetesting
– mer moderne løsning: banditt-algoritmer
A:
11

B:
Hvem skal vi ringe?
• Direktesalg er dyrt
– enten det er via telefon eller post
– derfor viktig å velge ut de riktige kandidatene

• To måter å gjøre dette på
1. magefølelse for å sette statiske kriterier
2. machine learning for å lære opp en statistisk
modell som veier mange kriterier

• Ved å systematisk samle data om hvem
som responderer kan man bli mer
målrettet
– gir grunnlag for å lære opp modellen
12
Verktøy

13
Verktøy er ikke det viktigste

spørsmål
+ data
+ matematikk
= svar

14
Forutsetninger
• Datavarehus er en fordel
– lettere å analysere data som er samlet og massert
– dog ikke påkrevd

• Semantisk integrasjon kan hjelpe
– enklere og mer fleksibel integrasjon av data
– godt alternativ til datavarehus

• Også mulig å løse ad-hoc
– dvs integrere data etter hvert som det trengs for
hver enkelt analyse
– enkel og billig måte å komme i gang på
– mer kostbart på sikt, fordi integrasjoner må gjentas
mange ganger
15
“because “Hadoop” and “Big
Data” are buzzwords, half the
world wants to wear this
straightjacket even if they
don’t need to.”

• Åpen kildekode-verktøy for dataanalyse
– gjør det mulig å spre analysen ut over mange
maskiner
– noe nær lineær skalering med antall maskiner
– basert på Googles MapReduce-teknikk
– mer eller mindre synonymt med Big Data

• Stort økosystem

– masse verktøy basert på Hadoop
– Mahout, Pig, ...

• Tungt å bruke

– vanskelig å programmere med
– krever mange maskiner

• Stort sett unødvendig!
16

http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
Hvordan mislykkes med Hadoop
• Mange installerer Hadoop...
• ...finner aldri ut hva de skal med det
– gir opp

• ...prøver seg på data-analyse
– har ikke kontroll på matematikken
– får ikke resultater
– gir opp

• ...har spørsmål og matematikk, men
– har ikke nok data eller klarer ikke integrere dem
– gir opp

17
Scripting
• Å massere og analysere data med statiske
språk er tungvint
– Java, C#, osv

• Ekstremt mye lettere å gjøre med
scriptspråk
– særlig Python, men også andre

• Finnes ferdige analyseverktøy for Python
– NumPy, SciPy, pandas

• R er også mye brukt

18
Noen praktiske eksempler
• Clustering av flymodeller
– 250 linjer for innlasting og vasking av data
– 150 linjer for clustering

• Personlige anbefalinger av filmer
– 13 linjer til innlesing av data
– 230 linjer til å gjøre anbefalinger

• Forutsi ølratinger med lineær regresjon
– 83 linjer til lesing og vask av data
– 107 linjer til forutsigelse

• Spamfiltrering med Bayes’s Teorem
– 162 linjer
19
Hvordan bygge

20
Hvordan bygge en løsning?
1. Finn et spørsmål
2. Finn data som kan besvare det
3. Lag en prototyp
–
–

samle og vask dataene med scripting
lag et script som kjører en algoritme

4. Test prototypen
–

viktig å validere at man kan stole på svarene!

5. Bygg en produksjonsløsning
–

21

forutsatt at prototypen passerte test
Kommer spørsmålet først?
• Et stort tema i data science er EDA:
– Exploratory Data Analysis
– det å grave i dataene for å finne innsikter og idéer
– disse kan etterpå testes med analyse

• Når man først har dataene samlet kan
dette være svært kraftig
– krever at man har dataene
– lettere med semantisk integrasjon

• Viktig også for å ha bakgrunn til
tolke resultat fra analyse

22
Hvordan teste Big Data-analyse?
• Bruk 90% av dataene som input til
algoritmen
– når den er ferdig opplært, forutsi resultat for de
siste 10%

• Mål avvik mellom forutsigelse og korrekt
resultat
– gjør dette 10 ganger med forskjellige 10-deler av
dataene som testdata

• Snittavvik gir meget god validering

23
Konklusjon

24
Alle kan bruke Big Data
• Krever bare at man har
– data + spørsmål med forretningsverdi

• Kort vei fra spørsmål til svar
– gitt riktig tilnærming
– svaret kan være at man ikke har nok data

• Etter første svar er de neste lettere
– mer av dataene er samlet og klare
– man har mer oversikt over data og teknikker

25

More Related Content

Similar to Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

Analysen 1-2015-Hadoop
Analysen 1-2015-HadoopAnalysen 1-2015-Hadoop
Analysen 1-2015-HadoopvindWRemme
 
2020-02-05 - Karabin frokostmøte: Maskinlæring for beslutningstakere
2020-02-05 - Karabin frokostmøte: Maskinlæring for beslutningstakere2020-02-05 - Karabin frokostmøte: Maskinlæring for beslutningstakere
2020-02-05 - Karabin frokostmøte: Maskinlæring for beslutningstakere
Karabin AS
 
It driftsperson fra mekaniker til kartleser og sjåfør
It driftsperson   fra mekaniker til kartleser og sjåførIt driftsperson   fra mekaniker til kartleser og sjåfør
It driftsperson fra mekaniker til kartleser og sjåfør
Simen Sommerfeldt
 
Roar Storleer: Google - Så god som forventet?
Roar Storleer: Google - Så god som forventet?Roar Storleer: Google - Så god som forventet?
Roar Storleer: Google - Så god som forventet?
vkp1970
 
Bouvet´s datadriven intranet
Bouvet´s datadriven intranetBouvet´s datadriven intranet
Bouvet´s datadriven intranet
Trude Hole
 
Enterprise Search, Helge Legernes, Findwise
Enterprise Search, Helge Legernes, FindwiseEnterprise Search, Helge Legernes, Findwise
Enterprise Search, Helge Legernes, Findwise
VidenDanmark
 
Digitale ferdigheter som grunnleggende ferdighet
Digitale ferdigheter som grunnleggende ferdighetDigitale ferdigheter som grunnleggende ferdighet
Digitale ferdigheter som grunnleggende ferdighet
Eva Bratvold
 
Forretningsutvikling igjennom sky-prototyping
Forretningsutvikling igjennom sky-prototypingForretningsutvikling igjennom sky-prototyping
Forretningsutvikling igjennom sky-prototyping
Tormod Varhaugvik
 
Ipr strategi
Ipr strategiIpr strategi
Ipr strategi
Stein Inge Setereng
 
Hvordan du som gründer kan hente ut potensialet innenfor IoT
Hvordan du som gründer kan hente ut potensialet innenfor IoTHvordan du som gründer kan hente ut potensialet innenfor IoT
Hvordan du som gründer kan hente ut potensialet innenfor IoT
Simen Sommerfeldt
 
GoOpen 2010: Jan Christensen
GoOpen 2010: Jan ChristensenGoOpen 2010: Jan Christensen
GoOpen 2010: Jan ChristensenFriprogsenteret
 
Hvorfor er fokus på dataforvaltning så viktig
Hvorfor er fokus på dataforvaltning så viktigHvorfor er fokus på dataforvaltning så viktig
Hvorfor er fokus på dataforvaltning så viktigGeodata AS
 
Kan vi skape mye mere verdi i softwareporosjekter
Kan vi skape mye mere verdi i softwareporosjekterKan vi skape mye mere verdi i softwareporosjekter
Kan vi skape mye mere verdi i softwareporosjekterThor Henning Hetland
 
Mer verdi i alle kontaktpunkter - en praktisk tilnærming - frokostseminar cr...
Mer verdi i alle kontaktpunkter -  en praktisk tilnærming - frokostseminar cr...Mer verdi i alle kontaktpunkter -  en praktisk tilnærming - frokostseminar cr...
Mer verdi i alle kontaktpunkter - en praktisk tilnærming - frokostseminar cr...Torbjørn Sitre
 
Statistikk og rapporter
Statistikk og rapporterStatistikk og rapporter
Statistikk og rapporter
CRIStin
 
Teknologitrender som vil påvirke fremtidens ledelse
Teknologitrender som vil påvirke fremtidens ledelseTeknologitrender som vil påvirke fremtidens ledelse
Teknologitrender som vil påvirke fremtidens ledelse
Simen Sommerfeldt
 

Similar to Hvordan få forretningsverdi av Big Data - Lars Marius Garshol (20)

Analysen 1-2015-Hadoop
Analysen 1-2015-HadoopAnalysen 1-2015-Hadoop
Analysen 1-2015-Hadoop
 
2020-02-05 - Karabin frokostmøte: Maskinlæring for beslutningstakere
2020-02-05 - Karabin frokostmøte: Maskinlæring for beslutningstakere2020-02-05 - Karabin frokostmøte: Maskinlæring for beslutningstakere
2020-02-05 - Karabin frokostmøte: Maskinlæring for beslutningstakere
 
It driftsperson fra mekaniker til kartleser og sjåfør
It driftsperson   fra mekaniker til kartleser og sjåførIt driftsperson   fra mekaniker til kartleser og sjåfør
It driftsperson fra mekaniker til kartleser og sjåfør
 
Roar Storleer: Google - Så god som forventet?
Roar Storleer: Google - Så god som forventet?Roar Storleer: Google - Så god som forventet?
Roar Storleer: Google - Så god som forventet?
 
Bouvet´s datadriven intranet
Bouvet´s datadriven intranetBouvet´s datadriven intranet
Bouvet´s datadriven intranet
 
Enterprise Search, Helge Legernes, Findwise
Enterprise Search, Helge Legernes, FindwiseEnterprise Search, Helge Legernes, Findwise
Enterprise Search, Helge Legernes, Findwise
 
Digitale ferdigheter som grunnleggende ferdighet
Digitale ferdigheter som grunnleggende ferdighetDigitale ferdigheter som grunnleggende ferdighet
Digitale ferdigheter som grunnleggende ferdighet
 
Forretningsutvikling igjennom sky-prototyping
Forretningsutvikling igjennom sky-prototypingForretningsutvikling igjennom sky-prototyping
Forretningsutvikling igjennom sky-prototyping
 
Ipr strategi
Ipr strategiIpr strategi
Ipr strategi
 
Tdc
TdcTdc
Tdc
 
Hvordan du som gründer kan hente ut potensialet innenfor IoT
Hvordan du som gründer kan hente ut potensialet innenfor IoTHvordan du som gründer kan hente ut potensialet innenfor IoT
Hvordan du som gründer kan hente ut potensialet innenfor IoT
 
GoOpen 2010: Jan Christensen
GoOpen 2010: Jan ChristensenGoOpen 2010: Jan Christensen
GoOpen 2010: Jan Christensen
 
Hvorfor er fokus på dataforvaltning så viktig
Hvorfor er fokus på dataforvaltning så viktigHvorfor er fokus på dataforvaltning så viktig
Hvorfor er fokus på dataforvaltning så viktig
 
Kan vi skape mye mere verdi i softwareporosjekter
Kan vi skape mye mere verdi i softwareporosjekterKan vi skape mye mere verdi i softwareporosjekter
Kan vi skape mye mere verdi i softwareporosjekter
 
Mer verdi i alle kontaktpunkter - en praktisk tilnærming - frokostseminar cr...
Mer verdi i alle kontaktpunkter -  en praktisk tilnærming - frokostseminar cr...Mer verdi i alle kontaktpunkter -  en praktisk tilnærming - frokostseminar cr...
Mer verdi i alle kontaktpunkter - en praktisk tilnærming - frokostseminar cr...
 
Micr0402 Produktark Bi V2 2
Micr0402 Produktark Bi V2 2Micr0402 Produktark Bi V2 2
Micr0402 Produktark Bi V2 2
 
Medlemsnytt_3_2015_side4_5
Medlemsnytt_3_2015_side4_5Medlemsnytt_3_2015_side4_5
Medlemsnytt_3_2015_side4_5
 
Statistikk og rapporter
Statistikk og rapporterStatistikk og rapporter
Statistikk og rapporter
 
Teknologitrender som vil påvirke fremtidens ledelse
Teknologitrender som vil påvirke fremtidens ledelseTeknologitrender som vil påvirke fremtidens ledelse
Teknologitrender som vil påvirke fremtidens ledelse
 
Semantisk integrasjon
Semantisk integrasjonSemantisk integrasjon
Semantisk integrasjon
 

More from Bouvet ASA

Arne Semb: Hvordan smidig testing gir økt kvalitet
Arne Semb: Hvordan smidig testing gir økt kvalitetArne Semb: Hvordan smidig testing gir økt kvalitet
Arne Semb: Hvordan smidig testing gir økt kvalitet
Bouvet ASA
 
Lloyd roden the fragility of agility
Lloyd roden   the fragility of agilityLloyd roden   the fragility of agility
Lloyd roden the fragility of agility
Bouvet ASA
 
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDIStian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Bouvet ASA
 
Nina Langseth - En font er en fon er en font. Eller?
Nina Langseth - En font er en fon er en font. Eller?Nina Langseth - En font er en fon er en font. Eller?
Nina Langseth - En font er en fon er en font. Eller?
Bouvet ASA
 
Maren Volsdal Skirbekk - Universell utforming - Enklere for alle
Maren Volsdal Skirbekk - Universell utforming - Enklere for alleMaren Volsdal Skirbekk - Universell utforming - Enklere for alle
Maren Volsdal Skirbekk - Universell utforming - Enklere for alle
Bouvet ASA
 
Hans Hjellemo: Om ULOBA og universell utforming
Hans Hjellemo: Om ULOBA og universell utformingHans Hjellemo: Om ULOBA og universell utforming
Hans Hjellemo: Om ULOBA og universell utforming
Bouvet ASA
 
Christian Stensholt: Smidig gjør oss LEANe
Christian Stensholt: Smidig gjør oss LEANeChristian Stensholt: Smidig gjør oss LEANe
Christian Stensholt: Smidig gjør oss LEANe
Bouvet ASA
 
Jon Kåre Stene - Hvorfor LEAN?
Jon Kåre Stene - Hvorfor LEAN?Jon Kåre Stene - Hvorfor LEAN?
Jon Kåre Stene - Hvorfor LEAN?
Bouvet ASA
 
Hvordan bygge Big Data - Axel Borge
Hvordan bygge Big Data - Axel BorgeHvordan bygge Big Data - Axel Borge
Hvordan bygge Big Data - Axel Borge
Bouvet ASA
 
Fra Big Data til Small Data - Ina Svarød
Fra Big Data til Small Data -  Ina SvarødFra Big Data til Small Data -  Ina Svarød
Fra Big Data til Small Data - Ina Svarød
Bouvet ASA
 
Intranett integrasjon for departemente - lars marius garshol
Intranett integrasjon for departemente - lars marius garsholIntranett integrasjon for departemente - lars marius garshol
Intranett integrasjon for departemente - lars marius garsholBouvet ASA
 
Digital dannelse
Digital dannelseDigital dannelse
Digital dannelse
Bouvet ASA
 
Bouvet innsikt samhandling
Bouvet innsikt   samhandlingBouvet innsikt   samhandling
Bouvet innsikt samhandlingBouvet ASA
 
Innsikt - SharePoint arbeidsflyter
Innsikt - SharePoint arbeidsflyterInnsikt - SharePoint arbeidsflyter
Innsikt - SharePoint arbeidsflyterBouvet ASA
 
Mennesker er målet.
Mennesker er målet.Mennesker er målet.
Mennesker er målet.
Bouvet ASA
 
Foredrag om sosiale medier av Carl Christian Grøndahl
Foredrag om sosiale medier av Carl Christian GrøndahlForedrag om sosiale medier av Carl Christian Grøndahl
Foredrag om sosiale medier av Carl Christian GrøndahlBouvet ASA
 
Faktabasert søk med Recommind
Faktabasert søk med RecommindFaktabasert søk med Recommind
Faktabasert søk med Recommind
Bouvet ASA
 
Ut av siloene
Ut av siloeneUt av siloene
Ut av siloene
Bouvet ASA
 
Virtuoso: Semantikk som skalerer!
Virtuoso: Semantikk som skalerer!Virtuoso: Semantikk som skalerer!
Virtuoso: Semantikk som skalerer!
Bouvet ASA
 

More from Bouvet ASA (20)

Arne Semb: Hvordan smidig testing gir økt kvalitet
Arne Semb: Hvordan smidig testing gir økt kvalitetArne Semb: Hvordan smidig testing gir økt kvalitet
Arne Semb: Hvordan smidig testing gir økt kvalitet
 
Lloyd roden the fragility of agility
Lloyd roden   the fragility of agilityLloyd roden   the fragility of agility
Lloyd roden the fragility of agility
 
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDIStian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
 
Nina Langseth - En font er en fon er en font. Eller?
Nina Langseth - En font er en fon er en font. Eller?Nina Langseth - En font er en fon er en font. Eller?
Nina Langseth - En font er en fon er en font. Eller?
 
Maren Volsdal Skirbekk - Universell utforming - Enklere for alle
Maren Volsdal Skirbekk - Universell utforming - Enklere for alleMaren Volsdal Skirbekk - Universell utforming - Enklere for alle
Maren Volsdal Skirbekk - Universell utforming - Enklere for alle
 
Hans Hjellemo: Om ULOBA og universell utforming
Hans Hjellemo: Om ULOBA og universell utformingHans Hjellemo: Om ULOBA og universell utforming
Hans Hjellemo: Om ULOBA og universell utforming
 
Christian Stensholt: Smidig gjør oss LEANe
Christian Stensholt: Smidig gjør oss LEANeChristian Stensholt: Smidig gjør oss LEANe
Christian Stensholt: Smidig gjør oss LEANe
 
Jon Kåre Stene - Hvorfor LEAN?
Jon Kåre Stene - Hvorfor LEAN?Jon Kåre Stene - Hvorfor LEAN?
Jon Kåre Stene - Hvorfor LEAN?
 
Hvordan bygge Big Data - Axel Borge
Hvordan bygge Big Data - Axel BorgeHvordan bygge Big Data - Axel Borge
Hvordan bygge Big Data - Axel Borge
 
Fra Big Data til Small Data - Ina Svarød
Fra Big Data til Small Data -  Ina SvarødFra Big Data til Small Data -  Ina Svarød
Fra Big Data til Small Data - Ina Svarød
 
Intranett integrasjon for departemente - lars marius garshol
Intranett integrasjon for departemente - lars marius garsholIntranett integrasjon for departemente - lars marius garshol
Intranett integrasjon for departemente - lars marius garshol
 
Digital dannelse
Digital dannelseDigital dannelse
Digital dannelse
 
Bouvet innsikt samhandling
Bouvet innsikt   samhandlingBouvet innsikt   samhandling
Bouvet innsikt samhandling
 
Innsikt - SharePoint arbeidsflyter
Innsikt - SharePoint arbeidsflyterInnsikt - SharePoint arbeidsflyter
Innsikt - SharePoint arbeidsflyter
 
Ta styringen!
Ta styringen!Ta styringen!
Ta styringen!
 
Mennesker er målet.
Mennesker er målet.Mennesker er målet.
Mennesker er målet.
 
Foredrag om sosiale medier av Carl Christian Grøndahl
Foredrag om sosiale medier av Carl Christian GrøndahlForedrag om sosiale medier av Carl Christian Grøndahl
Foredrag om sosiale medier av Carl Christian Grøndahl
 
Faktabasert søk med Recommind
Faktabasert søk med RecommindFaktabasert søk med Recommind
Faktabasert søk med Recommind
 
Ut av siloene
Ut av siloeneUt av siloene
Ut av siloene
 
Virtuoso: Semantikk som skalerer!
Virtuoso: Semantikk som skalerer!Virtuoso: Semantikk som skalerer!
Virtuoso: Semantikk som skalerer!
 

Hvordan få forretningsverdi av Big Data - Lars Marius Garshol

  • 1. Hvordan få forretningsverdi av Big Data Bouvet Innsikt 2013-11-21 Lars Marius Garshol, larsga@bouvet.no, http://twitter.com/larsga 1
  • 3. Hvor er forretningsverdien? • Skal Big Data få forretningsverdi for deg må du – finne de verdifulle spørsmålene, – besvare dem med data-analyse, og – handle! • All verdens data og analyse er verdiløs hvis den ikke fører til handling 3
  • 4. Offentlig tilsyn • Gitt masse data om tilsynsobjektene – virksomhetstype, geografisk plassering, tid for forrige tilsyn, eiertype, dato opprettet, ... • er det mulig å forutsi hvilke objekter det mest sannsynlig er problemer med? – så kan man prioritere tilsyn mot disse • Utgangspunkt – man sitter på masse data om objektene – man vet allerede hvor det ble funnet problemer i fortiden – kan bruke dette for å trene en modell 4
  • 5. Svindel • Er det mulig å identifisere hvilke søknader som er svindelforsøk? • Igjen, gitt – alle data i søknaden, – som man har om søker fra før, • kan man trene opp en modell som forutsier dette? • Vil kreve at man har informasjon om hvem som begikk svindel tidligere – for å kunne lære opp en modell 5
  • 6. Hvilke kunder er på vei ut? • Å gjenvinne kunder er svært dyrt – veldig mye å hente på å overbevise kunden om å bli – krever at man vet hvem som er i faresonen • Kan man identifisere kunder i faresonen? – se på generelle attributter ved kunden – se på hvordan kunden bruker produktet – dataeksos er sentralt her 6
  • 7. Produktanbefaling (1) • Kunder som kjøpte dette har også kjøpt ... – kan brukes på nettsider, f.eks, for å vise relaterte produkter – lett å lage, krever bare ordreinformasjon – teknikken heter “frequent itemsets” 7
  • 8. Produktanbefaling (2) • Vi tror du vil like ... – for å gjøre dette trenger man informasjon om hva enkeltkunder liker – kilden kan være ratinger, kjøp, dataeksos ... – kan enten utnytte bare kundeinfo, eller ta hensyn til produktegenskaper – gitt nok data er dette lett å bygge med rimelig resultat – kan gjøres med k-nearest neighbours, eller matrisefaktorisering 8
  • 9. Kundesegmentering • Kan man automatisk identifisere grupper av kunder? – dvs, gitt data om kundene og deres oppførsel, kan man automatisk lage grupper av like kunder? – kan f.eks kombineres med personas fra Kundereisen • Dette er clustering – krever informasjon om kunden pluss oppførsel – lang rekke med ulike teknikker – krever ingen opplæring eller forhåndsdefinerte grupper • Algoritmen vil automatisk plassere kunden – dette kan etterpå brukes som input til videre analyse 9
  • 10. Automatisk datakobling • Det finnes teknikker for å automatisk koble datasett uten felles identifikator – kalles “record linkage”, historie tilbake til 1946 – vi har avanserte verktøy for dette1) • Kan brukes til en hel rekke ting – konsolidering av kontaktdatabaser/CRM – kobling av interne data mot eksterne data • enten data man kjøper, eller åpne data – innhenting av kundeinformasjon fra sosiale medier 10 1) http://code.google.com/p/duke/
  • 11. A/B-testing • Big Data-analyse handler om å bruke mer pålitelige verktøy enn magefølelse • Dette kan også brukes på f.eks – valg mellom alternative brukergrensesnitt – valg av tiltak overfor kunder – ... • Kan løses med vanlig statistisk hypotesetesting – mer moderne løsning: banditt-algoritmer A: 11 B:
  • 12. Hvem skal vi ringe? • Direktesalg er dyrt – enten det er via telefon eller post – derfor viktig å velge ut de riktige kandidatene • To måter å gjøre dette på 1. magefølelse for å sette statiske kriterier 2. machine learning for å lære opp en statistisk modell som veier mange kriterier • Ved å systematisk samle data om hvem som responderer kan man bli mer målrettet – gir grunnlag for å lære opp modellen 12
  • 14. Verktøy er ikke det viktigste spørsmål + data + matematikk = svar 14
  • 15. Forutsetninger • Datavarehus er en fordel – lettere å analysere data som er samlet og massert – dog ikke påkrevd • Semantisk integrasjon kan hjelpe – enklere og mer fleksibel integrasjon av data – godt alternativ til datavarehus • Også mulig å løse ad-hoc – dvs integrere data etter hvert som det trengs for hver enkelt analyse – enkel og billig måte å komme i gang på – mer kostbart på sikt, fordi integrasjoner må gjentas mange ganger 15
  • 16. “because “Hadoop” and “Big Data” are buzzwords, half the world wants to wear this straightjacket even if they don’t need to.” • Åpen kildekode-verktøy for dataanalyse – gjør det mulig å spre analysen ut over mange maskiner – noe nær lineær skalering med antall maskiner – basert på Googles MapReduce-teknikk – mer eller mindre synonymt med Big Data • Stort økosystem – masse verktøy basert på Hadoop – Mahout, Pig, ... • Tungt å bruke – vanskelig å programmere med – krever mange maskiner • Stort sett unødvendig! 16 http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
  • 17. Hvordan mislykkes med Hadoop • Mange installerer Hadoop... • ...finner aldri ut hva de skal med det – gir opp • ...prøver seg på data-analyse – har ikke kontroll på matematikken – får ikke resultater – gir opp • ...har spørsmål og matematikk, men – har ikke nok data eller klarer ikke integrere dem – gir opp 17
  • 18. Scripting • Å massere og analysere data med statiske språk er tungvint – Java, C#, osv • Ekstremt mye lettere å gjøre med scriptspråk – særlig Python, men også andre • Finnes ferdige analyseverktøy for Python – NumPy, SciPy, pandas • R er også mye brukt 18
  • 19. Noen praktiske eksempler • Clustering av flymodeller – 250 linjer for innlasting og vasking av data – 150 linjer for clustering • Personlige anbefalinger av filmer – 13 linjer til innlesing av data – 230 linjer til å gjøre anbefalinger • Forutsi ølratinger med lineær regresjon – 83 linjer til lesing og vask av data – 107 linjer til forutsigelse • Spamfiltrering med Bayes’s Teorem – 162 linjer 19
  • 21. Hvordan bygge en løsning? 1. Finn et spørsmål 2. Finn data som kan besvare det 3. Lag en prototyp – – samle og vask dataene med scripting lag et script som kjører en algoritme 4. Test prototypen – viktig å validere at man kan stole på svarene! 5. Bygg en produksjonsløsning – 21 forutsatt at prototypen passerte test
  • 22. Kommer spørsmålet først? • Et stort tema i data science er EDA: – Exploratory Data Analysis – det å grave i dataene for å finne innsikter og idéer – disse kan etterpå testes med analyse • Når man først har dataene samlet kan dette være svært kraftig – krever at man har dataene – lettere med semantisk integrasjon • Viktig også for å ha bakgrunn til tolke resultat fra analyse 22
  • 23. Hvordan teste Big Data-analyse? • Bruk 90% av dataene som input til algoritmen – når den er ferdig opplært, forutsi resultat for de siste 10% • Mål avvik mellom forutsigelse og korrekt resultat – gjør dette 10 ganger med forskjellige 10-deler av dataene som testdata • Snittavvik gir meget god validering 23
  • 25. Alle kan bruke Big Data • Krever bare at man har – data + spørsmål med forretningsverdi • Kort vei fra spørsmål til svar – gitt riktig tilnærming – svaret kan være at man ikke har nok data • Etter første svar er de neste lettere – mer av dataene er samlet og klare – man har mer oversikt over data og teknikker 25