Hva slags typer analyse kan være interessant for en typisk norsk kunde? Hvilken forretningsverdi kan disse ha? Hva trenger man for å kunne kjøre analysene? Hva slags verktøy finnes?
I dette innlegget går Lars Marius gjennom noen oppsiktsvekkende eksempler på bruk av Big Data-analyse i den virkelige verden. Vi ser også på hva slags teknikker som ligger under analysen, og hvordan disse fungerer. Egentlig er dette tung matematikk og statistikk, men det går an å gi et inntrykk av hovedprinsippene nokså enkelt.
Presentation in Norwegian for OsloMet on Internet of Things and Privacy.
The presentation material holds much in common with previous slides, as it is the principles that matter. Updated with current events, in particular with AI, electric cars and China social scoring.
Internet of Things and Privacy.
The presentation is in Norwegian, but I can translate it into English upon request. Note that the presentation is mostly images and assumes that the presenter know what they represent and speaks on that. The presentation is not intended to be self-explanatory.
Presentation in Norwegian on Internet of Things and Privacy.
Presentation is mostly images and bullet points, not intended as a standalone presentation.
Når kommunikasjon kobles med rett informasjonErgoGroup
Mange mennesker og de fleste IT-systemer har et ”spesialistproblem”: De er gode på ett område, men fungere lite effektivt med sine omgivelser da de mangler både nødvendig informasjon og evnen til å kommunisere godt med andre.
I dette innlegget går Lars Marius gjennom noen oppsiktsvekkende eksempler på bruk av Big Data-analyse i den virkelige verden. Vi ser også på hva slags teknikker som ligger under analysen, og hvordan disse fungerer. Egentlig er dette tung matematikk og statistikk, men det går an å gi et inntrykk av hovedprinsippene nokså enkelt.
Presentation in Norwegian for OsloMet on Internet of Things and Privacy.
The presentation material holds much in common with previous slides, as it is the principles that matter. Updated with current events, in particular with AI, electric cars and China social scoring.
Internet of Things and Privacy.
The presentation is in Norwegian, but I can translate it into English upon request. Note that the presentation is mostly images and assumes that the presenter know what they represent and speaks on that. The presentation is not intended to be self-explanatory.
Presentation in Norwegian on Internet of Things and Privacy.
Presentation is mostly images and bullet points, not intended as a standalone presentation.
Når kommunikasjon kobles med rett informasjonErgoGroup
Mange mennesker og de fleste IT-systemer har et ”spesialistproblem”: De er gode på ett område, men fungere lite effektivt med sine omgivelser da de mangler både nødvendig informasjon og evnen til å kommunisere godt med andre.
It driftsperson fra mekaniker til kartleser og sjåførSimen Sommerfeldt
Min Keynote til Computerworlds seminar om nettverk og kommunikasjon. En hypotese om karriere 2.0: Litt om trender som påvirker bedrifter, hva virksomhetsarkitektur er, og hvordan du kan bevege deg i den retningen
Describes the process in designing Bouvets new Intranet including analytics, service design, concept development, technology and describing the first version.
VidenDanmark afholdt den 8.10.2009 seminar om Enterprise Search Best Practice 2009. Ved seminaret var der præsentationer fra Findwise, Convergens, Scanjour, Metier, COWI og Creuna. Der blev præsenteret en række søgeteknologier: Fast, Google Search Application, Autonomy, Sharepoint. Seminaret blev understøttet af et seminar 2.0 - system. Se hele dokumentationen på http://videndanmark.dk/8-10-Search-2009.441.0.html.
Presentasjon fra Software 2014, på sporet "Intraprenørskap".
Få innspill til å kjøre prototyper for å støtte forretningsutvikling med IT-modernisering. Arbeidsform, plan, team-sammensetning og kostnader vil bli presentert.
Forenkling av skjemaveldet er krevende, men viktig. Skatteetatens demonstrer innovasjon i praksis ved å bruke prototyping i skyen for å støtte tverrfaglig samarbeid.
Hvordan du som gründer kan hente ut potensialet innenfor IoTSimen Sommerfeldt
Til Oslo Business Region sin Startup Day: Noen rammebetingelser som gjør at den store IoT drømmen kan la vente på seg. Men du som gründer kan tjene på dette!
It driftsperson fra mekaniker til kartleser og sjåførSimen Sommerfeldt
Min Keynote til Computerworlds seminar om nettverk og kommunikasjon. En hypotese om karriere 2.0: Litt om trender som påvirker bedrifter, hva virksomhetsarkitektur er, og hvordan du kan bevege deg i den retningen
Describes the process in designing Bouvets new Intranet including analytics, service design, concept development, technology and describing the first version.
VidenDanmark afholdt den 8.10.2009 seminar om Enterprise Search Best Practice 2009. Ved seminaret var der præsentationer fra Findwise, Convergens, Scanjour, Metier, COWI og Creuna. Der blev præsenteret en række søgeteknologier: Fast, Google Search Application, Autonomy, Sharepoint. Seminaret blev understøttet af et seminar 2.0 - system. Se hele dokumentationen på http://videndanmark.dk/8-10-Search-2009.441.0.html.
Presentasjon fra Software 2014, på sporet "Intraprenørskap".
Få innspill til å kjøre prototyper for å støtte forretningsutvikling med IT-modernisering. Arbeidsform, plan, team-sammensetning og kostnader vil bli presentert.
Forenkling av skjemaveldet er krevende, men viktig. Skatteetatens demonstrer innovasjon i praksis ved å bruke prototyping i skyen for å støtte tverrfaglig samarbeid.
Hvordan du som gründer kan hente ut potensialet innenfor IoTSimen Sommerfeldt
Til Oslo Business Region sin Startup Day: Noen rammebetingelser som gjør at den store IoT drømmen kan la vente på seg. Men du som gründer kan tjene på dette!
Skal man få fullt utbytte av dataene man sitter, på må disse integreres, samles og vaskes. Det kan være både vanskelig og dyrt, men fremskritt innen integrasjonsteknologi har gjort dette vesentlig enklere og mer fleksibelt. Vi forteller om teknikker vi har brukt for dette, og ser på noen kundecaser.
Fra Big Data til Small Data - Ina SvarødBouvet ASA
I dette innlegget får du høre om hvordan man i kommunikasjon med kunder og brukere kan dra nytte av informasjon man har i databasen. Riktig bruk av informasjonen kan gjøre at budskapet blir relevant for mottakeren samtidig som den støtter opp under virksomhetens hovedmål for aktiviteten og bedriftens strategi. Det blir presentert eksempler fra kampanjer laget for Ice.net, Kreftforeningen og Redningsselskapet.
Foredrag holdt av Nina Taraldsen på Bouvet Innsikt 2012 i Larvik og Kristiansand. Om brukskvalitet, emotional design og 3 tips til hvordan du kan skape en god brukeropplevelse.
3. Hvor er forretningsverdien?
• Skal Big Data få forretningsverdi for deg
må du
– finne de verdifulle spørsmålene,
– besvare dem med data-analyse, og
– handle!
• All verdens data og analyse er verdiløs hvis
den ikke fører til handling
3
4. Offentlig tilsyn
• Gitt masse data om tilsynsobjektene
– virksomhetstype, geografisk plassering, tid for
forrige tilsyn, eiertype, dato opprettet, ...
• er det mulig å forutsi hvilke objekter det
mest sannsynlig er problemer med?
– så kan man prioritere tilsyn mot disse
• Utgangspunkt
– man sitter på masse data om objektene
– man vet allerede hvor det ble funnet problemer i
fortiden
– kan bruke dette for å trene en modell
4
5. Svindel
• Er det mulig å identifisere hvilke søknader
som er svindelforsøk?
• Igjen, gitt
– alle data i søknaden,
– som man har om søker fra før,
• kan man trene opp en modell som forutsier
dette?
• Vil kreve at man har informasjon om hvem
som begikk svindel tidligere
– for å kunne lære opp en modell
5
6. Hvilke kunder er på vei ut?
• Å gjenvinne kunder er svært dyrt
– veldig mye å hente på å overbevise kunden om å bli
– krever at man vet hvem som er i faresonen
• Kan man identifisere kunder i faresonen?
– se på generelle attributter ved kunden
– se på hvordan kunden bruker produktet
– dataeksos er sentralt her
6
7. Produktanbefaling (1)
• Kunder som kjøpte dette har også kjøpt ...
– kan brukes på nettsider, f.eks, for å vise relaterte
produkter
– lett å lage, krever bare ordreinformasjon
– teknikken heter “frequent itemsets”
7
8. Produktanbefaling (2)
• Vi tror du vil like ...
– for å gjøre dette trenger man informasjon om hva
enkeltkunder liker
– kilden kan være ratinger, kjøp, dataeksos ...
– kan enten utnytte bare kundeinfo, eller ta hensyn
til produktegenskaper
– gitt nok data er dette lett å bygge med rimelig
resultat
– kan gjøres med k-nearest neighbours, eller
matrisefaktorisering
8
9. Kundesegmentering
• Kan man automatisk identifisere grupper av
kunder?
– dvs, gitt data om kundene og deres oppførsel, kan man
automatisk lage grupper av like kunder?
– kan f.eks kombineres med personas fra Kundereisen
• Dette er clustering
– krever informasjon om kunden pluss oppførsel
– lang rekke med ulike teknikker
– krever ingen opplæring eller forhåndsdefinerte grupper
• Algoritmen vil automatisk plassere kunden
– dette kan etterpå brukes som input til videre analyse
9
10. Automatisk datakobling
• Det finnes teknikker for å automatisk koble
datasett uten felles identifikator
– kalles “record linkage”, historie tilbake til 1946
– vi har avanserte verktøy for dette1)
• Kan brukes til en hel rekke ting
– konsolidering av kontaktdatabaser/CRM
– kobling av interne data mot eksterne data
• enten data man kjøper, eller åpne data
– innhenting av kundeinformasjon fra sosiale medier
10
1) http://code.google.com/p/duke/
11. A/B-testing
• Big Data-analyse handler om å bruke mer
pålitelige verktøy enn magefølelse
• Dette kan også brukes på f.eks
– valg mellom alternative brukergrensesnitt
– valg av tiltak overfor kunder
– ...
• Kan løses med vanlig statistisk hypotesetesting
– mer moderne løsning: banditt-algoritmer
A:
11
B:
12. Hvem skal vi ringe?
• Direktesalg er dyrt
– enten det er via telefon eller post
– derfor viktig å velge ut de riktige kandidatene
• To måter å gjøre dette på
1. magefølelse for å sette statiske kriterier
2. machine learning for å lære opp en statistisk
modell som veier mange kriterier
• Ved å systematisk samle data om hvem
som responderer kan man bli mer
målrettet
– gir grunnlag for å lære opp modellen
12
14. Verktøy er ikke det viktigste
spørsmål
+ data
+ matematikk
= svar
14
15. Forutsetninger
• Datavarehus er en fordel
– lettere å analysere data som er samlet og massert
– dog ikke påkrevd
• Semantisk integrasjon kan hjelpe
– enklere og mer fleksibel integrasjon av data
– godt alternativ til datavarehus
• Også mulig å løse ad-hoc
– dvs integrere data etter hvert som det trengs for
hver enkelt analyse
– enkel og billig måte å komme i gang på
– mer kostbart på sikt, fordi integrasjoner må gjentas
mange ganger
15
16. “because “Hadoop” and “Big
Data” are buzzwords, half the
world wants to wear this
straightjacket even if they
don’t need to.”
• Åpen kildekode-verktøy for dataanalyse
– gjør det mulig å spre analysen ut over mange
maskiner
– noe nær lineær skalering med antall maskiner
– basert på Googles MapReduce-teknikk
– mer eller mindre synonymt med Big Data
• Stort økosystem
– masse verktøy basert på Hadoop
– Mahout, Pig, ...
• Tungt å bruke
– vanskelig å programmere med
– krever mange maskiner
• Stort sett unødvendig!
16
http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
17. Hvordan mislykkes med Hadoop
• Mange installerer Hadoop...
• ...finner aldri ut hva de skal med det
– gir opp
• ...prøver seg på data-analyse
– har ikke kontroll på matematikken
– får ikke resultater
– gir opp
• ...har spørsmål og matematikk, men
– har ikke nok data eller klarer ikke integrere dem
– gir opp
17
18. Scripting
• Å massere og analysere data med statiske
språk er tungvint
– Java, C#, osv
• Ekstremt mye lettere å gjøre med
scriptspråk
– særlig Python, men også andre
• Finnes ferdige analyseverktøy for Python
– NumPy, SciPy, pandas
• R er også mye brukt
18
19. Noen praktiske eksempler
• Clustering av flymodeller
– 250 linjer for innlasting og vasking av data
– 150 linjer for clustering
• Personlige anbefalinger av filmer
– 13 linjer til innlesing av data
– 230 linjer til å gjøre anbefalinger
• Forutsi ølratinger med lineær regresjon
– 83 linjer til lesing og vask av data
– 107 linjer til forutsigelse
• Spamfiltrering med Bayes’s Teorem
– 162 linjer
19
21. Hvordan bygge en løsning?
1. Finn et spørsmål
2. Finn data som kan besvare det
3. Lag en prototyp
–
–
samle og vask dataene med scripting
lag et script som kjører en algoritme
4. Test prototypen
–
viktig å validere at man kan stole på svarene!
5. Bygg en produksjonsløsning
–
21
forutsatt at prototypen passerte test
22. Kommer spørsmålet først?
• Et stort tema i data science er EDA:
– Exploratory Data Analysis
– det å grave i dataene for å finne innsikter og idéer
– disse kan etterpå testes med analyse
• Når man først har dataene samlet kan
dette være svært kraftig
– krever at man har dataene
– lettere med semantisk integrasjon
• Viktig også for å ha bakgrunn til
tolke resultat fra analyse
22
23. Hvordan teste Big Data-analyse?
• Bruk 90% av dataene som input til
algoritmen
– når den er ferdig opplært, forutsi resultat for de
siste 10%
• Mål avvik mellom forutsigelse og korrekt
resultat
– gjør dette 10 ganger med forskjellige 10-deler av
dataene som testdata
• Snittavvik gir meget god validering
23
25. Alle kan bruke Big Data
• Krever bare at man har
– data + spørsmål med forretningsverdi
• Kort vei fra spørsmål til svar
– gitt riktig tilnærming
– svaret kan være at man ikke har nok data
• Etter første svar er de neste lettere
– mer av dataene er samlet og klare
– man har mer oversikt over data og teknikker
25