I dette innlegget går Lars Marius gjennom noen oppsiktsvekkende eksempler på bruk av Big Data-analyse i den virkelige verden. Vi ser også på hva slags teknikker som ligger under analysen, og hvordan disse fungerer. Egentlig er dette tung matematikk og statistikk, men det går an å gi et inntrykk av hovedprinsippene nokså enkelt.
Fra Big Data til Small Data - Ina SvarødBouvet ASA
I dette innlegget får du høre om hvordan man i kommunikasjon med kunder og brukere kan dra nytte av informasjon man har i databasen. Riktig bruk av informasjonen kan gjøre at budskapet blir relevant for mottakeren samtidig som den støtter opp under virksomhetens hovedmål for aktiviteten og bedriftens strategi. Det blir presentert eksempler fra kampanjer laget for Ice.net, Kreftforeningen og Redningsselskapet.
Hvordan få forretningsverdi av Big Data - Lars Marius GarsholBouvet ASA
Hva slags typer analyse kan være interessant for en typisk norsk kunde? Hvilken forretningsverdi kan disse ha? Hva trenger man for å kunne kjøre analysene? Hva slags verktøy finnes?
Digitale spor og en rekke smarte gadgets gir nye muligheter til datafangst og analyse. Men hva sier folks holdninger til personvern om viljen til å dele data? Og er folk bevisst på personvernproblematikken når vi legger igjen stadig fler digitale spor?
Presentation from Social Data Week 2013 in Oslo, Norway. An Insight into how big data/social data are changing our perspectives and ways of thinking in businesses and organizations. Sharing knowledge from world contributors. Definitions on what social data are in a larger context and how it practically can be applied by businesses. Finally an introduction into tools and the ecosystems for big/social data, how to start with big/social data projects and how to approach organization of big/social data projects.
Presentation in Norwegian for OsloMet on Internet of Things and Privacy.
The presentation material holds much in common with previous slides, as it is the principles that matter. Updated with current events, in particular with AI, electric cars and China social scoring.
Internet of Things and Privacy.
The presentation is in Norwegian, but I can translate it into English upon request. Note that the presentation is mostly images and assumes that the presenter know what they represent and speaks on that. The presentation is not intended to be self-explanatory.
Teknologi- og samfunnstrender som vil påvirke oss - til Software 2016Simen Sommerfeldt
Mine tanker om hvordan bedrifter og samfunnet blir berørt av Tingenes internett, big data, AI, roboter, (nye regler om) Personvern og Kundens tidsalder.
Fra Big Data til Small Data - Ina SvarødBouvet ASA
I dette innlegget får du høre om hvordan man i kommunikasjon med kunder og brukere kan dra nytte av informasjon man har i databasen. Riktig bruk av informasjonen kan gjøre at budskapet blir relevant for mottakeren samtidig som den støtter opp under virksomhetens hovedmål for aktiviteten og bedriftens strategi. Det blir presentert eksempler fra kampanjer laget for Ice.net, Kreftforeningen og Redningsselskapet.
Hvordan få forretningsverdi av Big Data - Lars Marius GarsholBouvet ASA
Hva slags typer analyse kan være interessant for en typisk norsk kunde? Hvilken forretningsverdi kan disse ha? Hva trenger man for å kunne kjøre analysene? Hva slags verktøy finnes?
Digitale spor og en rekke smarte gadgets gir nye muligheter til datafangst og analyse. Men hva sier folks holdninger til personvern om viljen til å dele data? Og er folk bevisst på personvernproblematikken når vi legger igjen stadig fler digitale spor?
Presentation from Social Data Week 2013 in Oslo, Norway. An Insight into how big data/social data are changing our perspectives and ways of thinking in businesses and organizations. Sharing knowledge from world contributors. Definitions on what social data are in a larger context and how it practically can be applied by businesses. Finally an introduction into tools and the ecosystems for big/social data, how to start with big/social data projects and how to approach organization of big/social data projects.
Presentation in Norwegian for OsloMet on Internet of Things and Privacy.
The presentation material holds much in common with previous slides, as it is the principles that matter. Updated with current events, in particular with AI, electric cars and China social scoring.
Internet of Things and Privacy.
The presentation is in Norwegian, but I can translate it into English upon request. Note that the presentation is mostly images and assumes that the presenter know what they represent and speaks on that. The presentation is not intended to be self-explanatory.
Teknologi- og samfunnstrender som vil påvirke oss - til Software 2016Simen Sommerfeldt
Mine tanker om hvordan bedrifter og samfunnet blir berørt av Tingenes internett, big data, AI, roboter, (nye regler om) Personvern og Kundens tidsalder.
Presentation in Norwegian on Internet of Things and Privacy.
Presentation is mostly images and bullet points, not intended as a standalone presentation.
Hvordan du som gründer kan hente ut potensialet innenfor IoTSimen Sommerfeldt
Til Oslo Business Region sin Startup Day: Noen rammebetingelser som gjør at den store IoT drømmen kan la vente på seg. Men du som gründer kan tjene på dette!
It driftsperson fra mekaniker til kartleser og sjåførSimen Sommerfeldt
Min Keynote til Computerworlds seminar om nettverk og kommunikasjon. En hypotese om karriere 2.0: Litt om trender som påvirker bedrifter, hva virksomhetsarkitektur er, og hvordan du kan bevege deg i den retningen
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...IKT-Norge
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. v/ Per Morten Hoff, gen.sekr. IKT-Norge Sikkerhetsdagens årlige spørreundersøkelse avdekker sikkerhetstilstanden i norske virksomheter og endringene i denne. I år tar også spørreundersøkelsen for seg norske bedrifters holdninger til og bruk av Nettskyen.
Presentation in Norwegian on Internet of Things and Privacy.
Presentation is mostly images and bullet points, not intended as a standalone presentation.
Hvordan du som gründer kan hente ut potensialet innenfor IoTSimen Sommerfeldt
Til Oslo Business Region sin Startup Day: Noen rammebetingelser som gjør at den store IoT drømmen kan la vente på seg. Men du som gründer kan tjene på dette!
It driftsperson fra mekaniker til kartleser og sjåførSimen Sommerfeldt
Min Keynote til Computerworlds seminar om nettverk og kommunikasjon. En hypotese om karriere 2.0: Litt om trender som påvirker bedrifter, hva virksomhetsarkitektur er, og hvordan du kan bevege deg i den retningen
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...IKT-Norge
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. v/ Per Morten Hoff, gen.sekr. IKT-Norge Sikkerhetsdagens årlige spørreundersøkelse avdekker sikkerhetstilstanden i norske virksomheter og endringene i denne. I år tar også spørreundersøkelsen for seg norske bedrifters holdninger til og bruk av Nettskyen.
Skal man få fullt utbytte av dataene man sitter, på må disse integreres, samles og vaskes. Det kan være både vanskelig og dyrt, men fremskritt innen integrasjonsteknologi har gjort dette vesentlig enklere og mer fleksibelt. Vi forteller om teknikker vi har brukt for dette, og ser på noen kundecaser.
Foredrag holdt av Nina Taraldsen på Bouvet Innsikt 2012 i Larvik og Kristiansand. Om brukskvalitet, emotional design og 3 tips til hvordan du kan skape en god brukeropplevelse.
1. Hva er Big Data?
Bouvet Innsikt 2013-11-21
Lars Marius Garshol, larsga@bouvet.no, http://twitter.com/larsga
1
2. Hvordan bli rik med lineær algebra
Bouvet Innsikt 2013-11-21
Lars Marius Garshol, larsga@bouvet.no, http://twitter.com/larsga
2
3. Hva er Big Data?
• Egentlig
– datamengder for store til å prosessere på vanlig
måte
– data som ikke passer på én maskin
– mer enn 10 terabyte (i følge Talend)
• Hvem har Big Data?
– nesten ingen
– Google, Facebook, NSA (dessverre), ...
• Big Data er også
– nye analyseteknikker for data
– som kan svare på helt nye typer spørsmål
– noen kaller dette data science
3
4. Om datastørrelse
Dette er det Talend definerer som Big Data
Survey of data professionals:
“what is the biggest data set
you’ve ever analyzed?”
Ca 50% var innenfor her
i 2011
4
6. Big Data-analyse vs tradisjonell
• Tradisjonell rapportering
–
–
–
–
–
svarer på forhåndsdefinerte spørsmål
overlater tolkning til mennesker
veldig høynivå
kun 2-3 dimensjoner av gangen
forholder seg ikke til enkeltdata
• Big Data-analyse
– finner årsaker og sammenhenger selv
– kast inn så mange dimensjoner du kan
– verktøyet finner ut hvilke dimensjoner
som er viktige
– forutsier resultater for enkeltdata
6
7. Et Google-eksempel
• Google analyserer data om intervjuer og
ansettelser i stor skala
– samler masse parametre om intervjuprosessen og
hvordan de ansatte gjør det etterpå
• Noen av konklusjonene
– “brainteasers” er ubrukelige i intervjuer
– karakterer fra utdanning forutsier ingenting fra ca
5 år etter ansettelse
– “best predictor” er å ha fått bunnscore på én av
testene Google utsetter deg for
7
8. Mulighetene med Big Data
• Alle organisasjoner sitter på store mengder
data
– de kaster også enorme mengder data hver dag
– data inneholder informasjon av betydelig
forretningsverdi
• Gir muligheter for mer effektivt salg, mer
effektiv ressursbruk, osv
• Men er dataene virkelig så verdifulle?
10. “Earlier analytic models studied as little as
2% of transaction data. Now the company
said it endeavors to analyze all of its data.
In the past, the company based its security
assumptions on average fraud rates for
merchant categories, like grocery stores.
Now it said it can analyze the actual
market, right down to individual merchant
terminals. That allows it to drill down on
hundreds of attributes, such as average
authorization volumes, average ticket sizes
and frequency of purchases that turn out to
be fraudulent, the company said.”
10
11. “The new model was flagging a lot of
otherwise innocuous ads for used cars. ...
They were real cars, but they weren't
really for sale. Scammers were taking
pictures of cars on the street, and when a
hapless customer showed up a few days
later offering money, they'd steal the car
and hand it over”
11
13. “quadrupling the average cow's
milk production since your parents
were born”
"When Freddie [as he is known]
had no daughter records our
equations predicted from his DNA
that he would be the best bull,"
USDA research geneticist Paul
VanRaden emailed me with a
detectable hint of pride. "Now he is
the best progeny tested bull (as
predicted)."
13
14. Some more examples
• Sports
– basketball increasingly driven by data analytics
– soccer beginning to follow
• Entertainment
– House of Cards designed based on data analysis
– increasing use of similar tools in Hollywood
• Engineering
– Crossrail used sensors and analytics to predict
ground sinkage above tunnels. Huge cost savings.
• “Facebook is about to launch Big Data
play”
– starting to connect Facebook with real life
14
https://delicious.com/larsbot/big-data
15. Utfordring: juss og etikk
• Hvor mye data er det akseptabelt å ha om
enkeltpersoner?
– hvilke måter er det lov å samle data på?
• Mye av dette gir voldsom Big Brotherfølelse
– i noen tilfeller kan dette gi omdømmeproblemer
– kanskje ikke alle som er komfortable med å jobbe
med det, heller
• Her trengs det mer retningslinjer
– merk: selv om man ønsker mest mulig data om
brukeren, trenger man ikke nødvendigvis vite hvem
brukeren er
15
16. Forutsetning #1: Data!
• Skal dette være mulig må man ha
grunnlagsdata
–
–
–
–
–
–
hvem har kjøpt hva?
hvor kommer personen fra?
hvem skrev boken?
hvor har brukeren klikket?
hva har brukeren søkt på?
...
• Flere kilder til dette
– eget datagrunnlag
– eksterne data
– dataeksos
16
17. Dataeksos?
• Kunder bruker tjenester via en rekke små
interaksjoner
– hver av disse er en hendelse som kan logges
• Eksempler på interaksjoner
–
–
–
–
–
stoppe filmen,
pause filmen,
søke på en frase,
se på en film i nettbutikken,
...
• Alt dette er potensielt verdifulle data
– “eksos” som kunder slipper ut under bruk
– fanges som regel ikke inn i dag
17
18. En spådom
• I nær framtid kommer mange forretningsmodeller til å legges om for å sikre tilgang til
data
– dvs: man legger opp butikken på en måte som sørger
for at man sitter igjen med mest mulig data
• Eksempel: Amazon Kindle
–
–
–
–
Amazon selger lesebrettene billig
de lar deg lese bøkene på alle slags plattformer
men, du må bruke deres verktøy
hvorfor?
–
–
–
–
hvilke bøker har du gitt opp etter kapittel 2?
hvilke setninger i teksten har du understreket?
hvor lange pauser tar du i lesingen?
...
• Fordi det gir dem dataeksosen
18
19. Forutsetning #2: Kvalitet
• Det er ikke nok å ha dataene
– de må også ha rett form
• Og de må være integrert
– data fra ulike kilder må ofte samles og sys sammen
• Og kvaliteten må være brukbar
– støy går an
– men jo mer støy, jo dårligere resultat
19
21. Forutsetning #3: Mengde
• Det er ikke nok å ha dataene i rett form
– man må også ha et tilstrekkelig stort datasett
• Alle som kan litt statistikk vet at du får ikke
statistisk signifikans med 20 datapunkter
– du må ha mer data
• Hvor mye data er nok?
– det avhenger av hva du skal gjøre
21
22. Mengde er ikke bare dybde
• Mengde er også bredde
• Hvor er verdien i en database med
– kundenavn, adresse, telefonnummer?
• Du kan ikke analysere med kun grunndata
– må ha informasjon om hva vedkommende gjør
• Dette kan kreve
–
–
–
–
22
integrasjon av data fra flere kilder
dataeksos
innkjøp av data
massering av data for å bygge syntetiske
dimensjoner
23. Hvordan trekke innsikt ut av data?
Monthly Retail Sales in New South Wales
(NSW) Retail Department Stores
23
24. Det er matematikk alt sammen...
•
•
•
•
•
24
Lineær algebra
Kalkulus
Sannsynlighetsteori
Grafteori
...
25. Topp 10 algoritmer
1. C4.5
2. k-means clustering
3. Support vector machines
4. the Apriori algorithm
5. the EM algorithm
6. PageRank
7. AdaBoost
8. k-nearest neighbours class.
9. Naïve Bayes
10. CART
25
regeltrær
clustering
klassifisering
handlekurv
optimalisering
grafanalyse
meta-algoritme
klassifisering
sannsynlighet
handlekurv
From a survey at IEEE International Conference on Data Mining (ICDM) in December 2006. “Top 10
algorithms in data mining”, by X. Wu et al
26. Men hvordan samle data til analyse?
• Dét skal Axel Borge snakke om etterpå
26