SlideShare a Scribd company logo
Hva er Big Data?
Bouvet Innsikt 2013-11-21
Lars Marius Garshol, larsga@bouvet.no, http://twitter.com/larsga
1
Hvordan bli rik med lineær algebra
Bouvet Innsikt 2013-11-21
Lars Marius Garshol, larsga@bouvet.no, http://twitter.com/larsga
2
Hva er Big Data?
• Egentlig
– datamengder for store til å prosessere på vanlig
måte
– data som ikke passer på én maskin
– mer enn 10 terabyte (i følge Talend)

• Hvem har Big Data?
– nesten ingen
– Google, Facebook, NSA (dessverre), ...

• Big Data er også
– nye analyseteknikker for data
– som kan svare på helt nye typer spørsmål
– noen kaller dette data science
3
Om datastørrelse
Dette er det Talend definerer som Big Data
Survey of data professionals:
“what is the biggest data set
you’ve ever analyzed?”

Ca 50% var innenfor her
i 2011

4
Data science?

5

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Big Data-analyse vs tradisjonell
• Tradisjonell rapportering
–
–
–
–
–

svarer på forhåndsdefinerte spørsmål
overlater tolkning til mennesker
veldig høynivå
kun 2-3 dimensjoner av gangen
forholder seg ikke til enkeltdata

• Big Data-analyse
– finner årsaker og sammenhenger selv
– kast inn så mange dimensjoner du kan
– verktøyet finner ut hvilke dimensjoner
som er viktige
– forutsier resultater for enkeltdata
6
Et Google-eksempel
• Google analyserer data om intervjuer og
ansettelser i stor skala
– samler masse parametre om intervjuprosessen og
hvordan de ansatte gjør det etterpå

• Noen av konklusjonene
– “brainteasers” er ubrukelige i intervjuer
– karakterer fra utdanning forutsier ingenting fra ca
5 år etter ansettelse
– “best predictor” er å ha fått bunnscore på én av
testene Google utsetter deg for

7
Mulighetene med Big Data
• Alle organisasjoner sitter på store mengder
data
– de kaster også enorme mengder data hver dag
– data inneholder informasjon av betydelig
forretningsverdi

• Gir muligheter for mer effektivt salg, mer
effektiv ressursbruk, osv
• Men er dataene virkelig så verdifulle?
9
“Earlier analytic models studied as little as
2% of transaction data. Now the company
said it endeavors to analyze all of its data.
In the past, the company based its security
assumptions on average fraud rates for
merchant categories, like grocery stores.
Now it said it can analyze the actual
market, right down to individual merchant
terminals. That allows it to drill down on
hundreds of attributes, such as average
authorization volumes, average ticket sizes
and frequency of purchases that turn out to
be fraudulent, the company said.”

10
“The new model was flagging a lot of
otherwise innocuous ads for used cars. ...
They were real cars, but they weren't
really for sale. Scammers were taking
pictures of cars on the street, and when a
hapless customer showed up a few days
later offering money, they'd steal the car
and hand it over”

11
12
“quadrupling the average cow's
milk production since your parents
were born”

"When Freddie [as he is known]
had no daughter records our
equations predicted from his DNA
that he would be the best bull,"
USDA research geneticist Paul
VanRaden emailed me with a
detectable hint of pride. "Now he is
the best progeny tested bull (as
predicted)."

13
Some more examples
• Sports
– basketball increasingly driven by data analytics
– soccer beginning to follow

• Entertainment
– House of Cards designed based on data analysis
– increasing use of similar tools in Hollywood

• Engineering
– Crossrail used sensors and analytics to predict
ground sinkage above tunnels. Huge cost savings.

• “Facebook is about to launch Big Data
play”
– starting to connect Facebook with real life
14

https://delicious.com/larsbot/big-data
Utfordring: juss og etikk
• Hvor mye data er det akseptabelt å ha om
enkeltpersoner?
– hvilke måter er det lov å samle data på?

• Mye av dette gir voldsom Big Brotherfølelse
– i noen tilfeller kan dette gi omdømmeproblemer
– kanskje ikke alle som er komfortable med å jobbe
med det, heller

• Her trengs det mer retningslinjer
– merk: selv om man ønsker mest mulig data om
brukeren, trenger man ikke nødvendigvis vite hvem
brukeren er
15
Forutsetning #1: Data!
• Skal dette være mulig må man ha
grunnlagsdata
–
–
–
–
–
–

hvem har kjøpt hva?
hvor kommer personen fra?
hvem skrev boken?
hvor har brukeren klikket?
hva har brukeren søkt på?
...

• Flere kilder til dette
– eget datagrunnlag
– eksterne data
– dataeksos
16
Dataeksos?
• Kunder bruker tjenester via en rekke små
interaksjoner
– hver av disse er en hendelse som kan logges

• Eksempler på interaksjoner
–
–
–
–
–

stoppe filmen,
pause filmen,
søke på en frase,
se på en film i nettbutikken,
...

• Alt dette er potensielt verdifulle data
– “eksos” som kunder slipper ut under bruk
– fanges som regel ikke inn i dag
17
En spådom
• I nær framtid kommer mange forretningsmodeller til å legges om for å sikre tilgang til
data

– dvs: man legger opp butikken på en måte som sørger
for at man sitter igjen med mest mulig data

• Eksempel: Amazon Kindle
–
–
–
–

Amazon selger lesebrettene billig
de lar deg lese bøkene på alle slags plattformer
men, du må bruke deres verktøy
hvorfor?

–
–
–
–

hvilke bøker har du gitt opp etter kapittel 2?
hvilke setninger i teksten har du understreket?
hvor lange pauser tar du i lesingen?
...

• Fordi det gir dem dataeksosen

18
Forutsetning #2: Kvalitet
• Det er ikke nok å ha dataene
– de må også ha rett form

• Og de må være integrert
– data fra ulike kilder må ofte samles og sys sammen

• Og kvaliteten må være brukbar
– støy går an
– men jo mer støy, jo dårligere resultat

19
20

http://www.slideshare.net/Hadoop_Summit/scaling-big-data-mining-infrastructure-twitter-experience/12
Forutsetning #3: Mengde
• Det er ikke nok å ha dataene i rett form
– man må også ha et tilstrekkelig stort datasett

• Alle som kan litt statistikk vet at du får ikke
statistisk signifikans med 20 datapunkter
– du må ha mer data

• Hvor mye data er nok?
– det avhenger av hva du skal gjøre

21
Mengde er ikke bare dybde
• Mengde er også bredde
• Hvor er verdien i en database med
– kundenavn, adresse, telefonnummer?

• Du kan ikke analysere med kun grunndata
– må ha informasjon om hva vedkommende gjør

• Dette kan kreve
–
–
–
–

22

integrasjon av data fra flere kilder
dataeksos
innkjøp av data
massering av data for å bygge syntetiske
dimensjoner
Hvordan trekke innsikt ut av data?

Monthly Retail Sales in New South Wales
(NSW) Retail Department Stores
23
Det er matematikk alt sammen...
•
•
•
•
•

24

Lineær algebra
Kalkulus
Sannsynlighetsteori
Grafteori
...
Topp 10 algoritmer
1. C4.5
2. k-means clustering
3. Support vector machines
4. the Apriori algorithm
5. the EM algorithm
6. PageRank
7. AdaBoost
8. k-nearest neighbours class.
9. Naïve Bayes
10. CART
25

regeltrær
clustering
klassifisering
handlekurv
optimalisering
grafanalyse
meta-algoritme
klassifisering
sannsynlighet
handlekurv

From a survey at IEEE International Conference on Data Mining (ICDM) in December 2006. “Top 10
algorithms in data mining”, by X. Wu et al
Men hvordan samle data til analyse?
• Dét skal Axel Borge snakke om etterpå

26

More Related Content

Similar to Hva er Big Data - Lars Marius Garshol

Analysen 3-2015_Data Lake vs Datavarehus
Analysen 3-2015_Data Lake vs DatavarehusAnalysen 3-2015_Data Lake vs Datavarehus
Analysen 3-2015_Data Lake vs DatavarehusvindWRemme
 
Iot og personvern 2017
Iot og personvern 2017Iot og personvern 2017
Iot og personvern 2017
Øystein Jakobsen
 
Hvordan du som gründer kan hente ut potensialet innenfor IoT
Hvordan du som gründer kan hente ut potensialet innenfor IoTHvordan du som gründer kan hente ut potensialet innenfor IoT
Hvordan du som gründer kan hente ut potensialet innenfor IoT
Simen Sommerfeldt
 
Digitalt kildevern
Digitalt kildevernDigitalt kildevern
Digitalt kildevern
Anders Brenna
 
Digitale spor
Digitale sporDigitale spor
Digitale spor
Anders Brenna
 
Næringsforeningen230113
Næringsforeningen230113Næringsforeningen230113
Næringsforeningen230113
Arve Hinna
 
Digitalt kildevern
Digitalt kildevernDigitalt kildevern
Digitalt kildevern
Anders Brenna
 
Opne data @ Big data & Analytics day 2016-11-15
Opne data @ Big data & Analytics day  2016-11-15Opne data @ Big data & Analytics day  2016-11-15
Opne data @ Big data & Analytics day 2016-11-15
Livar Bergheim
 
Digital dømmekraft - hvorfor, hva og hvordan
Digital dømmekraft - hvorfor, hva og hvordanDigital dømmekraft - hvorfor, hva og hvordan
Digital dømmekraft - hvorfor, hva og hvordan
Senter for IKT i utdanningen, redaksjon
 
It driftsperson fra mekaniker til kartleser og sjåfør
It driftsperson   fra mekaniker til kartleser og sjåførIt driftsperson   fra mekaniker til kartleser og sjåfør
It driftsperson fra mekaniker til kartleser og sjåfør
Simen Sommerfeldt
 
EU personvernforordningen - hvor trykker skoen?
EU personvernforordningen - hvor trykker skoen? EU personvernforordningen - hvor trykker skoen?
EU personvernforordningen - hvor trykker skoen?
Kristian Foss
 
Teknologitrender som vil påvirke fremtidens ledelse
Teknologitrender som vil påvirke fremtidens ledelseTeknologitrender som vil påvirke fremtidens ledelse
Teknologitrender som vil påvirke fremtidens ledelse
Simen Sommerfeldt
 
Til FpU Fremtidskonferanse: Trender som vil påvirke oss i fremtiden, og hvorf...
Til FpU Fremtidskonferanse: Trender som vil påvirke oss i fremtiden, og hvorf...Til FpU Fremtidskonferanse: Trender som vil påvirke oss i fremtiden, og hvorf...
Til FpU Fremtidskonferanse: Trender som vil påvirke oss i fremtiden, og hvorf...
Simen Sommerfeldt
 
Elev 2.0 - Nettvett for foreldre i barneskolen
Elev 2.0 - Nettvett for foreldre i barneskolenElev 2.0 - Nettvett for foreldre i barneskolen
Elev 2.0 - Nettvett for foreldre i barneskolen
Stig Husby
 
Sosiale medier for hr bransjen 2012.pptx
Sosiale medier for hr bransjen 2012.pptxSosiale medier for hr bransjen 2012.pptx
Sosiale medier for hr bransjen 2012.pptx
Eva Jarbekk
 
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...
IKT-Norge
 
Forelesning på Høgskolen i Østfold: Trender innen marketing og salg
Forelesning på Høgskolen i Østfold: Trender innen marketing og salgForelesning på Høgskolen i Østfold: Trender innen marketing og salg
Forelesning på Høgskolen i Østfold: Trender innen marketing og salg
Spring Agency
 
Mer verdi i alle kontaktpunkter - en praktisk tilnærming - frokostseminar cr...
Mer verdi i alle kontaktpunkter -  en praktisk tilnærming - frokostseminar cr...Mer verdi i alle kontaktpunkter -  en praktisk tilnærming - frokostseminar cr...
Mer verdi i alle kontaktpunkter - en praktisk tilnærming - frokostseminar cr...Torbjørn Sitre
 
GDPR presentation Tomas Sunde NCG
GDPR presentation Tomas Sunde NCGGDPR presentation Tomas Sunde NCG
GDPR presentation Tomas Sunde NCG
Thorbjørn Værp
 
Kvalitetsjournalistikk og forretningsmodeller på nett
Kvalitetsjournalistikk og forretningsmodeller på nettKvalitetsjournalistikk og forretningsmodeller på nett
Kvalitetsjournalistikk og forretningsmodeller på nett
Anders Brenna
 

Similar to Hva er Big Data - Lars Marius Garshol (20)

Analysen 3-2015_Data Lake vs Datavarehus
Analysen 3-2015_Data Lake vs DatavarehusAnalysen 3-2015_Data Lake vs Datavarehus
Analysen 3-2015_Data Lake vs Datavarehus
 
Iot og personvern 2017
Iot og personvern 2017Iot og personvern 2017
Iot og personvern 2017
 
Hvordan du som gründer kan hente ut potensialet innenfor IoT
Hvordan du som gründer kan hente ut potensialet innenfor IoTHvordan du som gründer kan hente ut potensialet innenfor IoT
Hvordan du som gründer kan hente ut potensialet innenfor IoT
 
Digitalt kildevern
Digitalt kildevernDigitalt kildevern
Digitalt kildevern
 
Digitale spor
Digitale sporDigitale spor
Digitale spor
 
Næringsforeningen230113
Næringsforeningen230113Næringsforeningen230113
Næringsforeningen230113
 
Digitalt kildevern
Digitalt kildevernDigitalt kildevern
Digitalt kildevern
 
Opne data @ Big data & Analytics day 2016-11-15
Opne data @ Big data & Analytics day  2016-11-15Opne data @ Big data & Analytics day  2016-11-15
Opne data @ Big data & Analytics day 2016-11-15
 
Digital dømmekraft - hvorfor, hva og hvordan
Digital dømmekraft - hvorfor, hva og hvordanDigital dømmekraft - hvorfor, hva og hvordan
Digital dømmekraft - hvorfor, hva og hvordan
 
It driftsperson fra mekaniker til kartleser og sjåfør
It driftsperson   fra mekaniker til kartleser og sjåførIt driftsperson   fra mekaniker til kartleser og sjåfør
It driftsperson fra mekaniker til kartleser og sjåfør
 
EU personvernforordningen - hvor trykker skoen?
EU personvernforordningen - hvor trykker skoen? EU personvernforordningen - hvor trykker skoen?
EU personvernforordningen - hvor trykker skoen?
 
Teknologitrender som vil påvirke fremtidens ledelse
Teknologitrender som vil påvirke fremtidens ledelseTeknologitrender som vil påvirke fremtidens ledelse
Teknologitrender som vil påvirke fremtidens ledelse
 
Til FpU Fremtidskonferanse: Trender som vil påvirke oss i fremtiden, og hvorf...
Til FpU Fremtidskonferanse: Trender som vil påvirke oss i fremtiden, og hvorf...Til FpU Fremtidskonferanse: Trender som vil påvirke oss i fremtiden, og hvorf...
Til FpU Fremtidskonferanse: Trender som vil påvirke oss i fremtiden, og hvorf...
 
Elev 2.0 - Nettvett for foreldre i barneskolen
Elev 2.0 - Nettvett for foreldre i barneskolenElev 2.0 - Nettvett for foreldre i barneskolen
Elev 2.0 - Nettvett for foreldre i barneskolen
 
Sosiale medier for hr bransjen 2012.pptx
Sosiale medier for hr bransjen 2012.pptxSosiale medier for hr bransjen 2012.pptx
Sosiale medier for hr bransjen 2012.pptx
 
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...
Sikkerhetstilstanden i norske virksomheter – og forventninger til nettskyen. ...
 
Forelesning på Høgskolen i Østfold: Trender innen marketing og salg
Forelesning på Høgskolen i Østfold: Trender innen marketing og salgForelesning på Høgskolen i Østfold: Trender innen marketing og salg
Forelesning på Høgskolen i Østfold: Trender innen marketing og salg
 
Mer verdi i alle kontaktpunkter - en praktisk tilnærming - frokostseminar cr...
Mer verdi i alle kontaktpunkter -  en praktisk tilnærming - frokostseminar cr...Mer verdi i alle kontaktpunkter -  en praktisk tilnærming - frokostseminar cr...
Mer verdi i alle kontaktpunkter - en praktisk tilnærming - frokostseminar cr...
 
GDPR presentation Tomas Sunde NCG
GDPR presentation Tomas Sunde NCGGDPR presentation Tomas Sunde NCG
GDPR presentation Tomas Sunde NCG
 
Kvalitetsjournalistikk og forretningsmodeller på nett
Kvalitetsjournalistikk og forretningsmodeller på nettKvalitetsjournalistikk og forretningsmodeller på nett
Kvalitetsjournalistikk og forretningsmodeller på nett
 

More from Bouvet ASA

Arne Semb: Hvordan smidig testing gir økt kvalitet
Arne Semb: Hvordan smidig testing gir økt kvalitetArne Semb: Hvordan smidig testing gir økt kvalitet
Arne Semb: Hvordan smidig testing gir økt kvalitet
Bouvet ASA
 
Lloyd roden the fragility of agility
Lloyd roden   the fragility of agilityLloyd roden   the fragility of agility
Lloyd roden the fragility of agility
Bouvet ASA
 
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDIStian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Bouvet ASA
 
Nina Langseth - En font er en fon er en font. Eller?
Nina Langseth - En font er en fon er en font. Eller?Nina Langseth - En font er en fon er en font. Eller?
Nina Langseth - En font er en fon er en font. Eller?
Bouvet ASA
 
Maren Volsdal Skirbekk - Universell utforming - Enklere for alle
Maren Volsdal Skirbekk - Universell utforming - Enklere for alleMaren Volsdal Skirbekk - Universell utforming - Enklere for alle
Maren Volsdal Skirbekk - Universell utforming - Enklere for alle
Bouvet ASA
 
Hans Hjellemo: Om ULOBA og universell utforming
Hans Hjellemo: Om ULOBA og universell utformingHans Hjellemo: Om ULOBA og universell utforming
Hans Hjellemo: Om ULOBA og universell utforming
Bouvet ASA
 
Christian Stensholt: Smidig gjør oss LEANe
Christian Stensholt: Smidig gjør oss LEANeChristian Stensholt: Smidig gjør oss LEANe
Christian Stensholt: Smidig gjør oss LEANe
Bouvet ASA
 
Jon Kåre Stene - Hvorfor LEAN?
Jon Kåre Stene - Hvorfor LEAN?Jon Kåre Stene - Hvorfor LEAN?
Jon Kåre Stene - Hvorfor LEAN?
Bouvet ASA
 
Hvordan bygge Big Data - Axel Borge
Hvordan bygge Big Data - Axel BorgeHvordan bygge Big Data - Axel Borge
Hvordan bygge Big Data - Axel Borge
Bouvet ASA
 
Intranett integrasjon for departemente - lars marius garshol
Intranett integrasjon for departemente - lars marius garsholIntranett integrasjon for departemente - lars marius garshol
Intranett integrasjon for departemente - lars marius garsholBouvet ASA
 
Digital dannelse
Digital dannelseDigital dannelse
Digital dannelse
Bouvet ASA
 
Bouvet innsikt samhandling
Bouvet innsikt   samhandlingBouvet innsikt   samhandling
Bouvet innsikt samhandlingBouvet ASA
 
Innsikt - SharePoint arbeidsflyter
Innsikt - SharePoint arbeidsflyterInnsikt - SharePoint arbeidsflyter
Innsikt - SharePoint arbeidsflyterBouvet ASA
 
Mennesker er målet.
Mennesker er målet.Mennesker er målet.
Mennesker er målet.
Bouvet ASA
 
Foredrag om sosiale medier av Carl Christian Grøndahl
Foredrag om sosiale medier av Carl Christian GrøndahlForedrag om sosiale medier av Carl Christian Grøndahl
Foredrag om sosiale medier av Carl Christian GrøndahlBouvet ASA
 
Faktabasert søk med Recommind
Faktabasert søk med RecommindFaktabasert søk med Recommind
Faktabasert søk med Recommind
Bouvet ASA
 
Ut av siloene
Ut av siloeneUt av siloene
Ut av siloene
Bouvet ASA
 
Virtuoso: Semantikk som skalerer!
Virtuoso: Semantikk som skalerer!Virtuoso: Semantikk som skalerer!
Virtuoso: Semantikk som skalerer!
Bouvet ASA
 

More from Bouvet ASA (19)

Arne Semb: Hvordan smidig testing gir økt kvalitet
Arne Semb: Hvordan smidig testing gir økt kvalitetArne Semb: Hvordan smidig testing gir økt kvalitet
Arne Semb: Hvordan smidig testing gir økt kvalitet
 
Lloyd roden the fragility of agility
Lloyd roden   the fragility of agilityLloyd roden   the fragility of agility
Lloyd roden the fragility of agility
 
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDIStian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
Stian Wetvig: Erfaringer fra utvikling av universelt utformede nettsider for UDI
 
Nina Langseth - En font er en fon er en font. Eller?
Nina Langseth - En font er en fon er en font. Eller?Nina Langseth - En font er en fon er en font. Eller?
Nina Langseth - En font er en fon er en font. Eller?
 
Maren Volsdal Skirbekk - Universell utforming - Enklere for alle
Maren Volsdal Skirbekk - Universell utforming - Enklere for alleMaren Volsdal Skirbekk - Universell utforming - Enklere for alle
Maren Volsdal Skirbekk - Universell utforming - Enklere for alle
 
Hans Hjellemo: Om ULOBA og universell utforming
Hans Hjellemo: Om ULOBA og universell utformingHans Hjellemo: Om ULOBA og universell utforming
Hans Hjellemo: Om ULOBA og universell utforming
 
Christian Stensholt: Smidig gjør oss LEANe
Christian Stensholt: Smidig gjør oss LEANeChristian Stensholt: Smidig gjør oss LEANe
Christian Stensholt: Smidig gjør oss LEANe
 
Jon Kåre Stene - Hvorfor LEAN?
Jon Kåre Stene - Hvorfor LEAN?Jon Kåre Stene - Hvorfor LEAN?
Jon Kåre Stene - Hvorfor LEAN?
 
Hvordan bygge Big Data - Axel Borge
Hvordan bygge Big Data - Axel BorgeHvordan bygge Big Data - Axel Borge
Hvordan bygge Big Data - Axel Borge
 
Intranett integrasjon for departemente - lars marius garshol
Intranett integrasjon for departemente - lars marius garsholIntranett integrasjon for departemente - lars marius garshol
Intranett integrasjon for departemente - lars marius garshol
 
Digital dannelse
Digital dannelseDigital dannelse
Digital dannelse
 
Bouvet innsikt samhandling
Bouvet innsikt   samhandlingBouvet innsikt   samhandling
Bouvet innsikt samhandling
 
Innsikt - SharePoint arbeidsflyter
Innsikt - SharePoint arbeidsflyterInnsikt - SharePoint arbeidsflyter
Innsikt - SharePoint arbeidsflyter
 
Ta styringen!
Ta styringen!Ta styringen!
Ta styringen!
 
Mennesker er målet.
Mennesker er målet.Mennesker er målet.
Mennesker er målet.
 
Foredrag om sosiale medier av Carl Christian Grøndahl
Foredrag om sosiale medier av Carl Christian GrøndahlForedrag om sosiale medier av Carl Christian Grøndahl
Foredrag om sosiale medier av Carl Christian Grøndahl
 
Faktabasert søk med Recommind
Faktabasert søk med RecommindFaktabasert søk med Recommind
Faktabasert søk med Recommind
 
Ut av siloene
Ut av siloeneUt av siloene
Ut av siloene
 
Virtuoso: Semantikk som skalerer!
Virtuoso: Semantikk som skalerer!Virtuoso: Semantikk som skalerer!
Virtuoso: Semantikk som skalerer!
 

Hva er Big Data - Lars Marius Garshol

  • 1. Hva er Big Data? Bouvet Innsikt 2013-11-21 Lars Marius Garshol, larsga@bouvet.no, http://twitter.com/larsga 1
  • 2. Hvordan bli rik med lineær algebra Bouvet Innsikt 2013-11-21 Lars Marius Garshol, larsga@bouvet.no, http://twitter.com/larsga 2
  • 3. Hva er Big Data? • Egentlig – datamengder for store til å prosessere på vanlig måte – data som ikke passer på én maskin – mer enn 10 terabyte (i følge Talend) • Hvem har Big Data? – nesten ingen – Google, Facebook, NSA (dessverre), ... • Big Data er også – nye analyseteknikker for data – som kan svare på helt nye typer spørsmål – noen kaller dette data science 3
  • 4. Om datastørrelse Dette er det Talend definerer som Big Data Survey of data professionals: “what is the biggest data set you’ve ever analyzed?” Ca 50% var innenfor her i 2011 4
  • 6. Big Data-analyse vs tradisjonell • Tradisjonell rapportering – – – – – svarer på forhåndsdefinerte spørsmål overlater tolkning til mennesker veldig høynivå kun 2-3 dimensjoner av gangen forholder seg ikke til enkeltdata • Big Data-analyse – finner årsaker og sammenhenger selv – kast inn så mange dimensjoner du kan – verktøyet finner ut hvilke dimensjoner som er viktige – forutsier resultater for enkeltdata 6
  • 7. Et Google-eksempel • Google analyserer data om intervjuer og ansettelser i stor skala – samler masse parametre om intervjuprosessen og hvordan de ansatte gjør det etterpå • Noen av konklusjonene – “brainteasers” er ubrukelige i intervjuer – karakterer fra utdanning forutsier ingenting fra ca 5 år etter ansettelse – “best predictor” er å ha fått bunnscore på én av testene Google utsetter deg for 7
  • 8. Mulighetene med Big Data • Alle organisasjoner sitter på store mengder data – de kaster også enorme mengder data hver dag – data inneholder informasjon av betydelig forretningsverdi • Gir muligheter for mer effektivt salg, mer effektiv ressursbruk, osv • Men er dataene virkelig så verdifulle?
  • 9. 9
  • 10. “Earlier analytic models studied as little as 2% of transaction data. Now the company said it endeavors to analyze all of its data. In the past, the company based its security assumptions on average fraud rates for merchant categories, like grocery stores. Now it said it can analyze the actual market, right down to individual merchant terminals. That allows it to drill down on hundreds of attributes, such as average authorization volumes, average ticket sizes and frequency of purchases that turn out to be fraudulent, the company said.” 10
  • 11. “The new model was flagging a lot of otherwise innocuous ads for used cars. ... They were real cars, but they weren't really for sale. Scammers were taking pictures of cars on the street, and when a hapless customer showed up a few days later offering money, they'd steal the car and hand it over” 11
  • 12. 12
  • 13. “quadrupling the average cow's milk production since your parents were born” "When Freddie [as he is known] had no daughter records our equations predicted from his DNA that he would be the best bull," USDA research geneticist Paul VanRaden emailed me with a detectable hint of pride. "Now he is the best progeny tested bull (as predicted)." 13
  • 14. Some more examples • Sports – basketball increasingly driven by data analytics – soccer beginning to follow • Entertainment – House of Cards designed based on data analysis – increasing use of similar tools in Hollywood • Engineering – Crossrail used sensors and analytics to predict ground sinkage above tunnels. Huge cost savings. • “Facebook is about to launch Big Data play” – starting to connect Facebook with real life 14 https://delicious.com/larsbot/big-data
  • 15. Utfordring: juss og etikk • Hvor mye data er det akseptabelt å ha om enkeltpersoner? – hvilke måter er det lov å samle data på? • Mye av dette gir voldsom Big Brotherfølelse – i noen tilfeller kan dette gi omdømmeproblemer – kanskje ikke alle som er komfortable med å jobbe med det, heller • Her trengs det mer retningslinjer – merk: selv om man ønsker mest mulig data om brukeren, trenger man ikke nødvendigvis vite hvem brukeren er 15
  • 16. Forutsetning #1: Data! • Skal dette være mulig må man ha grunnlagsdata – – – – – – hvem har kjøpt hva? hvor kommer personen fra? hvem skrev boken? hvor har brukeren klikket? hva har brukeren søkt på? ... • Flere kilder til dette – eget datagrunnlag – eksterne data – dataeksos 16
  • 17. Dataeksos? • Kunder bruker tjenester via en rekke små interaksjoner – hver av disse er en hendelse som kan logges • Eksempler på interaksjoner – – – – – stoppe filmen, pause filmen, søke på en frase, se på en film i nettbutikken, ... • Alt dette er potensielt verdifulle data – “eksos” som kunder slipper ut under bruk – fanges som regel ikke inn i dag 17
  • 18. En spådom • I nær framtid kommer mange forretningsmodeller til å legges om for å sikre tilgang til data – dvs: man legger opp butikken på en måte som sørger for at man sitter igjen med mest mulig data • Eksempel: Amazon Kindle – – – – Amazon selger lesebrettene billig de lar deg lese bøkene på alle slags plattformer men, du må bruke deres verktøy hvorfor? – – – – hvilke bøker har du gitt opp etter kapittel 2? hvilke setninger i teksten har du understreket? hvor lange pauser tar du i lesingen? ... • Fordi det gir dem dataeksosen 18
  • 19. Forutsetning #2: Kvalitet • Det er ikke nok å ha dataene – de må også ha rett form • Og de må være integrert – data fra ulike kilder må ofte samles og sys sammen • Og kvaliteten må være brukbar – støy går an – men jo mer støy, jo dårligere resultat 19
  • 21. Forutsetning #3: Mengde • Det er ikke nok å ha dataene i rett form – man må også ha et tilstrekkelig stort datasett • Alle som kan litt statistikk vet at du får ikke statistisk signifikans med 20 datapunkter – du må ha mer data • Hvor mye data er nok? – det avhenger av hva du skal gjøre 21
  • 22. Mengde er ikke bare dybde • Mengde er også bredde • Hvor er verdien i en database med – kundenavn, adresse, telefonnummer? • Du kan ikke analysere med kun grunndata – må ha informasjon om hva vedkommende gjør • Dette kan kreve – – – – 22 integrasjon av data fra flere kilder dataeksos innkjøp av data massering av data for å bygge syntetiske dimensjoner
  • 23. Hvordan trekke innsikt ut av data? Monthly Retail Sales in New South Wales (NSW) Retail Department Stores 23
  • 24. Det er matematikk alt sammen... • • • • • 24 Lineær algebra Kalkulus Sannsynlighetsteori Grafteori ...
  • 25. Topp 10 algoritmer 1. C4.5 2. k-means clustering 3. Support vector machines 4. the Apriori algorithm 5. the EM algorithm 6. PageRank 7. AdaBoost 8. k-nearest neighbours class. 9. Naïve Bayes 10. CART 25 regeltrær clustering klassifisering handlekurv optimalisering grafanalyse meta-algoritme klassifisering sannsynlighet handlekurv From a survey at IEEE International Conference on Data Mining (ICDM) in December 2006. “Top 10 algorithms in data mining”, by X. Wu et al
  • 26. Men hvordan samle data til analyse? • Dét skal Axel Borge snakke om etterpå 26