Tbp big dataogbi_tbp

668 views
560 views

Published on

Oplægget blev holdt ved InfinIT-arrangementet Big Data og data-intensive systemer i Danmark, der blev af holdt en 15. januar 2014. Læs mere om arrangementet her: http://infinit.dk/dk/arrangementer/tidligere_arrangementer/big_data_i_danmark.htm

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
668
On SlideShare
0
From Embeds
0
Number of Embeds
264
Actions
Shares
0
Downloads
9
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Tbp big dataogbi_tbp

  1. 1. Sådan bruges Big Data til Business Intelligence - fra store data til store forretningsfordele Torben Bach Pedersen Center for Data-intensive Systemer (Daisy) Aalborg Universitet
  2. 2. kan  bruges  Sådan bruges Big Data til Business Intelligence - fra store data til store forretningsfordele Torben Bach Pedersen Center for Data-intensive Systemer (Daisy) Aalborg Universitet
  3. 3. Hvad er Business Intelligence? • Business intelligence is “the ability to apprehend the interrelationships of presented facts in such a way as to guide action towards a desired goal”  H. P. Luhn, A Business Intelligence System, IBM Journal of Research and Development. Vol. 2(4), 1958 • “Business intelligence (BI) is a business management term, which refers to a set of tools and techniques that enable a company to transform its business data into timely and accurate information for the decisional process, to be made available to the right persons in the most suitable form.”  S. Rizzi, Springer Encyclopedia of Database Systems, 2009. • Business intelligence is “an umbrella term that includes the applications, infrastructure and tools, and best practices that enable access to and analysis of information to improve and optimize decisions and performance”  Gartner Reports, IT Glossary, 2013 • Så det er noget med at optimere sin forretning via data… Big Data og data-intensive systemer i Danmark, 15. januar 2014 3
  4. 4. Hvad er Big Data? • ”Big data er et begreb indenfor datalogi, der bredt dækker over indsamling, opbevaring, analyse, processering og fortolkning af enorme mængder af data. Som mange andre IT-ord har Big data ingen dansk oversættelse.”  http://da.wikipedia.org/wiki/Big_data • ”Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using onhand database management tools or traditional data processing applications.”  http://en.wikipedia.org/wiki/Big_data • Så det skal være så ”stort” at det bliver ”svært” at gøre som man plejer… Big Data og data-intensive systemer i Danmark, 15. januar 2014 4
  5. 5. Big Data karakteristika • Man taler ofte om ”de 3 V-er” (eller 4) • Volume  Meget store datamængder • Velocity  Data ankommer meget hurtigt (datastrømme) • Variety  Data har meget forskellige/komplekse formater/typer/mening • Det kan godt være ”Big Data”, selv med kun 1-2 V’er… • Veracity  Hvor meget kan vi ”stole på” data ? Big Data og data-intensive systemer i Danmark, 15. januar 2014 5
  6. 6. BI versus Big Data • Ligheder    Man indsamler, integrerer, og analyserer data for at få ny viden Man har store mængder data Data ankommer (ofte) hurtigt • Forskelle BI Big Data Datatyper Strukturerede (mest) Ustrukturerede (også) Datakilder Mest interne Mest eksterne Bruger Økonomiperson Data scientist Præcision Eksakte resultater Tilnærmede resultater Privacy Ikke kritisk Meget kritisk Kontrol med data Stor kontrol Lille eller ingen kontrol Big Data og data-intensive systemer i Danmark, 15. januar 2014 6
  7. 7. Business Intelligence at a Glance Malú Castellanos, HP Labs Big Data og data-intensive systemer i Danmark, 15. januar 2014 7
  8. 8. (Typiske) Typer af Big Data • Søgedata   Data om websider, søgninger, rankings, osv. Google’s data, den første slags Big Data • Sociale netværks data   Opdateringer fra Twitter, Facebook, LinkedIn, brugerfora,…. Tekst, billeder, brugerinfo, Likes, lokation, venne/netværks-graf,… • Linked/Open Data  Data delt/publiceret på web f.eks. via Semantic Web teknologier • Men det er ikke kun fra web… • Big Sensor Data     Big Science Data (har vi hørt om) Big GPS/Location Data – i 2 andre sessioner Big RFID Data Big Energy Data Big Data og data-intensive systemer i Danmark, 15. januar 2014 8
  9. 9. Bruges Big Data til BI i Danmark ? • Godt spørgsmål…helt uvidenskabelig undersøgelse • LinkedIn opdatering Nov. 2013 til mine 481 forbindelser  ”Er der nogen der har et godt eksempel på brug af Big Data til BI i Danmark?” • 1(!) svar, fra en konsulent    Ikke nogle gode eksempler på brug af ”rigtig store” data Nogle få er på forsøgsstadiet Big Data er ”bagud” i Danmark • Måske er vi for konservative? • Men lad os da se på nogle eksempler jeg kender  Ikke dækkende… Big Data og data-intensive systemer i Danmark, 15. januar 2014 9
  10. 10. BI på Twitter og søgedata • Twitter – meget simpelt, mange muligheder   160 karakters tekst – med hashtags, forkortelser, referencer… Megen ”behandling” nødvendig for at få fuldt udbytte • Sentiment analysis - standard analyse på (korte) tekster   Er teksten/udsagnet positivt/negativt/neutralt ? Interessant f.eks. i.f.t. produktomtaler • Hvordan får man fat på Twitter data ?   Sample via Twitter Streaming API (gratis) Firehose: ALT der matcher, betaling til Gnip/Datasift (også FB,…) • Eksempler fra TARGIT, grundslides lånt af   Morten Middelfart (søgedata) Steen Kjøng Paulsen (Twitter) • Full disclosure: jeg har samarbejdet med TARGIT siden 2001 og får ikke procenter…men de ligger jo i Hjørring! Big Data og data-intensive systemer i Danmark, 15. januar 2014 10
  11. 11. Structure and concept ETL The key concept of #SocialAnalytics is to measure and visualize impact on social networks over time Server Other data sources (internal or external) Building relations between users and networks while adding extra info such as geo-location and CRM data Since we cannot capture the entire internet, we stick to sampling 11
  12. 12. 12
  13. 13. 13
  14. 14. 14
  15. 15. 15
  16. 16. Twitter data hos TARGIT • Bruges internt til at holde øje med artikler/produktomtaler..  Lige nu: observer re-tweet aktivitet på studielicenser • Muliggør et godt historisk overblik over aktiviteten   Hvilke dage folk er mest aktive omkring forskellige typer tweets? Hvor længe har en re-tweet bølge varet? Big Data og data-intensive systemer i Danmark, 15. januar 2014 16
  17. 17. Search data hos TARGIT • Ønske om at holde øje med ”targit.com” placering i Google søge ranking for forskellige kombinationer af søgeord  Mere detaljeret end man kan med Google Trends • Ikke muligt at få Google’s data • Sampling-baseret tilgang     Fyr (mange) søgninger afsted fra en query node Opsaml resultaterne (HTML sider) Parse og find TARGIT’s placering for hver kombination Transformer og overfør data Big Data og data-intensive systemer i Danmark, 15. januar 2014 17
  18. 18. Inverted Data Warehouse (IDW) o o o Inspiration from CERN’s LHC “Shotgun Approach”; equal to formulating hypotheses; data scientist No single point of failure (parallel Query Nodes have also been tested)
  19. 19. Big Energy Data i Smart Grids • Måledata  integrates Komplekse tidsserier skal forecast’es • Opsamle og håndtere eksplicitte fleksibiliteter • Balancer forbrug og produktion i realtid • Forudsig produktion, forbrug og fleksibilitet ned på apparatniveau • Komplekst system med megen BI 1 Balance Responsible Party (acquirer of flexibility) Flex-Offer specifies flexibility in Power Time Intermittent Supply and Demand volatility past future 2 3 uncertainty Prosumer (provider of flexibility) Acceptance Assignment controls specifies how flexibility is to be exercised (schedule) Renewable Energy Sources Renewable Energy Sources Inflexible Demand Inflexible Demand ... ... Flexible Demand and Supply Heat pumps Heat pumps Combined Heat Combined Heat Smart White Goods Smart White Goods ... ... Aggregation Scheduling Disaggregation Aggregation Big Data og data-intensive systemer i Danmark, 15. januar 2014 Disaggregation 22
  20. 20. Big RFID Data • BagTrack – styr på bagagen     HTF: Daisy, Lyngsoe, SAS, IATA, AAL, … Bagagestrimler med RFID chips i – læs på afstand Nummerplade (ID), rute, datp Vision: verdensomspændede bagageinformation i realtid – reducer bagageproblemer med 50% i 2020 og spar 1.2 mia. US$/år • Daisy BI forskning      Rensning af data – mening af RFID læsninger Realtids data og forespørgsler OLAP/DW – analyser processer og målinger Data mining: problemer og årsager i event sekv. Store og komplekse data, 1000+ lokationer Departure Transfer Arrival Big Data og data-intensive systemer i Danmark, 15. januar 2014 23
  21. 21. Open/Linked Data – hvad findes? Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ Big Data og data-intensive systemer i Danmark, 15. januar 2014 24
  22. 22. BI på Big Linked/Open Data • Brug for eksterne data   Format/betydning? Tilgang/forespørgsler? • Løsning: Semantic Web    Formelle ontologier angiver mening Kan linke til andre ontologier/begreber (Linked Data) SPARQL forespørgsler • Self-service BI  Ex: Fusion cubes A. Abello et al. Fusion Cubes: Towards Self-Service Business Intelligence. IJDWM 9(2), 2013. Big Data og data-intensive systemer i Danmark, 15. januar 2014 25
  23. 23. Hvad mangler vi ? • Erfaringer, viden, lovgivning,… • Skalerbare, effektive og brugervenlige BI+Big Data værktøjer og teknologier  Relevant forskning hos Daisy? • ”Programmerbar ETL” til MapReduce/Hadoop   Kraftfuld: opdater slowly changing snowflaked dim med 1 linje kode Skalerbar: Automatisk scale-out parallelisering • All-RiTE  INSERT/UPDATE-like data tilgængelig med bulk load hastighed • Komprimerede bitmap indeks – PLWAH  Effektive søgninger for komplekse kriterier på Big Data (Algorhyme) • Fusion Cubes  Brugerdrevet self-service BI på interne og Linked/Open Big Data Big Data og data-intensive systemer i Danmark, 15. januar 2014 26

×