Het Organiseren van data en informatie

490 views

Published on

Hoorcollege over hoofdstuk 3 in het eerstejaars bachelorvak Informatiesystemen.

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
490
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Hoe vonden jullie: het eerste gastcollege over Urban Management en Cyber Security? het eerste werkcollege? Donderdag gastcollege: hoe werkt een mobieltje, en waarom soms niet?
  • Waar gaan we ‘t over hebben deze week? De verhaallijn van vandaag, samengevat: Data -> databases -> data mining -> business intelligence
  • Waar gaan we ‘t over hebben deze week? De verhaallijn van vandaag, samengevat: Data -> databases -> data mining -> business intelligence Deze slide gaat over: data (en data management)
  • Deze slide gaat over: databases
  • Deze slide gaat over: data mining en business intelligence
  • Allereerst, een flashback… Vorige keer bespraken we onder meer het verschil tussen data en informatie. Wat is informatie eigenlijk, en hoe verhoudt informatie zich tot data (en kennis)> Daarvoor is het nodig om eerst vast te stellen wat Data is: nl. ruwe feiten. Ruwe feiten zijn bijvoorbeeld samengesteld uit alfanumerieke tekens, zoals woorden en getallen. Maar ook o.m. afbeeldingen en geluid zijn voorbeelden van Data. Voorbeeld: de woorden “spruit” en “1”. VRAAG : Wat is Informatie? Of, anders gesteld, hoe kan de data “spruit” informatie worden? ANTW: Georganiseerd op betekenisvolle manier. Spruit: als in Marco Spruit, geeft 1e jaars vak IOBM. Spruit: als in Spruitkool, bevat 1 mg ijzer per 100 gram. <Informatie> Tot slot: <Barcode> VRAAG: Data of Informatie?
  • Computer-gebaseerd informatiesysteem (CBIS): één verzameling van Hardware: computer apparatuur t.b.v. invoer-, verwerkings- en uitvoeractiviteiten Software: computer programma’s t.b.v. de aansturing van de computer Database: georganiseerde verzameling van feiten en informatie Telecommunicatie: electronische transmissie van communicatie signalen Netwerken: verbinden van computers en apparatuur, binnen een gebouw, over de wereld Internet: ‘s werelds grootste computernetwerk Mensen: besturen, uitvoeren, programmeren, en onderhouden het systeem Procedures: strategiëen, beleid, methoden, en regels voor het gebruik van een CBIS … die zijn geconfigureerd om data te verzamelen, manipuleren, bewaren, en transformeren naar informatie
  • Toont bereik van type BIS. Enterprise = meestomvattend. Meestal geintegreerd in 1 product: SAP.
  • Reden: op volgende slide…
  • VRAAG: Vorige week beroepen besproken: noem eens de functie die je later zou kunnen gaan uitvoeren, die niet mede afhangt van databasegebruik? <vrijwel geen> Wie van jullie volgt nu ook het tweedejaars vak MSO ( Modelleren en systeemontwikkeling )? Waarom? Dit is een vak bij informatie kunde. Daarom: als informatiekundige moet je simpelweg weten hoe en waar de informatie is waar je kundig over zult worden. Met het 2e deel van dit verhaal, over data mining en business intelligence, zul je zeker direct te maken krijgen als informatiekundige. Hoe kom je tot de informatie op basis waarvan je beslissingen gaat nemen? Nu komt BI ook in H7 nog wel ter sprake, maar aangezien dit het business doel van het hele “organiseren van data en informatie” is, vind ik deze basis zeer relevant voor een beter begrip van de volgende hoofdstukken.
  • DBA zat al in vorige weekopdracht?
  • Dus: Zonder data management => geen informatie Katharina Pietzka thesis
  • Uitleg (start bij bits kolom IN – binair getal 01101010): bytes kolom, vrnl, als in een binair getal de eerste bit aan staat (dus op 1) dan betekent dat 2^0 oftewel 1. Zo ook voor 2^1 voor het 2e binaire getal = 2^1 = 2, etc, t/m 2^7 = 128. Dus, als je het binaire getal 01101010 hebt, en we gaan vlnr, dan is de 8e bit uit maar de 7e staat AAN, tel dus 2^6 = 64 bij de decimale uitkomst op. Het 6e bit staat ook AAN, dus tel vervolgens 2^5 = 32 bij 64 op = 96. Etc. Plus 2^3 = 8, en 2^1 = 2. Dus 106. ?? 57 in binair getalssysteem? 2^7|128 in 57? Nee 2^6|64 in 57? Nee 2^5|32 in 57? => 57-32=25 2^4|16 in 25? => 25-16=9 2^3|8 in 9? => 9-8=1 2^4|4 in 1? Nee 2^1|2 in 1? Nee 2^0|1 in 1? => 1-1=0 >> 00111001.
  • F = ascii 70
  • ??? Wat is voor de entiteit MENS een attribuut, data item, … >> Lengte/naam, 180 cm/marco, naam, geb.datum, vingerafdruk?
  • Entiteiten = records Attributen = velden Sleutels = het unieke veld
  • ?? VOORUITBLIK : Hoe is onder meer te zien dat dit boek in George Bush-land geschreven is…? Als je het boek bij je hebt, blader dan ‘ns naar pagina 112, paragraaf 1: <Lees 1e 8 regels voor>
  • ?? Vertaald naar PC besturingssystemen? >> unix = traditioneel; windows = registry; mac = mix? vb: unix OS losse config bestanden, Windows 1 registry
  • VRAAG: Wie heeft er wel eens met Microsoft Access gewerkt, of kent het Relaties scherm?
  • VRAAG : Wat de hier de vraag? Van boven naar beneden -> eindigt bij Fiske en 1 mei 85.
  • VRAAG : Voorbeeld? VRAAG : Nog andere db types? Hierarchisch (Windows Register), Object (Jasmine), Gedistribueerd (zie multi-user db) A navigational database is a type of database characterized by the fact that objects (or records) in it are found primarily by following references from other objects.
  • VRAAG : Nog meer DBMS? Ik heb zo’n tien jaar geleden meerdere databases besproken voor de PCM: Access, FileMaker Pro, Visual dBase, Jasmine, Paradox, Approach, FoxPro, Visual Objects, … 29-7-2008 : Driekwart van alle organisaties waar gebruik wordt gemaakt van database software geeft aan gebruik te maken van Microsoft SQL Server. Hiermee is het in de Nederlandse zakelijke markt het meest voorkomende DBMS systeem.
  • SQL = DML + DDL Q: Welke andere uitvoeren? >> html/jsp/php pagina’s
  • Q: Welk beleid en procedures? >> Backup beleid
  • VRAAG : Nu, Open source databases zoals MySQL?
  • There are two things to look for in a distributed database: 1) support for multiple datacenters and 2) the ability to add new machines to a live cluster transparently to your applications. The columnfamily model shared by Cassandra and HBase is inspired by the one described by Google’s Bigtable paper , section 2.  (Cassandra drops historical versions, and adds supercolumns .) In both systems, you have rows and columns like you are used to seeing, but the rows are sparse : each row can have as many or as few columns as desired, and columns do not need to be defined ahead of time. The fundamental problem is that relational databases cannot handle many modern workloads.  There are three specific problem areas: scaling out to data sets like Digg’s ( 3 TB for green badges ) or Facebook’s ( 50 TB for inbox search ) or eBay’s ( 2 PB overall ), per-server performance , and rigid schema design . The Cassandra project was started by Facebook in 2007 to scale their internal applications, particularly Inbox Search. Earlier this year, they released it to the Apache incubator where other people from the community could become involved and start contributing. This allowed  the project to move forward in a direction that is more general to the public than just to Facebook’s needs. Hbase -> Facebook messaging Graafdatabases kunnen bijvoorbeeld worden gebruikt voor sociale-netwerksites of wiki's, waarbij sprake is van een groot aantal onderlinge verbanden. Het is inefficiënt om voor elk mogelijk verband een sql-query uit te voeren, als er ook rechtstreekse verwijzingen naar andere data kunnen worden opgeslagen. 
  • CouchDB ( Couch  is an acronym for  cluster of unreliable commodity hardware ) Apache CouchDB , commonly referred to as  CouchDB , is an open source document-oriented database written mostly in theErlang programming language. It is part of the NoSQL group of data stores and is designed for local replication and to scale horizontally across a wide range of devices. CouchDB is supported by commercial enterprises Couchbase and Cloudant. Storing status_ids in 64bit unsigned integers means the theoretical maximum number of tweets is 18,446,744,073,709,551,615 or, as Programmable web point out, 2.7 billion tweets for every person on the planet.
  • ?? Op wat voor manier verschilt het huidige web met dat van deze toekomstvisie? >> gestructureerd publiceren met tags, aangezien ergens de betekenis van de informatie kenbaar moet worden gemaakt…
  • … en de beoogde reden voor deze Bewaarplicht brengt ons bij het volgende onderwerp… Data mining.
  • VRAAG : Organisatie voorbeelden? Marktsegmentatie: Google – via AdSense Market Basket Analysis: Albert Heijn – AirMiles Trendanalyse: afstuderen van…
  • Dankzij goed speur- en rekenwerk van Bits of Freedom en Rejo Zenger weten we nu dat de Nederlandse regering een vieze, obsessieve en gewetenloze stalker is. De Nederlandse opsporingsdiensten checken vaker de bel-, sms- en emailgegevens van burgers dan een Safari-sletje haar Hyves. Als in: ruimschoots meer dan de rest van Europa bij elkaar.
  • Ter illustratie van de concrete mogelijkheden van data mining in een bedrijfscontext: hier iets over het afstudeeronderzoek van een van mijn MBI studenten. Arjen Vleugel’s werktitel is: Data mining – finding patterns… Doel: het verbeteren van het matchingsproces van vacatures naar uitzendbureau’s mbv data mining technieken.
  • Percentage serviceaanvragen dat binnen afgesproken tijd is afgehandeld Gemiddelde tijd tot herstel (Mean Time to Repair) Klanttevredenheid Percentage dat ict-middelen niet werken door veranderingen (geplande onbeschikbaarheid) Percentage dat ict-middelen niet werken door incidenten (ongeplande onbeschikbaarheid) Beschikbaarheid (excl. geplande downtime) Gemiddeld aantal serviceaanvragen per behandelaar Eenheidskosten voor ict-diensten Percentage eerstelijnsafhandeling van serviceaanvragen Percentage incidenten dat te laat is afgehandeld
  • http://www.technalysis.on.ca/cpa.html
  • VRAAG : En wie zijn dé internationale BI software leveranciers? SAP: nr 7 (213, 3%, 18%) => Overname van Business Objects in 2008! Oracle: nr 8 (206, 3%, 12%) => (incl. Brio) Nu: Overname van Hyperion in 2007! SPSS: nr 9 (198, 3%, 12%) IBM: nr 12: (71, 1%, 12%) => Overname van Cognos in 2007! => SPSS in 2009!
  • Een ORDBMS is een database management systeem dat lijkt op een relationele database, maar met een object-georienteerd database model: objects, classes and inheritance are directly supported in database schemas and in the query language. In addition, it supports extension of the data model with custom data-types and methods. ??? Wat is het probleem mt het werken met een niet-RDBMS? Welke querytaal? Geen SQL-achtige standaard…
  • ×