0
Mini Masterclass Information Discovery
Johannes Brouwer
Discover!

Als we wisten wat
we zochten, vonden
we niks.
Agenda
Masterclass Information Discovery
• Wat is het
• Waarom zou je er iets mee doen
• Hoe pak je het aan
• Voorbeeld
• ...
BI
Information
discovery
Waarom zou je er iets mee doen

Forbes:You must be expert in understanding the information needs of
customers, and how to ...
Waarom zou je er iets mee doen

Volgens Rotmans heeft Shell een veel te klein 'adaptief
vermogen' om op lange termijn te o...
Hoe pak je het aan: CANVAS
Hoe pak je het aan

Nieuwe
Bronnen

Ontdek het
onbekende

Inzicht in
nieuwe
patronen

+

TEXT

Verrijk met landelijk
meetn...
Voorbeeld: Politie (USA)
Historische input

Real-time informatie

Output
•

•

politierapporten

•

verkeerspatronen

•

s...
Voorbeeld
Architectuur
Information Management: Architecture Vision
Source Data Layer

Customer/Pro
duct

Enterprise Data Factory
Data Hub Staging...
Oracle (Big Data) Information Discovery Platform
Oracle
Big Data
Connectors

Hadoop

Open Source R
Oracle NoSQL
Database

...
Tip!
Oracle - Johannes Brouwer - Data discovery
Oracle - Johannes Brouwer - Data discovery
Oracle - Johannes Brouwer - Data discovery
Oracle - Johannes Brouwer - Data discovery
Oracle - Johannes Brouwer - Data discovery
Upcoming SlideShare
Loading in...5
×

Oracle - Johannes Brouwer - Data discovery

348

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
348
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • So what would it mean for unstructured data to become a first-class citizen in data discovery? Let’s re-visit the 3 fundamental capabilities we discussed earlier..[build]We have already established that a data discovery platform needs to to enable end users to add new data themselves, ask new questions and see new patterns in a very easy, intuitive and iterative way, however when we turn our focus on unstructured content, we have to be able to ingest, analyze, and visualize this type of data as smoothly and as richly as the most meticulously-curated data warehouse or data mart. So we need to extend our core data discovery capabilities with certain unstructured optimizations.[build]From a data ingest perspective, we need to go beyond typical sources like excel or databases and enable the easy integration and enrichment of unstructured data like the raw text from a document or semi-structured content like loosely structured XML or JSON from a social media web service or files stored in Hadoop. [build]We then need to provide the capability to ask any question of our unstructured and semi-structured content. For this we need to include at the very lowest levels in our product the ability to perform powerful and full featured keyword search to interrogate and organize this, typically dirty data, at a moments notice. For most discovery and BI tools, the lack of structure and text-heavy data is a huge obstacle to overcome. What's needed is a full-featured search engine with built-in stemming, spell correction, thesaurus expansion, context suggestion and relevance ranking—to name just the highlights. Just like on the web, any user with any level of knowledge of the domain or the data can quite literally ask any question simply by typing in a few words.[build]Finally, when we turn our attention to visualizing new patterns on unstructured content, the data discovery platform needs to provide optimizations that expose interesting insights and concepts lying dormant in the raw text. This is achieved by seamlessly integrating text enrichment capabilities that will tease out and expose critical topics, themes and entities spotted in the text. These capabilities should also perform sentiment analysis on the text to highlight positive and negative concepts. Once this type of insights is identified within the unstructured content we can use the full array of sophisticated visualizations to display it just as easily as on structured data
  • DWH = database; nu diverse vormenpatroonherkenning / uitsluiting in DB 12c
  • Transcript of "Oracle - Johannes Brouwer - Data discovery"

    1. 1. Mini Masterclass Information Discovery Johannes Brouwer
    2. 2. Discover! Als we wisten wat we zochten, vonden we niks.
    3. 3. Agenda Masterclass Information Discovery • Wat is het • Waarom zou je er iets mee doen • Hoe pak je het aan • Voorbeeld • Invulling
    4. 4. BI Information discovery
    5. 5. Waarom zou je er iets mee doen Forbes:You must be expert in understanding the information needs of customers, and how to supply information solutions that have high value. • Every business must shift or die Hoe maakt je die “shift”
    6. 6. Waarom zou je er iets mee doen Volgens Rotmans heeft Shell een veel te klein 'adaptief vermogen' om op lange termijn te overleven. Hij licht toe: "Ik ken Shell goed, heb er in het verleden veel mee samengewerkt: samen scenario’s ontwikkeld, zelfs gepubliceerd. Maar het adaptief vermogen is de laatste twintig jaar zó gering geworden. Hoe kan je nou de belangrijkste ontwikkeling in de wereld, de verduurzaming van de energiesector, stelselmatig negeren?"
    7. 7. Hoe pak je het aan: CANVAS
    8. 8. Hoe pak je het aan Nieuwe Bronnen Ontdek het onbekende Inzicht in nieuwe patronen + TEXT Verrijk met landelijk meetnetwerk, inspectie verslagen, Twitter en storingsmeldingen + Eenvoudige zoek mogelijkheid door alle gecombineerde data + Ontdek nieuwe informatie die anders verstopt bleef in de data Unstructured Discovery Capabilities
    9. 9. Voorbeeld: Politie (USA) Historische input Real-time informatie Output • • politierapporten • verkeerspatronen • soorten criminaliteit • jaargetijde • locatie misdaad • temperatuur • tijdstip misdaad (processen verbaal) • regen • weers-omstandigheden • evenementen • verkeers-informatie • integratie met 911 call-informatie • overige bijzonderheden • GSM-locatie van verdachten • soorten criminelen (strafbladen) • arrestatiebevelen • crime-scene • terugkerende patronen (zoals loonuitbetaaldag) • historische 7- en 28-daagse analyse tbv bepalen hot-spots • Real-time voorspelling: grootste kans op misdaad Real-time advies: optimale inzet politiekrachten (aantallen en locatie) De resultaten zijn indrukwekkend: zware criminaliteit daalde met 30%, het aantal geweldsmisdrijven nam met 15% af.
    10. 10. Voorbeeld
    11. 11. Architectuur
    12. 12. Information Management: Architecture Vision Source Data Layer Customer/Pro duct Enterprise Data Factory Data Hub Staging Layer Strongly Typed Data Foundation Layer External Enterprise Data with full history Data Quality FB/Twitter Performance Layer Embedded Data Marts Weakly Typed Data Network Call Center / Web Stream Security and Metadata Knowledge Discovery Layer Data Mining Sandbox Data Integration Rapid Dev Sandbox BI Abstraction & Query Federation Transactions Analytics & Consumption Performance Management Alerts, Dashboards, Reporting Services Information Discovery Advanced Analysis & Data Science
    13. 13. Oracle (Big Data) Information Discovery Platform Oracle Big Data Connectors Hadoop Open Source R Oracle NoSQL Database Oracle Big Data Connectors Oracle Exalytics “System of Record” Optimized for DW/OLTP Optimized for Hadoop, R, and NoSQL Processing Oracle Exadata Optimized for Analytics & In-Memory Workloads Oracle Advanced Analytics Data Warehouse Oracle Data Integrator Oracle Database Oracle Enterprise Performance Management In-Database Analytics Oracle Big Data Appliance Oracle Business Intelligence Applications Oracle Business Intelligence Tools (OBI dashboard) Oracle Endeca Information Discovery Applications Embeds Times Ten Acquire Organize Analyze Decide
    14. 14. Tip!
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×