Overview of Microsoft Appliances: Scaling SQL Server to Hundreds of TerabytesJames Serra
Learn how SQL Server can scale to HUNDREDS of terabytes for BI solutions. This session will focus on Fast Track Solutions and Appliances, Reference Architectures, and Parallel Data Warehousing (PDW). Included will be performance numbers and lessons learned on a PDW implementation and how a successful BI solution was built on top of it using SSAS.
Database vs Data Warehouse: A Comparative ReviewHealth Catalyst
What are the differences between a database and a data warehouse? A database is any collection of data organized for storage, accessibility, and retrieval. A data warehouse is a type of database the integrates copies of transaction data from disparate source systems and provisions them for analytical use. The important distinction is that data warehouses are designed to handle analytics required for improving quality and costs in the new healthcare environment. A transactional database, like an EHR, doesn’t lend itself to analytics.
Clinical Data Repository vs. A Data Warehouse - Which Do You Need?Health Catalyst
It can be confusing to know whether or not your health system needs to add a data warehouse unless you understand how it’s different from a clinical data repository. A clinical data repository consolidates data from various clinical sources, such as an EMR, to provide a clinical view of patients. A data warehouse, in comparison, provides a single source of truth for all types of data pulled in from the many source systems across the enterprise. The data warehouse also has these benefits: a faster time to value, flexible architecture to make easy adjustments, reduction in waste and inefficiencies, reduced errors, standardized reports, decreased wait times for reports, data governance and security.
Hardware planning & sizing for sql serverDavide Mauri
This document provides an overview of hardware planning and sizing considerations for SQL Server. It discusses that performance is the typical requirement for relational database management systems. While high performance is expected, typical server hardware configurations often result in unbalanced systems that are not optimized. The document advocates for balanced systems with no single bottleneck. It provides guidance on evaluating CPU, memory, I/O capabilities and storage to ensure a system can handle peak resource consumption. Baseline testing is recommended to compare hardware performance.
De standaard database tabellen in WordPress voldoen meestal voor de meest complexe handelingen. Met behulp van custom post types en taxonomieën kunnen we bijna alles realiseren zonder de nood aan custom database tabellen. Toch kunnen custom database tabellen handig zijn wanneer we meer controle willen over onze data. Wij bepalen zelf de gegevens structuur. Onze data is mooi gescheiden van het platform, waardoor migraties vlotter verlopen. En het opvragen van data zal veel performanter verlopen.
Drupal + Open Atrium bij de Vlaamse ErfgoedbibliotheekDavid Coppoolse
In 2010 koos de Vlaamse Erfgoedbibliotheek voor de bouw van haar organisatiewebsite voor het opensourceproduct Drupal. Op basis van dit contentmanagementsysteem slaagde de vzw erin om op een snelle en kostefficiënte manier een site met uitgebreide mogelijkheden te realiseren. Daarvoor werd samengewerkt met een gespecialiseerde firma. In deze presentatie overlopen we de redenen om voor Drupal te kiezen en de gevolgde aanpak bij de realisering van de site, met de nodige 'do's en don'ts'. Ook de op Drupal gebaseerde opensourcetoepassing Open Atrium komt aan bod. Dit samenwerkingsplatform wordt door de Vlaamse Erfgoedbibliotheek gebruikt om documenten en informatie te delen binnen haar (netwerk-)organisatie.
Overview of Microsoft Appliances: Scaling SQL Server to Hundreds of TerabytesJames Serra
Learn how SQL Server can scale to HUNDREDS of terabytes for BI solutions. This session will focus on Fast Track Solutions and Appliances, Reference Architectures, and Parallel Data Warehousing (PDW). Included will be performance numbers and lessons learned on a PDW implementation and how a successful BI solution was built on top of it using SSAS.
Database vs Data Warehouse: A Comparative ReviewHealth Catalyst
What are the differences between a database and a data warehouse? A database is any collection of data organized for storage, accessibility, and retrieval. A data warehouse is a type of database the integrates copies of transaction data from disparate source systems and provisions them for analytical use. The important distinction is that data warehouses are designed to handle analytics required for improving quality and costs in the new healthcare environment. A transactional database, like an EHR, doesn’t lend itself to analytics.
Clinical Data Repository vs. A Data Warehouse - Which Do You Need?Health Catalyst
It can be confusing to know whether or not your health system needs to add a data warehouse unless you understand how it’s different from a clinical data repository. A clinical data repository consolidates data from various clinical sources, such as an EMR, to provide a clinical view of patients. A data warehouse, in comparison, provides a single source of truth for all types of data pulled in from the many source systems across the enterprise. The data warehouse also has these benefits: a faster time to value, flexible architecture to make easy adjustments, reduction in waste and inefficiencies, reduced errors, standardized reports, decreased wait times for reports, data governance and security.
Hardware planning & sizing for sql serverDavide Mauri
This document provides an overview of hardware planning and sizing considerations for SQL Server. It discusses that performance is the typical requirement for relational database management systems. While high performance is expected, typical server hardware configurations often result in unbalanced systems that are not optimized. The document advocates for balanced systems with no single bottleneck. It provides guidance on evaluating CPU, memory, I/O capabilities and storage to ensure a system can handle peak resource consumption. Baseline testing is recommended to compare hardware performance.
De standaard database tabellen in WordPress voldoen meestal voor de meest complexe handelingen. Met behulp van custom post types en taxonomieën kunnen we bijna alles realiseren zonder de nood aan custom database tabellen. Toch kunnen custom database tabellen handig zijn wanneer we meer controle willen over onze data. Wij bepalen zelf de gegevens structuur. Onze data is mooi gescheiden van het platform, waardoor migraties vlotter verlopen. En het opvragen van data zal veel performanter verlopen.
Drupal + Open Atrium bij de Vlaamse ErfgoedbibliotheekDavid Coppoolse
In 2010 koos de Vlaamse Erfgoedbibliotheek voor de bouw van haar organisatiewebsite voor het opensourceproduct Drupal. Op basis van dit contentmanagementsysteem slaagde de vzw erin om op een snelle en kostefficiënte manier een site met uitgebreide mogelijkheden te realiseren. Daarvoor werd samengewerkt met een gespecialiseerde firma. In deze presentatie overlopen we de redenen om voor Drupal te kiezen en de gevolgde aanpak bij de realisering van de site, met de nodige 'do's en don'ts'. Ook de op Drupal gebaseerde opensourcetoepassing Open Atrium komt aan bod. Dit samenwerkingsplatform wordt door de Vlaamse Erfgoedbibliotheek gebruikt om documenten en informatie te delen binnen haar (netwerk-)organisatie.
metadata & open source #osgeonl dag 2012 pvangenuchten
Een presentatie op osgeo nl dag Velp.
Data providers hebben afgelopen jaar (getriggered door open data, atlas vd leefomgeving en inspire) hard gewerkt om hun data en metadata online te krijgen. Nu is het de beurt aan de client-software om goed met de gebruikte jonge standaarden aan de gang te gaan om de data optimaal te ontsluiten. Enkele use-cases worden gepresenteerd hoe dit zou kunnen.
metadata & open source #osgeonl dag 2012 pvangenuchten
Een presentatie op osgeo nl dag Velp.
Data providers hebben afgelopen jaar (getriggered door open data, atlas vd leefomgeving en inspire) hard gewerkt om hun data en metadata online te krijgen. Nu is het de beurt aan de client-software om goed met de gebruikte jonge standaarden aan de gang te gaan om de data optimaal te ontsluiten. Enkele use-cases worden gepresenteerd hoe dit zou kunnen.
Debat Wegwijs in het landschap van archiefbeheersysteem
Database Platformen Versus Etl Tools
1. Datawarehousing
Selectie database voor datawarehouse wordt steeds lastiger
Database-platformen versus
ETL-tools
Alexander van Helm en Erik-Jan Koning
In dit artikel wordt de relatie tussen dataware- ingezet worden om data vanuit diverse bronnen in de dataware-
houses, ETL-tools en databases beschouwd. house-omgeving te krijgen. Databases bieden vaker tools om
Het blijkt dat de verschillende producten steeds bijvoorbeeld XML- of CSV-bestanden te importeren. Soms zelfs
meer in elkaar overlopen, waardoor een nette wordt SQL uitgebreid met nieuwe statements zoals CSVREAD
vergelijking en selectie steeds moeilijker wordt. (H2 database) of LOAD (DB2). Daarnaast zien we steeds vaker
Database en ETL-tool bieden vaak veel gelijke MERGE-statements verschijnen, die meer en meer aansluiten op
functionaliteit. de dimensie-update functionaliteit van ETL-tools.
Om dit toe te lichten wordt eerst gekeken hoe databases zich in de Database-platformen bieden vaker scheduling services aan, daar
loop der tijd ontwikkeld hebben. Daarna wordt dieper ingegaan waar ETL-tools dat al bieden. Vaak is er integratie met het mail-
op de eisen die een datawarehouse aan een database stelt en wat systeem en kan een e-mail gestuurd worden wanneer een batch
het gebruik van ETL-tools voor gevolgen heeft voor de gewenste mislukt.
functionaliteit van onderliggende databases. De markt voor OLAP-tools was hoofdzakelijk in handen van de
leveranciers die ook ETL-tools aanbieden. Daar komt verandering
in. Database-platformen bieden meer en meer OLAP-functiona-
liteit aan. SQL Server heeft dit al langer, IBM en Oracle bieden
Met ‘Linked servers’ is het dit nu ook in de vorm van DB2 UDB Data Warehouse Edition en
Oracle 10g OLAP.
mogelijk te linken naar andere
Databases kruipen steeds dichter naar de BI-markt. Zo biedt
databronnen Microsoft SQL Server 2005 het Unified Dimensional Model aan,
een metalaag over de database. Reporting Services en Analysis
Services spreken deze metalaag aan. Hiermee is SQL Server meer
gericht op de uiteindelijke presentatie van de data. Tot slot: met
Een (relationeel) database-systeem is eigenlijk niets meer dan de opkomst van het web zijn er webservices gekomen. Er is
een poging om de relationele theorie van Date en Codd te imple- complete integratie met Java of .NET.
menteren. Oorspronkelijk is een SQL-database gewoon een
verzameling tabellen, relaties en views om de tabellen te bekijken. De eindsituatie is dat de grote leveranciers eigenlijk geen
Stored procedures, triggers, sequences en een groot aantal databases meer leveren maar database-platformen, waar de
functies zijn een uitbreiding op het strikt noodzakelijke, net als scheidingslijn tussen ETL, BI en de eigenlijke database steeds
gepartitioneerde tabellen, bitmap- en allerlei andere indices. meer vervaagt. Sommige leveranciers gaan nog verder. Bij
Een database biedt dus inmiddels veel meer dan aanvankelijk de Netezza schaf je een compleet systeem inclusief hardware aan:
bedoeling was. een datawarehouse in a box, of zoals ze het zelf noemen: een
datawarehouse appliance.
Bewegingen in de markt Aan de andere zijde is te signaleren dat er aan de instapzijde van
De leveranciers ontwikkelen door en hun databases worden steeds de markt veel ontwikkeld wordt. Zeer serieuze database-produc-
veelomvattender en krijgen steeds meer functionaliteit. Enkele ten worden aangeboden tegen lage kosten, soms zelfs gratis.
voorbeelden volgen. ETL-tools bieden de mogelijkheid om van Denk aan SQL Server 2005 Express, Oracle Database 10g Express
verschillende bronnen de gegevens te halen. Als reactie hierop Edition en IBM DB2 UDB Express-C. Hoewel er veelal beper-
zien we dat databases ook deze functionaliteit aanbieden. Met kingen kleven aan het aantal CPU’s, het geheugen en/of de totale
‘Linked servers’ is het mogelijk te linken naar andere data- grootte van de database, zijn dit complete databases. Ze bieden
bronnen. Wanneer dit gedaan is kun je deze bronnen benaderen niet alle functionaliteit van hun grote, betaalde broers, maar zijn
vanuit de database-omgeving met ‘gewone SQL’. Er kan replicatie wel gebaseerd op dezelfde, bewezen, robuuste techniek.
16 Database Magazine – Nummer 2 – april 2007
2. Welke eisen stellen datawarehouses aan een database is. Luidt het antwoord “een opslag- en query-
databases? mechanisme” en doet een onafhankelijke ETL-tool de bewerkin-
Een datawarehouse bevat meerdere logische gegevens- gen, dan kan een relatief ‘kale’ database volstaan. Extra func-
verzamelingen en is opgebouwd uit meerdere lagen, zoals de tionaliteit van de database is dan een nice-to-have: leuk
staging-laag, de historische laag en de presentatielaag, vaak in de meegenomen maar geen must. Sterker nog, als de database te
vorm van meerdere datamarts. Er zijn referentiedata of master- uitgebreid is, is er een flink stuk overlap in de functionaliteit die
data, er zijn stuurgegevens, performance-gegevens en metadata. het database-platform en de ETL-tool aanbieden, en mogelijk
Al deze gegevens moeten ergens opgeslagen liggen. Het data- wordt ook dubbel betaald.
warehouse stelt eisen aan deze opslag, maar vooral ook eisen aan
de toegang tot de data. Het mechanisme dat hiervoor wordt
gebruikt, moet dit snel afhandelen, zelfs op veel data. Het is een
keuze deze verzamelingen op te slaan in databases. Dit is tegen- Groot voordeel van
woordig uiteraard wel de meest gangbare keuze (relationeel of gekochte ETL-tools is dat de
niet-relationeel, zoals bijvoorbeeld SAS), want een database biedt
beheersbaarheid, schaalbaarheid en performance. Het dataware-
voorgedefinieerde logica kan
house stelt dus eisen aan de opslag, performance en natuurlijk de worden gebruikt
beveiliging (autorisatie, backup) van de data. Alle overige eisen
hangen samen met ‘ETL-en’.
Grofweg zijn er twee manieren om te ‘ETL-en’: met zelf
gecreëerde laadscripts, of met aangeschafte ETL-tools. Voordelen Kleinere datawarehouses of onderdelen zouden dan misschien
van het zelf bouwen zijn de uitsparing van licentiekosten en het ondergebracht kunnen worden in Express databases. Wordt in de
feit dat je volledige controle hebt over de uiteindelijke code. toekomst tegen een van de grenzen van de Express edities
De code is echter database-specifiek, omdat de SQL-variant van aangegroeid, dan kan er altijd nog een upgrade plaatsvinden naar
de desbetreffende database wordt gebruikt. Groot voordeel van een betaalde editie. Verder spelen de open source databases een
gekochte ETL-tools is dat de voorgedefinieerde logica kan steeds grotere rol (MySQL, PostgreSQL, Firebird, etcetera) en
worden gebruikt. Hierdoor kan de bouw sneller en gecontroleerder zullen deze steeds meer gebruikt gaan worden voor dataware-
plaatsvinden. Bovendien is er vaak ondersteuning voor het houses.
werken in projecten. Worden databases echter beschouwd als compleet platform, dan
ETL-tools zijn er in twee soorten; de ene groep heeft een eigen kan de keuze anders uitpakken. In dat geval maakt de functio-
engine (Informatica PowerCenter, Business Objects Data naliteit die het platform aanbiedt deel uit van de uiteindelijke
Integrator, Cognos Data manager, etcetera), de andere groep oplossing. Generatie-software maakt bijvoorbeeld gebruik van
genereert scripts die door de engine van de onderliggende data- deze functionaliteit in plaats van zelf functionaliteit aan te bieden.
base worden uitgevoerd (bijvoorbeeld Oracle Warehouse Builder,
Sunopsis Data Conductor, WhereScape RED) en waarbij gebruik Conclusie
gemaakt wordt van database-specifieke faciliteiten zoals linked De boodschap is dus “ wees je bewust van je denkkader” en
servers en bulk loads. Deze laatste groep ligt dicht tegen de “maak een bewuste keuze en geen vooringenomen keuze”. Dat
databases aan en vormt in wezen een uitbreiding van de functio- klinkt als een open deur, maar is het zeker niet. Zoekt men
naliteit van databases. achteraf gezien een component maar is al een heel platform
Als de keuze op het zelf schrijven van laadscripts valt, is het gekocht? Heroverweeg dan de keuze of maak gebruik van de
handig dat een database-platform veel functionaliteit biedt omdat extra componenten die het platform biedt. Er bestaat geen
geen gebruik gemaakt kan worden van de functionaliteit van een losstaande keuze voor een database, een ETL-tool of een BI-suite
ETL-tool. Wanneer een ETL-tool wordt gebruikt met een eigen meer. Ze maken alle deel uit van de gehele ICT-architectuur en
engine, dan is er minder behoefte aan functionaliteit van de data- de keuze dient in die context gemaakt te worden. Men moet zich
base. Wanneer gekozen is voor generatie-software, dan hangt het afvragen uit welke componenten de ICT-architectuur bestaat,
af van de eisen die de software stelt aan het specifieke database- welke componenten er nog ontbreken voor het datawarehouse en
platform waarvoor gegenereerd wordt. hoe die kunnen worden ingevuld. De invulling van die keuze kan
weer effect hebben op eerder gekozen componenten. De mogelijk-
Keuze heden zijn groot – dat maakt de keuze wel lastig.
Sprekend over Oracle, SQL Server of bijvoorbeeld DB2, dan gaat
het eigenlijk niet meer over databases maar over database- Alexander van Helm en Erik-Jan Koning
platformen. De scheidingslijn tussen de eigenlijke database en Alexander van Helm (alexander.van.helm@kadenza.nl) en Erik-Jan Koning
ETL en BI wordt steeds moeilijker te trekken. De vraag die de (erik.jan.koning@kadenza.nl) zijn beiden werkzaam als BI&DWH Architect
datawarehouse-deskundige zich moet stellen is wat is voor hem bij Kadenza.
Database Magazine – Nummer 2 – april 2007 17