Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Big data themalunch def
1. Themalunch Big data in de zorg
De volgende hype
Of
Het gouden ei?
30 oktober 2014 - Rutger Leer en Mark Tiemessen
2. Inhoud
• Big data – Wat is het? Hoe gaat het proces? Hoe ziet het eruit?
• Big Data in de grote buitenwereld – Hype of gouden ei?
• Big Data in het Radboudumc
3. Big data – wat is het?
• Wanneer het teveel tijd kost om een gewenste analyse op 1 normale
computer in een redelijke tijd uit te voeren.
• 100.000 records met 2 variabelen (3 MB): 30 seconden
• 500.000 records met 3 variabelen (20 MB): 110 seconden
• 20.000.000 records met 10 variabelen (2GB): 1 dag
• De beschikbare data om analyses op te doen zal wereldwijd een factor 50
toenemen van 2012 tot 2020. In 2020 gaat het dan om 25.000 petabytes
(25.000.000.000.000 MB).
• Er moeten letterlijk meer Big data analyses worden gedaan, omdat de
processorsnelheid in dezelfde tijd “maar” tussen de 16~32 keer zal
toenemen (wet van moore)
4. Big data – Hoe gaat het proces?
• Verkennen
• Wat is er voor data beschikbaar?
• Wat wil de klant uiteindelijk ermee?
• Wat voor soort resultaat moet eruit komen?
• Sampelen
• Hoe geschikt is de data voor datamining?
• Prepareren
• Haal echte fouten uit de data.
• Combineer de data met andere datasets
• Anonimiseer data
5. Big data – Hoe gaat het proces?
• Executeren
• Maak het model voor het minen van de data.
• Verificieer dat het model werkt.
• Voer het model uit.
• Perfectioneer het model
• Exploiteren
• Visualiseer het resultaat
• Analyseer het resultaat
• Rapporteer het resultaat.
14. Een blik in de toekomst
• https://www.tictrac.com/
• Combineer dit met EPD
• Wat hebben we dan?
15. Wat kunnen we met datamining?
• Valideren van huidige kennis
• Gebruiken van huidige kennen
• Nieuwe kennis verwerven
16. Valideren van huidige kennis
• Het zichtbaar maken van een proces
Bron: ZuiverICT voor het Pavlov Delias Hospital of Chania
17. Gebruiken van bestaande kennis
•Type medicatie voor 1400 patiënten die een hartinfarct
hebben gehad bepalen.
Type medicatie Accuracy (%) N =327
REMIND Manual
Aspirin 319 (97%) 312(96%)
Beta Blockers 319 (97%) 316(97%)
ACE Inhibitors 300 (92%) 310(95%)
Glycoprotein IIb/IIIa
Receptor Antagonists
300(92%) 290(89%)
Time required
by system
Time required
Manually
5 hours 176 hours
Bron: Rao,Krishnan and Niculescu “Data Mining for Improved Cardiac Care”
18. Nieuwe kennis verwerven
• De belangrijkste variabelen ontdekken om erachter te
komen of (iemand diabetes heeft)
• Bepalen wanneer iemand getest zou moeten worden
op (diabetes).
• Dit kan onder andere gedaan worden door
beslissingsbomen.
21. Doel pilot dermatologie
•Het in kaart brengen van de relaties tussen symptomen, ziekten, medicatie
en bijwerkingen.
•Ervaring opdoen met wat er bij dit soort onderzoeken komt kijken.
Bron
•Gescande dossiers vanuit het project “digitalisering medisch dossier” (uitrol
van Klinische Notities en scannen van dossiers waar nodig).
Uitleg:
Zie de sheet
Punt 1: het gaat om een clusteranalyse, dus om patronen te ontdekken. Bijvoorbeeld klanten die veel en weinig geld uitgeven.
Big data is wanneer de combinatie van processorsnelheid van de computer en de hoeveelheid te analyseren data niet meer binnen 1 dag wordt gedaan.
Punt 3: data groeit harder dan processorsnelheid… dus zul je eerder big data moeten gaan doen.
Objective versus subjective
Add patients part
bijwerkingen
De vraag heerst natuurlijk wat we nu eigenlijk kunnen met datamining. 3 mogelijkheden worden kort uitgelegd met voorbeelden en vervolgens bespreken we 1 ding waar we op het moment zelf mee bezig zijn
Process mining is een van de vele vormen van data mining. Met process mining wordt het daadwerkelijke process in kaart gebracht door middel van data van bijvoorbeeld geldstromen, verslagen of Epic data. Hiermee kan dus gekeken worden of het process zoals wij het in ons hoofd hebben, ook het process is dat in de praktijkt daadwerkelijk gevolgd wordt.
Onderstaand is een process zoals beschreven bij zuiverICT voor het Pavlov Delias Hospital of Chania. Er wordt hier een klein onderdeel van het process in kaart gebracht, en er wordt getoond hoe lang het duurt voordat de volgende stap wordt uitgevoerd. We zien bijvoorbeeld dat …
Behalve kijken of de kennis die we hebben klopt, kunnen we ook de huidige kennis die we hebben toepassen. Een Big Data framework die dit doet is Remind. Remind werkt met een combinatie van data ming en specialisitsche feedback en wordt voor meerdere toepassing gebruikt. We zullen één van deze toepassingen toelichten.
Deze toepassing wordt in het Veterans Health Administriation Hospital in Pittsburgh toegepast. Het doel was om te bepalen wat voor type medicatie een patiënt die een hartinfarct heeft gehad zou moeten krijgen waarbij rekening gehouden moet worden met allergien, zwangerschap en andere aandoeningen die de patiënt heeft. REMIND kreeg data van specialisten aangeleverd om te bepalen wat de correcte procedure is de medicatie te bepalen en hieruit zijn uiteindelijk de volgende resultaten behaald.
http://dataminingcasestudies.com/DMCS_WorkshopProceedings25.pdf Pagina 24-25
In de linker tabel ziet u het aantal gevallen en de procentuele getallen waarbij zowel een medische specialist als de REMIND toepassing voor 327 patiënten voorspeld heeft wat de type medicatie zou moeten worden. Wanneer de medische specialist en REMIND het niet met elkaar eens waren keek een tweede specialist naar de resultaten en bepaalde zijn mening het oordeel. U ziet dat de percentages waarin REMIND de goede medicatie voorschrijft vrijwel identiek is aan dat van een medisch specialist. De tijd die benodigd is door het Remind systeem en de tijd die benodigd is door de medisch specialist verschilt echter enorm.
(If one includes the full spectrum of cardiac diseases, including ST elevation MI, heart failure, arrhythmias, etc., then one can easily see how daunting a task it would be to review every chart for compliance. By using a tool like REMIND, it would be possible to review patients with many different conditions. This would enable physicians to ensure that patients were treated properly, and hence improve their conditions dramatically.
http://dataminingcasestudies.com/DMCS_WorkshopProceedings25.pdf Pagina 24-25
Een middel om nieuwe kennis te verwerven uit BigData zijn beslissingbomen. Dit zijn zoals de naam al zegt bomen waarin beslissingen genoemen moet worden om uiteindelijk tot een conclusie te komen. Een van de eerste toepassingen van deze bomen binnen de zorgen was om achter de belangrijkste variabelen te komen of iemand diabetes is, en wannee iemand getest zou moeten worden op diabetes. De resultaten hiervan waren als volgt:
De boom is opgebouwd uit een aantal niveaus, in dit geval 4. De letter N geeft aan hoeveel mensen er geen diabetes hebben in deze tak, and de letter D geeft aan hoeveel mensen wel diabetes hadden. Als u even meekijkt vanaf level 0, de wortel van de boom zien we dat er als eerste een beslissing wordt gemaakt op de leeftijd van de patiënten, en zien we ook dat oudere mensen een vele male grotere kans hebben op diabetes. Deze variabele is dan ok d Op level 1 ziet u dat de beslissing gemaakt wordt op basis van het BMI en dit is dan ook de op twee na belangrijkste factor.
Wanneer men op deze manier doorgaat kan je dus eenvoudig zien wat de belangrijkste variabelen zijn voor een bepaalde ziekte en zelfs op welke volgorde je proeven zou kunnen doen om te zorgen dat er zo min mogelijk proeven nodig zijn.
NIZO food research (veel ervaring) en verbonden aan Radboud bij ?????
Bij dermatologie zijn we nu bezig met een project om een tool te maken om de relaties tussen ziektes, medicijnen en symptomen te laten zien.
Task1: De elektronisch patientendossiers van de afdeling dermatologie omzetten vanuit pdf zodat het in de zoekmachine kan komen
Task2: Op basis van een initiële woordenlijst van een dermatoloog wordt er een woordenlijst gecreëerd met hierin relevante termen. Deze worden van diverse betrouwbare sites gehaald en zijn zowel in het nederlands, engels als latijn. Verder levert de dermatoloog een lijst aan met veelgebruikte afkortingen.
Apply Search Engine: Dit is onze zoekmachine wat de basis wordt van verdere usecases. Deze wordt gemaakt door de termen die in het document zijn te koppelen met de woordenlijsten.
Task3: Op basis van de zoekmachine kunnen er verschillende usecases gemaakt worden. De definitieve usecases hangen nog af van wat er precies uit de zoekmachine gaat komen
Use cases:
Een tool voor patiënten waardoor zij kunnen zien of de symptomen die zij ervaren door de medicijnen kunnen komen.
Een tool voor artsen om snel na te gaan om welke ziekte het gaat aan de hand van de symptomen en welke medicijnen vaak gegeven worden bij deze medicijnen. Arts blijft in controle maar krijgt ondersteuning vanuit data.
Onontdekte verbanden blootleggen tussen de meest voorkomende ziektes, medicijnen en bijwerkingen/symptomen.
Task 4:
Een prototype webapplicatie waarmee we eenvoudig de zoekmachine kunnen raadplegen. Hiermee kunnen we eenvoudig zien wat voor resultaten er uit de zoekmachine komen, en kan gecontroleerd worden of de daadwerkelijke resultaten ook nog steeds kloppen door een dermatoloog er na te kijken. Verder kunnen we me de zoekmachine ook snel naar verbanden zoeken en deze in kaart brengen.
Taak2 is af, Taak 1 wordt gewacht op toestemming van de Privacy officer.
Taak4 ligt de onderliggende structuur redelijk klaar, maar deze moet nog gekoppeld worden aan de zoekmachine en de resultaten.
Het uiteindelijke resultaat dat we willen krijgen bij de website kunnen bijvoorbeeld deze diagramen zijn.
De linkerdiagram geeft een weergave van diabetes en de symptomen die eraan vast liggen. Verder laat het ook zien welke ziektes nog meer veel dezelfde symptomen hebben. De dikke pijlen geven in dit geval de symptomen aan die gedeeld worden tussen de twee ziektes waarop gezocht is, de dunnere/transparantere pijlen geven de verschillende aan. De lichtblauwe gebieden geven dit aan.
Het rechterdiagram geeft aan andere soort verbinding aan. Het geeft hier aan wat alemaal verband heeft bij een bepaalde ziekte. Er worden hier behandelingsvoorschriften en symptomen gekoppeld aan de diagnoses gekoppeld.
Veel mensen maken zich zorgen dat zij onder de loep worden genomen en dat alles over hun bekend wordt door data mining. Zij ervaren data mining dan ook vaak als eng en niet als nuttig.