This document describes EIRA, a system for analyzing research impact that consists of four main components: an Analyzer that extracts annotations from research funding applications, a Finder that retrieves and organizes related data, a Ranker that ranks entities based on calculated values and fields, and a Viewer graphical user interface. The system is implemented using modular applications on IBM's Bluemix cloud platform, with the Analyzer deployed as a cognitive computing service to extract important information from research documents.
Välkomna! Vi i gruppen har utvecklat EIRA, en applikation som hittar relevanta forskare åt företag
// Förslag
Väldigt tydligt vad EIRA står för.
Tydligt vad syftet är med applikationen.
Vilka är det som har beställt den och varför. (National Cancer Institute lägger ut forskningsförslag som forskare själva får läsa igenom och registrera sig. Detta är ineffektivt och tror att en applikation som EIRA kan bidra mycket till denna procedur.)
Lista de delar som vi kommer gå igenom under presentation.
// PT
Föreställ dig att du jobbar på ett företag och har fått i uppgift att samla ett forsknings-team med inriktning på en viss typ av sjukdom. Utan att känna till branchen kan du lätt använda vår applikation och hitta den kompetens laget behöver.
Vi ska nu utifrån det scenario vi nämnde söka efter forskare som kan hjälpa oss att starta en grupp om Multiple Myeloma.
Vi gör en sökning på Multiple Myeloma som är en benmärgscancer som påverkar produktionen av normala blodceller då vi vill hitta de bästa forskarna på detta.
Sökningen brukar ta cirka 60 sekunder där den då letar efter relaterade forskare och därefter graderar dem. Det är framförallt hämtandet av abstrakt från databasen med vetenskapliga artiklar som tar tid.
Man kan antingen skriva in sin egen sökning eller mata in en fil med själva forskningsförslaget i textformat så att EIRA själv kan skapa sin egen sökning baserat på denna. Då den försöker ta ut de viktigaste koncepten från forskningsförslaget.
Nu har resultatet kommit och vi kan se vilka forskare som EIRA hittat mest kvalificerade för Multiple Myeloma.
Här är graderingsvärdet forskaren har fått samt lite statistik för forskaren som hur många artiklar som hittades relaterade till sökningen, hur många artiklar som skrivits, hur många citeringar forskaren har fått och vilket Hirsch index forskaren har.
Klickar man sedan på en forskare får man mer information om den forskaren. Vart forskaren jobbar just nu och en länk till institutionen. Vilka de relaterade artiklarna är. Här kan man också klicka för att googla på vidare på forskaren.
Om vi tittar på den översta länken kan man läsa att Philippe är proffessor och prefekt för hematologi avdelningen för ett universitets sjukhus i Frankrike. Det står också att han är ledande i forskning för just Multiple Myeloma vilket gör att detta känns som en bra kandidat för forskning för just detta.
Det projektet vi läste om när vi applicerade för kandidatprojekt var ett projekt där vi skulle arbeta med IBMs superdator Watson. Med hjälp av Watson skulle vi nyttja de befintliga teknikerna som IBM redan erbjuder.
Men på grund av pappersarbete hade vi inte tillgång till en egen instans av superdatorn, en egen instans hade tillåtit oss att spara data för de befintliga applikationerna vi tänkte använda. Men vi hade inte haft tillkomst förens om 3-4 månader enligt IBM och det uteslöt användandet av den privata instancen.
Vi började istället utveckla de applikationer vi tänkte använda på egen hand. Vi var även tvungna att använda all data live på grund av de data vi använder inte får sparas enligt ägarna av den publicerade datan.
Analyzern är det senaste tillägget till Eira. Det den gör är att den automatiserar sökningarna efter forskare.
Så som rekryteringsprocessen ser ut idag, så publiseras ett dokument där det förklaras vad som behöver forskas på och varför. Sedan så är det helt upp till forskare att själva ansöka efter en plats till projektet. Den här processen är en form av arbetssökande och kan vara lång och tidskrävande. Speciellt då alla forskarna behöver handplockas. Analyzern är en start på att automatisera den här processen helt. Som ni såg tidigare på pontus demonstration så kunde man utöver att göra en sökning, också ladda upp en fil till Eira, och det är här analyzern kommer in. Du kan exempelvis ta ett färdigt dokument eller skriva ditt eget där du beskriver vilken typ av arbete du vill utföra och vad för slags kompetenser som behövs. Säg att du till exempel vill starta ett forskar-lag som skall studera Multiple Myeloma. Det du gör då är att du skriver en dokumentation om hur forskningsprojektet skall gå till där du exempelvis säger vad som skall forskas på och varför. När din dokumentation är klar så laddar du upp den till EIRA. Efter att analyzern har gått igenom texten så skickas data vidare till andra delar av applikationen.
Det som gör allt detta möjligt är AI:n Watson. Tack vare Watson så kan analyzern tillämpa något som heter “Cognitive Computing”, som alltså är en teknologi inom artificiell intelligens. Till Cognitive Computing hör saker som maskin inlärning och analysering av ostrukturerat språk. Och det är just det som vi gör i analyzern, analyserar ostrukturerat språk. Och vad detta innebär, är alltså att texten inte har någon tydlig struktur som gör det lätt för en applikation att komma åt och extrahera data. Efter att vi gett EIRA en fil så skickas texten vidare till Watson, som i sin tur analyserar texten och extraherar centrala koncept. Dessa koncept blir sedan rankade utefter hur stor relevans de har i texten enligt Watson. Efter att analysen är klar, skickas de högst rankade koncepten vidare till findern.
Detta är modulen som rangordnar ofta tusentals forskare för att kunna hitta de allra bästa.
Det EIRA graderar forskarna på är deras Hirsch index som är ett mått på forskarens produktivitet i kombination med forskarens inflytande i sin forskning. Detta är ett mått som oftast blir större ju längre forskaren är aktiv.
EIRA graderar sedan också forskarna på de artiklar som EIRA har hittat relaterade till sökningen.
Dessa artiklarna är graderade på hur många citeringar artikeln har fått som är en indikation på artikelns inflytande.
Artikeln graderas också på vilken journal artikeln har publicerats i med journalens SCImago Journal Rank värde som är ett mått på journalens inflytande.
Slutligen graderas artikeln på vilken institution forskaren har skrivit artikeln i med ett värde från SCImago Institution Rank som ger ett mått på institutionens inflytande.
Rankermodulen är en separat service som vi skapat generiskt så att den kan användas fritt för att ranka som man vill.
Det man skickar in är till Rankern är ett JSON object som innehåller en lista på de entiteter man vill rangordna tillsammans med de värden och fält som de skall graderas efter.
Dessutom skickar man in hur de olika värdena och fälten skall viktas i graderingen.
Om man till exempel skulle vilja gradera författarens Hirsch index tyngre än värdet för artiklarnas SCImago Journal Rank värde.
Vi har inte ställt in någon speciell viktning för de olika värdena EIRA använder sig av nu så det finns möjligheter för att förfina graderingen av författarna med detta.
Rankern gradera entiteter antingen direkt på värden som entiteterna har eller på fält som Rankern då kollar upp värdet på i sin databas.
Hirsch index och antalet citeringar är värden som EIRA skickar med från Findern som Rankern då kan ranka på direkt
medan värdna för journalen och institutionen kollar Rankern upp i listor som vi har matat in i en databas som Rankern har tillgång till.