12. Table with reaction scheme Reaction scheme Extracting the information from the text 2a-i: Derivates from the reaction Chemical structure Chemical Names Linked entities from the table
17. Problem with data: The research trajectory analysed synthesised interpreted are become Information is published becomes Knowledge Publication … is accessible … is traceable … is lost! Data
18.
19.
20.
21.
22.
23.
24. DataCite structure Carries International DOI Foundation DataCite … Works with Managing Agent (TIB) Member Associate Stakeholder Member Institution Data Centre Data Centre Data Centre Member Institution Data Centre Data Centre Data Centre
25.
26.
27.
28.
29.
30.
31.
32.
33. The wave Growth of Information – Diversity of media types and formats User requirements – e. g. : Science 2.0, collaborative networks, social media
34.
35.
Editor's Notes
Ein Paper aus der Chemie enthält chemische Informationen in unterschiedlichsten Facetten und Formen. So finden sich im Text chemischen Namen, Namen von Reaktionen, Verweise auf Strukturformel in Bilder. Es gibt Tabellen mit Text und chemischer Strukturinformation und graphische Darstellungen von chemischen Strukturen oder Reaktionsschemata. Für eine inhaltliche Erschließung müssen daher sowohl Text als auch nicht-textuelle Elemente ausgewertet werden damit chemische Suchportale sowohl Text- als auch Struktursuchen anbieten können. Dies ist ein arbeits- und kostenintensiver Prozeß, der überwiegend von kommerziellen Datenbankanbieter durchgeführt wird. Die Kommerzialisierung der Suchportale konterkariert allerdings die Idee von Open Access Was nützen Open Access Zeitschriften, wenn sie über kostenpflichtige Suchportal recherchiert werden müssen?
Gerade Forschungsdatensätze von Spektren aller Art stellen eine potentielle Quelle von Referenzdaten dar. Aber wie kann man später solche Forschungsdatensätze wiederfinden? Aktuelle Spektrendatenbanken wie die frei verfügbare Spectral Database for Organic Compounds erlauben die Suche nach ausgewählten Metadaten oder eine inhaltsbasierte Suche durch Angaben von numerischen Peaks Aber was wäre, wenn man die relevanten Teile eines Spektrums, das man suchen möchte, einfach zeichnen kann? Man müßte nicht mühselig irgendwelche Zahlenbereiche von Peaks o.ä. angeben.
In our current research project „Visual access to research data“ the TIB, the Interactive Graphics Group at the Technical University of Darmstadt and the Fraunhofer IGD we are working on a concept for visual retrieval process. To start a query you just need to sketch line or curve or you can upload similiar datasets. I have mentioned these two query input types as Query-by-Example and Query-by-Sketch before. The search algorithm will then search a special index, based on the original research data. As a result of your visual search you will retrieve a so called Visual Catalog shown here on the slide, where you can study similar curve progressions found in the database. Colormaps indicate the similiarity between your query and the found curve progression. If you find some interesting curve in the visual catalog you just click on the cell to access the underlying datasets.
Knowledge, as published through scientific literature, is the last step in a process originating from primary scientific data. (Click) These data are analysed, synthesised, interpreted (Click) and we gain information. (Click) The outcome of this process is published (Click) as a scientific article, which is the classical shape of knowledge.(Click) We can access the article in an easy way (Click) We can trace the information in the article (Click) But in today’s practice data are primarily stored in private files, not in secure institutional repositories, and effectively are lost.
The approach that DataCite is taking – using DOIs - has some important social benefits. Researchers, authors, publishers are comfortable, understand, and know how to use them. They put datasets on a level playing field with articles.
Started in 2004 with a DFG funded project lead by TIB and including three World Data Centres (STD-DOI Scientific Technical Data with DOIs)
Schauen wir von außen nach innen. Zunächst die äußeren Rahmenbedingungen: Informationszuwachs (Beispiel chemische Strukturen CAS - 2000: 20 mio Substanzen 2008: 40 mio Substanzen 2009: 50 mio Substanzen, 2010: 56.2 mio. Substanzen Diversifizierung digitaler Wissensobjekte, vernetztes und interdisziplinäres Arbeiten. All dies führt zu Informationsflut und zum Information Overload beim Benutzer, d. h. er kann aus den zur Verfügung gestellten Informationen nicht mehr den optimalen Nutzen ziehen.