The document discusses trends and challenges in big data. It notes that big data is data that exceeds the processing capacity of conventional database systems due to its large size, speed, or structure. The big data market is expected to grow annually by 5-10% over the next 10 years. While the big data industry is growing rapidly, it faces shortages of big data specialists. Modern big data specialists need a combination of mathematical, programming, business, and communication skills.
Introduction to High-performance In-memory Genome Project at HPI Matthieu Schapranow
The document discusses challenges of big data processing for personalized medicine. It describes the vision of using large amounts of diverse medical data like genomes, medical records, clinical trials, and research papers to enable personalized preventative care and more effective therapies for patients. The speaker then outlines their approach using in-memory databases and analytics to enable interactive analysis of this data. Examples discussed include tools for researchers to analyze genomes, clinicians to find comparable patient cases, and patients to identify relevant clinical trials.
Un estudio reportado por la Harvard Business Review muestra las tres estrategias encontradas para explotar totalmente las capacidades de Big Data y Analytics en una organización, estas son: 1) identificar, combinar y manejar múltiples fuentes de datos. 2) Construir modelos analíticos avanzados para predecir y optimizar resultados. 3) Transformar las capacidades de la organización de tal forma que los datos utilizados y el análisis de los mismos lleven a tomar mejores decisiones. El modelo de Cloud computing sirve para cada uno de las capacidades anteriormente mencionadas.
Trends in Big Data & Business Challenges Experian_US
Join our #DataTalk on Thursdays at 5 p.m. ET. This week, we tweeted with Sushil Pramanick – who is the founder and president of the The Big Data Institute (TBDI).
You can learn about upcoming chats and see the archive of past big data tweetchats here
http://www.experian.com/blogs/news/about/datadriven
Current Trends and Challenges in Big Data BenchmarkingeXascale Infolab
Years ago, it was common to write a for-loop and call it benchmark. Nowadays, benchmarks are complex pieces of software and specifications. In this talk, the idea of benchmark engineering, trends in the area of benchmarking research and current efforts of the SPEC Research Group and the WBDB community focusing on Big Data will be discussed. The way in which benchmarks are used has changed. Traditionally, they were mostly used for generating throughput numbers. Today, benchmarks are, e.g., used as test frameworks to evaluate different aspects of systems such as scalability or performance. Since benchmarks provide standardized workloads and meaningful metrics, they are increasingly important for research.
The benchmark community is currently focusing on new trends such as cloud computing, big data, power-consumption and large scale, highly distributed systems. For several of these trends traditional benchmarking approaches fail: how can we benchmark a highly distributed system with thousands of nodes and data sources? What does a typical Big Data workload look like and how does it scale? How can we benchmark a real world setup in a realistic way on limited resources? What does performance mean in the context of Big Data? What is the right metric?
Speaker: Kai Sachs is a member of the Lifecycle & Cloud Management group at SAP AG. He received a joint Diploma degree in business administration and computer science as well as a PhD degree from Technische Universität Darmstadt. His PhD thesis was awarded with the SPEC Distinguished Dissertation Award 2011 for outstanding contributions in the area of performance evaluation and benchmarking. His research interests include software performance engineering, capacity planning, cloud computing and benchmarking. He is co-founder of ACM/SPEC International Conference on Performance Engineering (ICPE). He has served as member of several program and organization committees and as reviewer for many conferences and journals. Among others he was the PC Chair of the SPEC Benchmark Workshop 2010, Program Chair of the Workshop on Hot Topics on Cloud Services 2013 and the Industrial PC Chair of the ICPE 2011. Kai Sachs is currently serving on the editorial board of the CSI Transactions on ICT, as vice-chair of the SPEC Research Group, as PC Co-Chair of the ACM/SPEC ICPE 2015 and as Co-Chair of the Workshop on Big Data Benchmarking 2014.
Big-Data Hadoop Tutorials - MindScripts Technologies, Pune amrutupre
MindScripts Technologies, is the leading Big-Data Hadoop Training institutes in Pune, providing a complete Big-Data Hadoop Course with Cloud-Era certification.
The document discusses trends and challenges in big data. It notes that big data is data that exceeds the processing capacity of conventional database systems due to its large size, speed, or structure. The big data market is expected to grow annually by 5-10% over the next 10 years. While the big data industry is growing rapidly, it faces shortages of big data specialists. Modern big data specialists need a combination of mathematical, programming, business, and communication skills.
Introduction to High-performance In-memory Genome Project at HPI Matthieu Schapranow
The document discusses challenges of big data processing for personalized medicine. It describes the vision of using large amounts of diverse medical data like genomes, medical records, clinical trials, and research papers to enable personalized preventative care and more effective therapies for patients. The speaker then outlines their approach using in-memory databases and analytics to enable interactive analysis of this data. Examples discussed include tools for researchers to analyze genomes, clinicians to find comparable patient cases, and patients to identify relevant clinical trials.
Un estudio reportado por la Harvard Business Review muestra las tres estrategias encontradas para explotar totalmente las capacidades de Big Data y Analytics en una organización, estas son: 1) identificar, combinar y manejar múltiples fuentes de datos. 2) Construir modelos analíticos avanzados para predecir y optimizar resultados. 3) Transformar las capacidades de la organización de tal forma que los datos utilizados y el análisis de los mismos lleven a tomar mejores decisiones. El modelo de Cloud computing sirve para cada uno de las capacidades anteriormente mencionadas.
Trends in Big Data & Business Challenges Experian_US
Join our #DataTalk on Thursdays at 5 p.m. ET. This week, we tweeted with Sushil Pramanick – who is the founder and president of the The Big Data Institute (TBDI).
You can learn about upcoming chats and see the archive of past big data tweetchats here
http://www.experian.com/blogs/news/about/datadriven
Current Trends and Challenges in Big Data BenchmarkingeXascale Infolab
Years ago, it was common to write a for-loop and call it benchmark. Nowadays, benchmarks are complex pieces of software and specifications. In this talk, the idea of benchmark engineering, trends in the area of benchmarking research and current efforts of the SPEC Research Group and the WBDB community focusing on Big Data will be discussed. The way in which benchmarks are used has changed. Traditionally, they were mostly used for generating throughput numbers. Today, benchmarks are, e.g., used as test frameworks to evaluate different aspects of systems such as scalability or performance. Since benchmarks provide standardized workloads and meaningful metrics, they are increasingly important for research.
The benchmark community is currently focusing on new trends such as cloud computing, big data, power-consumption and large scale, highly distributed systems. For several of these trends traditional benchmarking approaches fail: how can we benchmark a highly distributed system with thousands of nodes and data sources? What does a typical Big Data workload look like and how does it scale? How can we benchmark a real world setup in a realistic way on limited resources? What does performance mean in the context of Big Data? What is the right metric?
Speaker: Kai Sachs is a member of the Lifecycle & Cloud Management group at SAP AG. He received a joint Diploma degree in business administration and computer science as well as a PhD degree from Technische Universität Darmstadt. His PhD thesis was awarded with the SPEC Distinguished Dissertation Award 2011 for outstanding contributions in the area of performance evaluation and benchmarking. His research interests include software performance engineering, capacity planning, cloud computing and benchmarking. He is co-founder of ACM/SPEC International Conference on Performance Engineering (ICPE). He has served as member of several program and organization committees and as reviewer for many conferences and journals. Among others he was the PC Chair of the SPEC Benchmark Workshop 2010, Program Chair of the Workshop on Hot Topics on Cloud Services 2013 and the Industrial PC Chair of the ICPE 2011. Kai Sachs is currently serving on the editorial board of the CSI Transactions on ICT, as vice-chair of the SPEC Research Group, as PC Co-Chair of the ACM/SPEC ICPE 2015 and as Co-Chair of the Workshop on Big Data Benchmarking 2014.
Big-Data Hadoop Tutorials - MindScripts Technologies, Pune amrutupre
MindScripts Technologies, is the leading Big-Data Hadoop Training institutes in Pune, providing a complete Big-Data Hadoop Course with Cloud-Era certification.
Heel wat erfgoedverenigingen en erfgoedvrijwilligers zijn geïnteresseerd in het digitaliseren en online publiceren van hun documentaire collectie. Maar hoe begin je daaraan? Er wordt een beknopte introductie gegeven in hoe je je documenten het best kunt organiseren en digitaliseren. Vervolgens zien we ook hoe je de digitale bestanden kunt archiveren en ontsluiten. Hierbij komt ook de technische kant aan bod. Een basiskennis in het gebruik van een computer is vereist.
Sprekers: Bert Lemmens en Rony Vissers (Packed vzw, Expertisecentrum Digitaal Erfgoed) Op het einde van cursus 3 krijg je de opdracht om te bekijken hoe je de opgedane kennis in de eigen praktijk kunt toepassen en concrete vragen/probleemstellingen specifiek voor jouw context op te lijsten. In interactie met de deelnemers pogen we tijdens deze sessie oplossingen te formuleren die aansluiten bij de eigen praktijk. Om de interactie te bewaken, is deze cursus beperkt tot maximaal 7 organisaties, met een maximum van 2 deelnemers per organisatie, inschrijven. Bij voldoende vraag wordt een extra sessie overwogen.
TOPdesk on Tour: De noodzaak voor Automation en AI in servicesTOPdesk
Herken je deze spagaat? Je medewerkers zijn bang dat er weinig werk overblijft als Automation en AI vergaand worden ingevoerd. Maar tegelijkertijd moeten serviceafdelingen steeds vaker "nee" verkopen, omdat ze de behoefte in de business om te vernieuwen niet meer kunnen bijbenen. Juist daarom moeten serviceafdelingen vooruit kijken in plaats van achter de verandering aanhobbelen. En daarom moeten serviceafdelingen zelf slimmer gaan werken. Hoe? Zet tools in die wijd verkrijgbaar zijn en het werk leuker maken. Als nuttige bijvangst leer je Automation en AI toepassen en kun je de business vooruit helpen. Leer van de lessen die op dit vlak zijn opgedaan bij TOPdesk.
Deze presentatie is gegeven door Jeroen Boks tijdens TOPdesk on Tour 2019
Heel wat erfgoedverenigingen en erfgoedvrijwilligers zijn geïnteresseerd in het digitaliseren en online publiceren van hun documentaire collectie. Maar hoe begin je daaraan? Er wordt een beknopte introductie gegeven in hoe je je documenten het best kunt organiseren en digitaliseren. Vervolgens zien we ook hoe je de digitale bestanden kunt archiveren en ontsluiten. Hierbij komt ook de technische kant aan bod. Een basiskennis in het gebruik van een computer is vereist.
Sprekers: Bert Lemmens en Rony Vissers (Packed vzw, Expertisecentrum Digitaal Erfgoed) Op het einde van cursus 3 krijg je de opdracht om te bekijken hoe je de opgedane kennis in de eigen praktijk kunt toepassen en concrete vragen/probleemstellingen specifiek voor jouw context op te lijsten. In interactie met de deelnemers pogen we tijdens deze sessie oplossingen te formuleren die aansluiten bij de eigen praktijk. Om de interactie te bewaken, is deze cursus beperkt tot maximaal 7 organisaties, met een maximum van 2 deelnemers per organisatie, inschrijven. Bij voldoende vraag wordt een extra sessie overwogen.
TOPdesk on Tour: De noodzaak voor Automation en AI in servicesTOPdesk
Herken je deze spagaat? Je medewerkers zijn bang dat er weinig werk overblijft als Automation en AI vergaand worden ingevoerd. Maar tegelijkertijd moeten serviceafdelingen steeds vaker "nee" verkopen, omdat ze de behoefte in de business om te vernieuwen niet meer kunnen bijbenen. Juist daarom moeten serviceafdelingen vooruit kijken in plaats van achter de verandering aanhobbelen. En daarom moeten serviceafdelingen zelf slimmer gaan werken. Hoe? Zet tools in die wijd verkrijgbaar zijn en het werk leuker maken. Als nuttige bijvangst leer je Automation en AI toepassen en kun je de business vooruit helpen. Leer van de lessen die op dit vlak zijn opgedaan bij TOPdesk.
Deze presentatie is gegeven door Jeroen Boks tijdens TOPdesk on Tour 2019
1) The document discusses input management and how it has evolved from past manual processing to today's digital environment where information is connected across various business systems.
2) It highlights challenges around slow and error-prone manual processing of customer communications and expectations for multi-channel engagement.
3) The key is efficient management of "information logistics" through automation of input capture from various sources like paper, email, fax and routing it to the right place at the right time for faster decision making and improved customer satisfaction.
Doorloop hypotheekaanvraag van dagen naar minutenDavinci
Skydoo is een snelle, efficiënte en betrouwbare webapplicatie voor het faciliteren van hypotheekaanvragen en –acceptaties tussen intermediair en geldverstrekker.
Skydoo voorziet in aanvraagtoetsing, digitale analyse en controle van alle relevante dossierstukken en informatievoorziening rondom de aanvraag, de hypotheek en de geldverstrekker.
Geautomatiseerde documentanalyse leidt tot sterk verbeterde bedrijfsprocessen
Vooral in de financiële wereld, maar ook in andere branches, hebben organisaties nog altijd veelvuldig te maken met handmatige verwerking van inkomende informatie. Informatie die is opgeslagen in digitale documenten, op papier binnen komt of uit andere systemen komt en door de medewerkers moet worden ingevoerd en/of verwerkt. De combinatie van die informatie is namelijk nodig voor het verdere verloop van het bedrijfsproces, zoals een kredietaanvraag of hypotheekofferte. Maar wat als software zo intelligent is dat het geautomatiseerd documenten analyseert en classificeert, de inhoud ervan herkent, beoordeelt en deze informatie zonder tussenkomst van menselijke activiteit verder het proces instuurt? Dat verkort niet alleen de doorlooptijd, maar ook de kwaliteit van de uitkomst van dat proces. Immers, het risico op menselijke fouten is hierdoor geminimaliseerd. Dat scheelt dus tijd, geld en moeite. En in een competitieve markt als de financiële betekent dat een aanzienlijk concurrentievoordeel.
1. Rob Brouwer
Profiteer dankzij de ABBYY Capture Technologies –
oplossingen voor datacollectie van de kracht van
inhoud
Pre-sales Consultant
Davinci, Apeldoorn, 25 Juni 2014
3. ABBYY – wie gebruikt onze software?
● Grootste documentverzamelingsproject in Europa met één van ’s werelds
grootste autofabrikanten (Q2/2012)
● Debiteuren/facturatie met projecten voor Benfica Football Club,
Hendre Group, The Grand Charity, Adactus Housing Group, enz.
● Deutsche Bank, Commerzbank, BNP Paribas, Barclay’s,
La Caixa Spain, Swisscard, Citibank, BBVA, enz.
● Greek National Census, Swisscard, YMCA, Honda, Novartis,
Boots, Land Registry, Europecar, Companies House, enz.
● NHS, BBC, Siemens, Deloitte, PwC, New Forest National Park,
LSE, British Library, European Union, Southampton Uni, enz.
FORMULIEREN
FACTURATIE P
BANKWEZEN P
ARCHIVERINGP
4. Over de technologieën van ABBYY
● Documentherkenning
● OCR (herkenning van geprinte tekst)
● ICR (herkenning van handgeschreven tekst)
● OBR (barcodeherkenning)
● OMR (herkenning van check-boxen)
● Vastleggen van data
● Verwerking van formulieren (enquêtes,
stembiljetten, enz.)
● Semigestructureerde documentverwerking
(facturen, leverbonnen, bestellingen enz.)
● Niet-gestructureerde documentverwerking
(contracten, brieven enz.)
● Taalkunde
● Woordenboeken
● Vertaal diensten
6. Vastleggen van documenten: van papier
naar digitaal!
Op papier gebaseerde bedrijfsprocessen
• Papier is tegenwoordig nog steeds een belangrijke bron
van informatie voor talloze bedrijfsprocessen
• Informatie op documenten moet de bedrijfsprocessen ‘voeden'
Archieven en conversie
• Veel bedrijven beschikken over digitale (gescande) archieven
• De informatie uit deze gearchiveerde documenten moet
toegankelijk worden gemaakt via de conversie in doorzoekbare
pdf-bestanden
Digitalisering voor e-discovery
• E-discovery, Online Learning, Online Deployment en
Enterprise Search
• Aanbieden van elektronisch doorzoekbare informatie
7. Overzicht over documentverwerking
Volledig geautomatiseerde OCR en pdf-conversie voor documentbeheer, conversie van
backlog-archieven en e-Discovery.
Storage
CONFIDENTIAL
8. Voorbewerking: kromme lijnen verwijderen,
rotatie, ruisverwijdering,
tweedelige pagina’s scheiden
Tekstherkenning: ruim 190 herkende talen
(nieuw: Arabisch)
Teksttypen: Ondersteuning voor diverse
teksttypen
Gebruikerspatronen: voor documenten van lage
kwaliteit en decoratieve lettertypen
Gebruikerswoordenboeken: voor niet-standaard
woorden en talen zonder geïntegreerde
woordenboekondersteuning
Barcodeherkenning: 1D- en 2D-barcodes vanuit
elke hoek van de pagina (incl.: DataMatrix, QR-
code en Aztec)
Verwerkingsparameters van
Recognition Server
9. Uitvoerbestemmingen en
exportformaten
● Uitvoerbestemmingen:
● Publicatie naar een lokale of netwerkmap
● Levering via e-mail
● Uploaden naar ERP of Document Management System
● Diverse uitvoerformaten:
● Bewerkbaar: DOC/DOCX, XLS/XLSX, RTF, TXT, CSV
● Doorzoekbaar: PDF, PDF/A, HTML
● Afbeeldingen: TIFF, JPEG, JPEG 2000, JBIG2
● Formaten die geschikt zijn voor integratie: XML, ALTO; intern
FineReader-formaat
11. Mobiele registratie bij Intuit Turbotax
Stap 1 Stap 2 Stap 3 Stap 4
• Afbeelding van
belastingaangifte
• Overdracht naar
cloudserver
• Verwerking in de
cloud
• Gegevensextractie op
de server
• Overdracht van
gegevens naar
smartphone
• Validatie door de
gebruiker
• Klant valideert de
belastinggegevens
• Opslag van het
teruggavedocument
als pdf-bestand
• Online versturen van
de declaratie van de
belastingteruggave
• Versturen naar
belastingdienst met
één klik
12. Offline beeldvoorbewerking
en herkenning
Papier, documenten, formulieren Mobiele klanttoepassing
foto nemen, beeldvoorbewerking
en offline-herkenning
Mobiele klanttoepassing
Gegevensverificatie en goedkeuring
Foto van
document
Erkende data
Gegevensverwerking en –
opslag naar CRM, ERP of een ander systeem
Mobiele klanttoepassing
Succespagina
● Offline verwerking op smartphone/tablet-pc
● Beeldvoorbewerking
● OCR en barcodeherkenning
● Geen netwerkverbinding vereist tijdens
beeldvoorbewerking en herkenning
● Compacte OCR-code geoptimaliseerd voor systemen
met klein geheugen
● Perfecte alternatieve OCR-aanpak voor afbeeldingen van
goede kwaliteit
Verwerkt
resultaat
Verwerking/
opslagserver
13. Verzekering
Autoverzekering
● Claimverwerking bij een ongeval
● Documentatie over de schade via
smartphonecamera
● Claims en vereiste documentatie kunnen
rechtstreeks naar de verzekeraar worden
gestuurd
Onroerend-goedverzekering
● Klant scant foto’s van het beschadigde
gebouw
● Klant maakt foto’s van ontbrekende items
(herziening van vertrouwelijke informatie)
13
14. Reiskosten
Reiskosten
● Werknemer scant alle bonnen tijdens
de zakenreis
● De gegevens van de bonnen worden
automatisch geëxtraheerd
● Validatie van de gegevens
● Invullen van onkostenoverzicht tijdens
de reis of meteen na terugkomst
● Geen extra administratief werk
meer nodig
14
15. Logistiek en gezondheidszorg
Logistiek: Vrachtbrieven en leverbonnen
● Bij het transportbeheer wordt er nog steeds veel
papier gebruikt voor het documenteren van het
proces
● Documenten kunnen eenvoudig worden
geregistreerd via een smartphone en voor
verwerking naar het hoofdkantoor worden
gestuurd
Gezondheidszorg:
Mobieledocumentregistratie
● Medewerkers van de thuiszorg moeten voor
beoordelingen gestandaardiseerde formulieren
inleveren
● Medewerkers van nooddiensten moeten
formulieren hebben ingevuld, voordat de patiënt
het ziekenhuis heeft bereikt
● De toepassingen vereisen mobiel scannen
15
16. Klantreferentie – XING
● Mobiele XING-app (Duitse LinkedIn) met
lezer voor visitekaartjes
● De gebruiker neemt een foto met zijn
mobiele apparaat en upload deze naar
de service voor documentherkenning
(ABBYY Cloud OCR)
● De gegevens worden geëxtraheerd en
teruggestuurd en in de app vergeleken
met de XING-database
● Nieuwe contactpersonen kunnen in
XING automatisch worden toegevoegd
● Verbetering van mobiele afbeeldingen
en de gegevensregistratie in de back-
end