Źródłami dla Big Data są zwykle ustrukturalizowane dane, pochodzące z innych systemów i z mechanizmów śledzących kanały interakcji z klientami (lub urządzeniami w przypadku M2M). A co z olbrzymim potencjałem drzemiącym w przepastnych zasobach informacji nieustrukturalizowanej? Jak wydobyć biznesową wartość i zamienić koszt (składowania) takich danych na rzeczywiste aktywa firmy? Poza tradycyjnymi narzędziami analizy Big Data (HPE IDOL czy Vertica) firma Hewlett Packard Enterprise oferuje technologie dla informacji niestrukturalnych. Klasyfikacja i analityka plików oferowana przez HPE ControlPoint pozwala na łatwą ocenę jakości informacji niestrukturalnych oraz na szybkie odsianie zbędnych danych (redundant, obsolete, trivial and dark data). HPE Investigative Analytics łączy źródła danych i analizy nie tylko za pomocą modeli behavioralnych, ale uzupełnia ten obraz o Analizę Nastroju (Sentiment Analysis) oraz Intencje (Intent)
Prezentacja Contium i Microsoft z konferencji MOST 2009 pokazująca możliwości SharePoint 2010 i praktyczne wykorzystanie SharePoint 2007
Obecnie usługi Contium w zakresie SharePoint świadczone są pod markę Intratic.
www.intratic.eu
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Piotr Czarnas
Analityka danych stanowi fundament transformacji cyfrowej i wdrażania kultury data-driven. Podstawą kultury data-driven jest udostępnienie danych wszystkim osobom, które na podstawie danych mogą odkrywać prawidłowości oraz budować automatyczne procesy decyzyjne.
Prezentacja została pokazana 20 września 2017 na konferencji ITFuture.
Nowi bohaterowie? - duże dane - IBM Forum Analityki Biznesowej 2015Piotr Pietrzak
[PL] O dużych zbiorach danych powiedziano już wiele. Pomyślmy o kreatywnym ich wykorzystaniu i budowaniu rozwiązań w nowych obszarach wsparcia dla biznesu. Wszak dane same dal siebie to tylko bity i bajty, dopiero wsparcie sukcesu biznesowego uwiarygadnia zasadność ich wykorzystania.
20160405 Cloud Community Poznań - Cloud Analytics on AzureŁukasz Grala
Cloud Analytics on Platform Azure. Overview about analytics. Talking about Azure Data Lake Storage & Analytics, Azure Stream Analytics, HDInsight, Hortonowrks, PowerBI...
Prezentacja Contium i Microsoft z konferencji MOST 2009 pokazująca możliwości SharePoint 2010 i praktyczne wykorzystanie SharePoint 2007
Obecnie usługi Contium w zakresie SharePoint świadczone są pod markę Intratic.
www.intratic.eu
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Piotr Czarnas
Analityka danych stanowi fundament transformacji cyfrowej i wdrażania kultury data-driven. Podstawą kultury data-driven jest udostępnienie danych wszystkim osobom, które na podstawie danych mogą odkrywać prawidłowości oraz budować automatyczne procesy decyzyjne.
Prezentacja została pokazana 20 września 2017 na konferencji ITFuture.
Nowi bohaterowie? - duże dane - IBM Forum Analityki Biznesowej 2015Piotr Pietrzak
[PL] O dużych zbiorach danych powiedziano już wiele. Pomyślmy o kreatywnym ich wykorzystaniu i budowaniu rozwiązań w nowych obszarach wsparcia dla biznesu. Wszak dane same dal siebie to tylko bity i bajty, dopiero wsparcie sukcesu biznesowego uwiarygadnia zasadność ich wykorzystania.
20160405 Cloud Community Poznań - Cloud Analytics on AzureŁukasz Grala
Cloud Analytics on Platform Azure. Overview about analytics. Talking about Azure Data Lake Storage & Analytics, Azure Stream Analytics, HDInsight, Hortonowrks, PowerBI...
Prezentacja: dr Laura Bandura-Morgan (Narodowe Centrum Nauki)
Krajowe Warsztaty Otwartego Dostępu OpenAIRE 2020, Polska
Polityki otwartości w Polsce
Cześć 2: dane badawcze
25 listopada 2020, online
OpenAIRE National Workshop in Poland (2020), organized as part of the OpenAIRE Advance project, was be devoted to the implementation of open access policies in Polish scientific institutions.
http://pon.edu.pl/politykiotwartosci/
Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019Deloitte Polska
Więcej: https://www2.deloitte.com/pl/pl/pages/technology/articles/tech-trends-trendy-technologiczne-2019.html
Zaawansowane sieci teleinformatyczne, inteligentne interfejsy czy zastąpienie serwerów technologią chmury – między innymi te innowacje i trendy umożliwiają osiągnięcie celów, dotychczas leżących poza granicami możliwości technologicznych. Eksperci firmy doradczej Deloitte, autorzy 10. edycji raportu „Tech trends 2019 – Jak przełamać bariery technologiczne?” wytypowali 6 trendów, które radykalnie zmienią biznes w nadchodzących miesiącach. Z raportu wynika, że firmy już zaczynają korzystać z tych rozwiązań i starają się dopasować nowe trendy do swoich potrzeb biznesowych. W najbliższym czasie technologiczny pęd zdecydowanie przyspieszy za sprawą sztucznej inteligencji, która leży u podstaw kolejnych zmian.
[#4] spark - IBM Integrated Analytics SystemArtur Wronski
Presentation #4 from IBM conference "Analityka Nowej Generacji", 8th of March 2018, Warsaw
Title: Introduction to data science and spark
Presenter: Marcin Janiszewski
[language: polish]
Oszałamiające wizualnie, intuicyjne rozwiązanie, które pozwala wykorzystać potencjał Hadoop i przekształcić surowe dane w nowe odkrycia w ciągu kilku minut, bez potrzeby uczenia się skomplikowanych rozwiązań przeznaczonych dla wąskiego grona specjalistów.
Michał Żyliński: Cortana dla niewtajemniczonychAnalyticsConf
Praktyczne wprowadzenie do nowoczesnych narzędzi analitycznych na przykładzie usług wchodzących w skład Microsoft Cortana Analytics Suite. Na konkretnych przykładach postaram się pokazać uczestnikom, jak przygotować się do przetwarzania dużej ilości danych. Jakie (darmowe i komercyjne) technologie znaleźć można na rynku? Jakie role i kompetencje przydadzą się wewnątrz organizacji? Jak dobrać właściwe narzędzia? Na czym warto skupić się samemu, a kiedy szukać pomocy na zewnątrz? Omówione zostaną również pierwsze komercyjne wdrożenia Cortany.
Prezentacja artykułu z konferencji Infobazy 2014, prezentującego prace realizowane w projekcie MARKOS. Celem projektu MARKOS jest opracowanie koncepcji i rozwój sieciowej usługi umożliwiającej wyszukanie w globalnej przestrzeni projektów Open Source komponentów, które w sposób optymalny spełniają kryteria wyspecyfikowane przez użytkownika systemu. Dzięki opracowanemu systemowi twórcy i użytkownicy otwartego oprogramowania (ang. Open Source Software, OSS) będą mogli w łatwy i automatyczny sposób analizować zależności pomiędzy użytymi komponentami OSS, biorąc pod uwagę funkcjonalne, strukturalne i licencyjne aspekty kodu źródłowego.
Wynikiem projektu będzie prototyp usługi uruchomionej w Internecie przez partnerów projektu i udostępnionej poprzez zestaw interaktywnych aplikacji, zarówno przez graficzny interfejs użytkownika, jak i semantyczny punkt dostępu do danych w modelu linked data. Wspomniana powyżej usługa będzie realizowana za pomocą zestawu wewnętrznych komponentów systemu MARKOS, których zadaniem będzie wielokontekstowa analiza informacji dostępnych w sieci oraz ich przetwarzanie i przechowywanie w wewnętrznym repozytorium semantycznym systemu.
System MARKOS będzie oferował użytkownikom możliwość semantycznego przeszukiwania i przeglądania komponentów i bibliotek oraz nawigowania po strukturze kodu na wysokim poziomie abstrakcji. Ułatwi to, w szczególności architektom i analitykom, wyszukanie komponentu, który spełnia funkcjonalne, techniczne i prawne wymagania systemu. Z kolei programistom pozwoli lepiej zrozumieć dostępne interfejsy i wewnętrzne zależności oprogramowania. Dodatkowo system MARKOS będzie brał pod uwagę również aspekty integracji kodu, pokazując i wykorzystując zależności i związki między komponentami oprogramowania z różnych projektów. Dzięki temu w systemie MARKOS dostępny będzie zintegrowany globalny widok na istniejące oprogramowanie Open Source. MARKOS wykorzysta również zależności między komponentami do bardziej efektywnej i trafnej analizy kompatybilności licencji, dostarczając podstaw argumentacji prawnej i rozwiązywania konfliktów. W celu ułatwienia współpracy między różnymi projektami, MARKOS dostarczy też narzędzi umożliwiających powiadamianie o istotnych zmianach w komponentach pomiędzy zależnymi projektami. Oczekuje się w związku z powyższym, że system MARKOS ze swoją funkcjonalnością w kontekście globalnym ułatwi rozwój oprogramowania w oparciu o paradygmat Open Source wnosząc swój wkład w globalną społeczność.
The Factorization Machines algorithm for building recommendation system - Paw...Evention
One of successful examples of data science applications in the Big Data domain are recommendation systems. The goal of my talk is to present the Factorization Machines algorithm, available in the SAS Viya platform.
The Factorization Machines is a good choice for making predictions and recommendations based on large sparse data, in particular specific for the Big Data. In practical part of the presentation, a low level granularity data from the NBA league will be used to build an application recommending optimal game strategies as well as predicting results of league games.
A/B testing powered by Big data - Saurabh Goyal, Booking.comEvention
At Booking we have more than a million properties selling their rooms to our customers. We have approximately 1000 events per minute from them leading to total 500 GB of data for partner events alone.
In order to make sure we receive the relevant inventory from our partners we A/B test various new features. There were more than 100 experiments focusing on availability alone in one quarter.
In my talk I ll be talking about A/B testing at Booking, different technologies like Hadoop, Hbase, Cassandra, Kafka etc that we use to store and process large volumes of data and building up of metrics to measure the success of our experiments.
More Related Content
Similar to Big Data for unstructured data Dariusz Śliwa
Prezentacja: dr Laura Bandura-Morgan (Narodowe Centrum Nauki)
Krajowe Warsztaty Otwartego Dostępu OpenAIRE 2020, Polska
Polityki otwartości w Polsce
Cześć 2: dane badawcze
25 listopada 2020, online
OpenAIRE National Workshop in Poland (2020), organized as part of the OpenAIRE Advance project, was be devoted to the implementation of open access policies in Polish scientific institutions.
http://pon.edu.pl/politykiotwartosci/
Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019Deloitte Polska
Więcej: https://www2.deloitte.com/pl/pl/pages/technology/articles/tech-trends-trendy-technologiczne-2019.html
Zaawansowane sieci teleinformatyczne, inteligentne interfejsy czy zastąpienie serwerów technologią chmury – między innymi te innowacje i trendy umożliwiają osiągnięcie celów, dotychczas leżących poza granicami możliwości technologicznych. Eksperci firmy doradczej Deloitte, autorzy 10. edycji raportu „Tech trends 2019 – Jak przełamać bariery technologiczne?” wytypowali 6 trendów, które radykalnie zmienią biznes w nadchodzących miesiącach. Z raportu wynika, że firmy już zaczynają korzystać z tych rozwiązań i starają się dopasować nowe trendy do swoich potrzeb biznesowych. W najbliższym czasie technologiczny pęd zdecydowanie przyspieszy za sprawą sztucznej inteligencji, która leży u podstaw kolejnych zmian.
[#4] spark - IBM Integrated Analytics SystemArtur Wronski
Presentation #4 from IBM conference "Analityka Nowej Generacji", 8th of March 2018, Warsaw
Title: Introduction to data science and spark
Presenter: Marcin Janiszewski
[language: polish]
Oszałamiające wizualnie, intuicyjne rozwiązanie, które pozwala wykorzystać potencjał Hadoop i przekształcić surowe dane w nowe odkrycia w ciągu kilku minut, bez potrzeby uczenia się skomplikowanych rozwiązań przeznaczonych dla wąskiego grona specjalistów.
Michał Żyliński: Cortana dla niewtajemniczonychAnalyticsConf
Praktyczne wprowadzenie do nowoczesnych narzędzi analitycznych na przykładzie usług wchodzących w skład Microsoft Cortana Analytics Suite. Na konkretnych przykładach postaram się pokazać uczestnikom, jak przygotować się do przetwarzania dużej ilości danych. Jakie (darmowe i komercyjne) technologie znaleźć można na rynku? Jakie role i kompetencje przydadzą się wewnątrz organizacji? Jak dobrać właściwe narzędzia? Na czym warto skupić się samemu, a kiedy szukać pomocy na zewnątrz? Omówione zostaną również pierwsze komercyjne wdrożenia Cortany.
Prezentacja artykułu z konferencji Infobazy 2014, prezentującego prace realizowane w projekcie MARKOS. Celem projektu MARKOS jest opracowanie koncepcji i rozwój sieciowej usługi umożliwiającej wyszukanie w globalnej przestrzeni projektów Open Source komponentów, które w sposób optymalny spełniają kryteria wyspecyfikowane przez użytkownika systemu. Dzięki opracowanemu systemowi twórcy i użytkownicy otwartego oprogramowania (ang. Open Source Software, OSS) będą mogli w łatwy i automatyczny sposób analizować zależności pomiędzy użytymi komponentami OSS, biorąc pod uwagę funkcjonalne, strukturalne i licencyjne aspekty kodu źródłowego.
Wynikiem projektu będzie prototyp usługi uruchomionej w Internecie przez partnerów projektu i udostępnionej poprzez zestaw interaktywnych aplikacji, zarówno przez graficzny interfejs użytkownika, jak i semantyczny punkt dostępu do danych w modelu linked data. Wspomniana powyżej usługa będzie realizowana za pomocą zestawu wewnętrznych komponentów systemu MARKOS, których zadaniem będzie wielokontekstowa analiza informacji dostępnych w sieci oraz ich przetwarzanie i przechowywanie w wewnętrznym repozytorium semantycznym systemu.
System MARKOS będzie oferował użytkownikom możliwość semantycznego przeszukiwania i przeglądania komponentów i bibliotek oraz nawigowania po strukturze kodu na wysokim poziomie abstrakcji. Ułatwi to, w szczególności architektom i analitykom, wyszukanie komponentu, który spełnia funkcjonalne, techniczne i prawne wymagania systemu. Z kolei programistom pozwoli lepiej zrozumieć dostępne interfejsy i wewnętrzne zależności oprogramowania. Dodatkowo system MARKOS będzie brał pod uwagę również aspekty integracji kodu, pokazując i wykorzystując zależności i związki między komponentami oprogramowania z różnych projektów. Dzięki temu w systemie MARKOS dostępny będzie zintegrowany globalny widok na istniejące oprogramowanie Open Source. MARKOS wykorzysta również zależności między komponentami do bardziej efektywnej i trafnej analizy kompatybilności licencji, dostarczając podstaw argumentacji prawnej i rozwiązywania konfliktów. W celu ułatwienia współpracy między różnymi projektami, MARKOS dostarczy też narzędzi umożliwiających powiadamianie o istotnych zmianach w komponentach pomiędzy zależnymi projektami. Oczekuje się w związku z powyższym, że system MARKOS ze swoją funkcjonalnością w kontekście globalnym ułatwi rozwój oprogramowania w oparciu o paradygmat Open Source wnosząc swój wkład w globalną społeczność.
Similar to Big Data for unstructured data Dariusz Śliwa (20)
The Factorization Machines algorithm for building recommendation system - Paw...Evention
One of successful examples of data science applications in the Big Data domain are recommendation systems. The goal of my talk is to present the Factorization Machines algorithm, available in the SAS Viya platform.
The Factorization Machines is a good choice for making predictions and recommendations based on large sparse data, in particular specific for the Big Data. In practical part of the presentation, a low level granularity data from the NBA league will be used to build an application recommending optimal game strategies as well as predicting results of league games.
A/B testing powered by Big data - Saurabh Goyal, Booking.comEvention
At Booking we have more than a million properties selling their rooms to our customers. We have approximately 1000 events per minute from them leading to total 500 GB of data for partner events alone.
In order to make sure we receive the relevant inventory from our partners we A/B test various new features. There were more than 100 experiments focusing on availability alone in one quarter.
In my talk I ll be talking about A/B testing at Booking, different technologies like Hadoop, Hbase, Cassandra, Kafka etc that we use to store and process large volumes of data and building up of metrics to measure the success of our experiments.
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...Evention
In general, fraud is the common painful area in the telecom sector, and detecting fraud is like finding a needle in the haystack due to volume and velocity of data. There are 2 key factors to detect fraud:
(1). Speed: If you can’t detect in time, you’re doomed to loose because they’ve already got what they need. Simbox detection is one of the use case for this situation. Frauders use it to bypass interconnection fee. In this use case we’re talking about our real time architecture using Spark SQL to detect simbox within 5 minutes.
(2). Accuracy: Frauders changes their method all the time. But our job is finding their behaviour using machine learning algorithms accurately. Anomaly detection is one of the use case for this situation. In this use case we’re talking about data mining architecture to make fraud models using Spark ML within 1 hour. We also discuss some ML algorithm performance on Spark such as K-means, three sigma rule, T-digest and so on. In order to accomplish these factors, we processes 8-10 billion records which size is 4-5 TB every day. Our solution combines end-to-end data ingestion, processing, and mining the high volume data to detect some use cases of fraud in near real time using CDR and IPTDR to save millions, and better user experience.
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...Evention
Nowadays many companies become data rich and intensive. They have millions of users generating billions of interactions and events per day.
These massive streams of complex events can be processed and reacted upon to e.g. offer new products, next best actions, communicate to users or detect frauds, and quicker we can do it, the higher value we can generate.
In this talk we will present, how in joint development with our client and in just few months effort we have built from ground up a complex event processing platform for their intensive data streams. We will share how the system runs marketing campaigns or detect frauds by following behavior of millions users in real-time and reacting on it instantly. The platform designed and built with Big Data technologies to infinitely and cost-effectively scale already ingests and processes billions of messages or terabytes of data per day on a still small cluster. We will share how we leveraged the current best of breed open-source projects including Apache Flink, Apache Nifi and Apache Kafka, but also what interesting problems we needed to solve. Finally, we will share where we’re heading next, what next use cases we’re going to implement and how.
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...Evention
Despite rapid progress of tools and methods, security has been almost entirely overlooked in the mainstream machine learning. Unfortunately, even the most sophisticated and carefully crafted models can become victims of using the so-called adversarial examples.
This talk will cover the concepts of adversarial data and machine learning security, go through examples of possible attack vectors and discuss the currently known defence mechanisms.
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, AdformEvention
Adform is one of the biggest European ad-tech companies – for example, our RTB engine at peak handles ~1m requests per second, each in under 100 ms, producing ~20TB of data daily.
In this talk I will present the data pipeline and the infrastructure behind it, emphasizing our core principles (such as event sourcing, immutability, correctness) as well as the lessons learned along the way while building it and the state it is converging to.
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data ArtisansEvention
This talk will start with brief introduction to streaming processing and Flink itself. Next, we will take a look at some of the most interesting recent improvements in Flink such as incremental checkpointing,
end-to-end exactly-once processing guarantee and network latency optimizations. We’ll discuss real problems that Flink’s users were facing and how they were addressed by the community and dataArtisans.
Privacy by Design - Lars Albertsson, MapflatEvention
Privacy and personal integrity has become a focus topic, due to the upcoming GDPR deadline in May 2018 and it’s requirements for data storage, retention, and access. This talk provides an engineering perspective on privacy and highlights pitfalls and topics that require early attention.
The content of the talk is based on real world experience from handling privacy protection in large scale data processing environments.
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...Evention
The way you operate your Big Data environment is not going to be the same anymore. This session is based on our experience managing on-premise environments
and taking the lesson from innovative data-driven companies that successfully migrated their multi PB Hadoop clusters. Where to start and what decisions you have to make to gradually becoming cloud ready. The examples would refer to Google Cloud Platform yet the challenges are common.
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...Evention
In this talk we describe how to analyze high volumes of real-time streams of news feeds, social media, blogs in scalable and distributed way using Apache Flink
and Natural Language Processing tools like Apache OpenNLP to perform common NLP tasks like Named Entity Recognition (NER), chunking, and text classification.
Enhancing Spark - increase streaming capabilities of your applications - Kami...Evention
During this session we’ll discuss the pros and cons of a new structured streaming data processing model in Spark and a nifty way of enhancing Spark with SnappyData, an open-source framework providing great features for both persistent and in-motion data analysis.
Based on a real-life use case, where we designed and implemented a streaming application filtering, consuming and aggregating tons of events, we will talk the role of the persistent back-end and stream processing integration in the real-time applications in terms of performance, robustness and scalability of the solution.
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...Evention
The next time you find yourself thinking there isn’t enough time in a week, consider what Drinker Biddle did for their client in 7 days.
When a senior executive for a publicly traded company was fired for underperformance, he made a serious allegation on his way out the door. He claimed he was laid off because of his repeated attempts to inform officials that the company was falsifying quarterly financial reports to the public. Instead of waiting for the typical pace of discovery that could potentially cost their client at least a quarter of a million dollars, Drinker Biddle used powerful analytics technology to conduct an intelligent investigation, fast. In this session, you will learn about machine learning that makes digging through large multi-sources data sets possible. You will have a chance to see the backstage of how engineers empower legal teams to organize data, discover the truth and act on it.
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...Evention
We will present the journey of Orange Polska evolving from a proprietary ecosystem towards significantly open-source ecosystem based on Hadoop and friends
– a journey particularly challenging at a large corporation. We’ll present key drivers for starting Big Data, evolution of BI, emergence of Data Scientists and advanced analytics along with operational reporting and stream processing to detect issues. This presentation will cover both technical aspects and business environment, as both are inherently linked in process of big data enterprise adoption.
Stream processing with Apache Flink - Maximilian Michels Data ArtisansEvention
Apache Flink is an open source platform for distributed stream and batch data processing. At its core, Flink is a streaming dataflow engine which provides data distribution, communication, and fault tolerance for distributed computations over data streams. On top of this core, APIs make it easy to develop distributed data analysis programs. Libraries for graph processing or machine learning provide convenient abstractions for solving large-scale problems. Apache Flink integrates with a multitude of other open source systems like Hadoop, databases, or message queues. Its streaming capabilities make it a perfect fit for traditional batch processing as well as state of the art stream processing.
Scaling Cassandra in all directions - Jimmy Mardell SpotifyEvention
At Spotify we run over 100 Cassandra clusters, from small 3 node clusters to clusters with up to 100 nodes. Many of them are multi-datacenter clusters. I will talk about the challenges of having so many clusters and what tools we are using and have built for managing them. There will also be some war stories of when we have failed
Elastic development. Implementing Big Data search Grzegorz KołpućEvention
Quick look at implementation of search platforms based on ElasticSearch from developer perspective. Full-text search, relevance, geo location, stats, aggregations, alerting - I will show you how pleasant that may be and what traps are waiting for you in the limbo of distributed systems.
H2 o deep water making deep learning accessible to everyone -jo-fai chowEvention
Deep Water is H2O’s integration with multiple open source deep learning libraries such as TensorFlow, MXNet and Caffe. On top of the performance gains from GPU backends, Deep Water naturally inherits all H2O properties in scalability. ease of use and deployment. In this talk, I will go through the motivation and benefits of Deep Water. After that, I will demonstrate how to build and deploy deep learning models with or without programming experience using H2O’s R/Python/Flow (Web) interfaces.
That won’t fit into RAM - Michał BrzezickiEvention
SentiOne is one of the leading solutions in Europe for social media listening and analysis. We monitor over 26 European markets including CEE, Scandinavia, DACH, and the Balkans. The amount of data that is processed every day and is ready to be queried by our users is enormous. Over the years we have tested many technologies and approaches in big data from which many have failed. The presentation includes our experiences and lessons learned on setting up big data company from scratch. I will give details on configuring robust ElasticSearch cluster with over 26TB of data and describe key challenges in efficient web crawling and data extraction
Stream Analytics with SQL on Apache Flink - Fabian HueskeEvention
SQL is undoubtedly the most widely used language for data analytics for many good reasons. It is declarative,
many database systems and query processors feature advanced query optimizers and highly efficient execution engines, and last but not least it is the standard that everybody knows and uses. With stream processing technology becoming mainstream a question arises: “Why isn’t SQL widely supported by open source stream processors?”. One answer is that SQL’s semantics and syntax have not been designed with the characteristics of streaming data in mind. Consequently, systems that want to provide support for SQL on data streams have to overcome a conceptual gap. One approach is to support standard SQL which is known by users and tools but comes at the cost of cumbersome workarounds for many common streaming computations. Other approaches are to design custom SQL-inspired stream analytics languages or to extend SQL with streaming-specific keywords. While such solutions tend to result in more intuitive syntax, they suffer from not being established standards and thereby exclude many users and tools.
Apache Flink is a distributed stream processing system with very good support for streaming analytics. Flink features two relational APIs, the Table API and SQL. The Table API is a language-integrated relational API with stream-specific features. Flink’s SQL interface implements the plain SQL standard. Both APIs are semantically compatible and share the same optimization and execution path based on Apache Calcite.
In this talk we present the future of Apache Flink’s relational APIs for stream analytics, discuss their conceptual model, and showcase their usage. The central concept of these APIs are dynamic tables. We explain how streams are converted into dynamic tables and vice versa without losing information due to the stream-table duality. Relational queries on dynamic tables behave similar to materialized view definitions and produce new dynamic tables. We show how dynamic tables are converted back into changelog streams or are written as materialized views to external systems, such as Apache Kafka or Apache Cassandra, and are updated in place with low latency. We conclude our talk demonstrating the power and expressiveness of Flink’s relational APIs by presenting how common stream analytics use cases can be realized.
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...Evention
Since June 2016, Kafak, Spark and Flink-as-a-service have been available to researchers and companies in
Sweden from the Swedish ICT SICS Data Center at www.hops.site using the HopsWorks platform (www.hops.io). Flink and Spark applications are run within a project on a YARN cluster with the novel property that applications are metered and charged to projects. Projects are also securely isolated from each other and include support for project-specific Kafka topics. That is, Kafka topics are protected from access by users that are not members of the project. In this talk we will discuss the challenges in building multi-tenant streaming applications on YARN that are metered and easy-to-debug. We show how we use the ELK stack (Elasticsearch, Logstash, and Kibana) for logging and debugging running streaming applications, how we use Graphana and Graphite for monitoring streaming applications, and how users can debug and optimize terminated Spark Streaming jobs using Dr Elephant. We will also discuss the experiences of our users (over 120 users as of Oct 2016): how they manage their Kafka topics and quotas, patterns for how users share topics between projects, and our novel solutions for helping researchers debug and optimize Spark applications. Hopsworks is entirely UI-driven with an Apache v2 open source license.
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...
Big Data for unstructured data Dariusz Śliwa
1. Big Data dla informacji
niestrukturalnych
Darek Śliwa, HPE Big Data Solutions
2016/02/25
2. HPE dla Big Data -
podstawy
Czy tylko platforma sprzętowa?
2
3. HPE oferuje sporo więcej niż tylko platformę sprzętową!
Nasze fundamenty: 'Data Centric Foundation':
Petabytes/Batch-ModeTerabytes/Real-time
Data Lake
Analityka Human data
skala: PB dziennie
Analityka Machine/IoT
skala: PB dziennie
Rozwiązania
BI/wizualizacyjne firm
trzecich
Analityka czasu rzeczywistego
skala: TB dziennie
JSON
Hewlett Packard Enterprise
IDOLEnterprise
4. HAVEn
Social media IT/OT ImagesAudioVideo
Transactional
dataMobile Search engineEmail Texts
Kataloguje
olbrzymie masywy
rozproszonych
danych
Hadoop/
HDFS
Procesuje i
indeksuje całą
informację
Autonomy
IDOL
Analizuje w
czasie
rzeczywistym na
olbrzymią skalę
Vertica
Korporacyjne
bezpieczeństwo.
Zbiera i unifikuje
dane maszynowe
Enterprise
Security
nApps
Documents
n aplikacji:
połączy
rozwiązania HP
+ Twoje aplikacje
– Platforma Big Data
HP HAVEn 2.0
5. HPE Vertica - zaawansowana analityka
Pierwsza komercyjnie dostępna
kolumnowa baza danych.
Pierwsi używaliśmy architekturę
MPP. Byliśmy big data zanim Big
Data stała się cool.
Natywna integracja z Hadoop
Opcje SaaS oraz chmura AMI
Najnowsze innowacje do obsługi
nowych architektur jak Kafka i Spark
Katalizator innowacji
6. Integracja Hadoop – Vertica
Przechowuj w Hadoop Data Lake lub w (optymalizowanym) storage HPE Vertica
Hadoop storage
HPE Vertica optimized storage
Vertica ANSI SQL
Fastest
Fast
Analitycy nie muszą się
przejmować, gdzie umieszczone
są dane lub jak są sformatowane.
DBAs mogą używać wielu
zasobów storage w zależności od
potrzeb, wydajności i kosztów.
Inżynierowie danych mają wiele
opcji pozyskania i przenoszenia
danych pomiędzy Vertica i
Hadoop, zachowując balans
pomiędzy kosztami i wydajnością.
6
7. A co z informacją
niestrukturalną?
Przecież codziennie komunikujemy się i tworzymy w języku dalekim od
maszynowego...
7
8. Volume
Value
Raz jeszcze zdefiniujmy Big Data
“Big Data” is high-volume, -velocity and –variety information assets that demand cost-effective,
innovative forms of information processing for enhanced insight and decision-making.
¹Source: Gartner, The Importance of 'Big Data': A Definition, June 2012
Information
sources Transactional data SearchTextsCRM, SCM, ERP ImagesEmail Social mediaIT ops AudioVideo Mobile
Variety
Velocity
Big
Data
8
10. HP IDOL: technologia pozwalająca rozumieć
– bazujący na algorytmach i matematyce
– ponad 15 lat i $280M inwestycji w R&D
– >170 patentów
– niezależny od języka komunikacji z
człowiekiem
– wszystkie typy plików, wszystkie typy
mediów (głos/wideo)
– skalowalny i bezpieczny
– niezależny od platformy/OS
11. Clickstream
Data
Transactional
Data
Logs
ERP CRM
HRMS ProcurementSupply Chain
Management/
Inventory
Mgmt
Human information - wyzwanie i szansa dla Big Data
“Missed opportunity” “Increased risk” “Cost & complexity”
Social Media Video
Audio
Email
Texts Messages
Word, Excel
Images
Musimy umieć obsłużyć 100% informacji
Niestrukturalne Strukturalne
12. 500 funkcji & 400 konektorów
– rozumienie Różnicy Pojęciowej
(Conceptual Distance)
– ekstrakcja Znaczenia (Meaning)
– zaawansowane mechanizmy
bezpieczeństwa
– niezależność od języka komunikacji z
człowiekiem
– wsparcie dla 1,000 typów plików i 400
repozytoriów danych
– automatyzacja procesów w czasie
rzeczywistym
– media społecznościowe, audio,
wideo, tekst
– petabajtowa skalowalność
Over 400 Connectors
HP IDOL: technologia pozwalająca rozumieć
13. Ponad 500 funkcji IDOL'a poszerzających inteligencję
Automatic hyperlinking
Conceptual search
Keyword search
Fieldtext search
Phrase search
Phonetic search
Field modulation
Fuzzy matching
Implicit profiling
Explicit profiling
Community and
expertise network
Agents
Intent-based ranking
Alerting
Social feedback
Eduction
Automatic clustering
Clustering 2D/3D
Autoclassification
Auto language detection
Sentiment analysis
Automatic taxonomy
generation
Automatic query guidance
Highlighting
Parametric refinement
Summarization
Real-time predictive query
Metadata extraction
Automatic tagging
Faceted navigation
Inquire
Search your data
Investigate
Analyze your data
Interact
Personalize your data
Improve
Enhance your data
14. Integracja Hadoop – IDOL
14
HPE IDOL oferuje konektory do pozyskania danych z ponad 400 typów
repozytoriów. Wynikiem są znormalizowane, strukturalne dane które mogą być
następnie składowane w systemie plików Hadoop, gotowe do dalszej analizy.
CFS HDFS CFS
IDOL Content
Cluster
IDOL index
tasks
IDOL HDFS
Connector
IDOL HDFS
Connector
16. HPE ControlPoint do obsługi informacji niestrukturalnej
Email
SharePoint
Współdzielenie
ECM Systems
Archives
HP ControlPoint
Wybiera rekordy bazując na politykach 'deklaracji'
powiązanych z kategoriami IDOL'a
HP Records Manager
Przydziela miejsce składowania na podstawie
klasyfikacji powiązanej z kategoriami IDOL'a oraz
regułami automatycznego tworzenia folderów
Policy
Categories
Filing
Categories
Auto-Declaration
Auto-Classification
Wykorzystanie możliwości HPE IDOL do automatycznego deklarowania i
klasyfikowania informacji rozproszonej po repozytoriach organizacji.
18. Etap 'Identify and Index'
– Rejestracja repozytorium
– Systemy plików, MS Exchange, HP RM czy SharePoint mogą zostać dodane i
skonfigurowane do indeksowania wprost w interfejsie ControlPoint'a
– Lista dodatkowych repozytoriów jest dłuuuga (Lotus Notes, Documentum, …)
– Indeksowanie
– Dostępne są różne poziomy (głębokości) indeksowania
– Prekonfigurowane zadanie szuka danych osobowych
– Wyjście z OCR (tekst) łączone jest z metadanymi i przekazywane do procesu
indeksującego
21. Analiza zebranych danych
• Przykłady analizy datasetów po czasie (powyżej) i po typie (po prawej)
• Ponad 50% dokumentów po prawej jest typu 'obraz'
• Inne kryteria analizy: zakresy dat, users/groups, właściciele, …
24. Kategoryzacja bazująca na zawartości
• Możliwość przygotowania złożonych kategorii za pomocą kombinacji metadanych, wyszukiwania słów
kluczowych, ekstrakcji, operacji logicznych, itp.
• Możliwość zarządzania kategoriami w ramach zorganizowanej systematyki/taksonomii
• Poniższy przykład: znajdź dokumenty zawierające słowa 'PIG' i 'Launcher' oraz numer rysunku
27. Wizja HPE w zakresie Information Management & Governance
Unstructured enterprise
data repositories
Structured enterprise
data repositories
Cloud-based
repositories
Other key repositories
Offsite or removable
data repositories
Address business &
operational objectives
Document Management
Enterprise Search & Collaboration
Legacy Data Cleanup
Legal HoldsInformation Archiving
Records ManagementeDiscovery
Address legal &
compliance objectives
Backup & Recovery
Disaster Recovery
Address information
management objectives
Common policy framework
Business Resiliency
Long-Term Retention
Migration to the Cloud
Zarządzaj danymi 'w miejscu' (in place) lub w skonsolidowanym repozytorium
Leverage & Take ActionAccess & Understand Organize & Control