4. ZETO INNOVATIONS
• Skupiamy się na zaawansowanej analityce
• Wykorzystujemy Internet Rzeczy
• Stosujemy podejście big data’owe w pracy z danymi
• Produkty rozwijamy w modelu Customer Development
• Dostarczamy Klientom wiedzy
niezbędnej do podejmowania decyzji biznesowych
w czasie rzeczywistym
5. Start
• Spedytor krajowy
• Koszty paliwa to znacząca część kosztów operacyjnych
Cel – obniżyć zużycie paliwa – Eco Driving
Czy to w ogóle jest możliwe?
9. Źródła danych
“Wygrywa nie ten, kto ma najlepszy algorytm,
a ten, który ma najwięcej danych.”*
Źródło: Andrew Ng,
Ekspert Machine Learning, prof. Stanford University
11. Źródła danych, cd.
• Strumienie danych (online)
• Listy przewozowe
• Rozkłady jazdy
• Baza infrastruktury
transportowej
• Bazy systemów dziedzinowych
• Zbiory ograniczeń w ruchu
• Dane z systemów ERP / CMMS
• Dane meteorologiczne
• historyczne
• bieżące
• Uzgodnione struktury pośrednie
• Słowniki
12. Najważniejsze procesy ETL
“Eksploracja danych polega na
torturowaniu danych tak długo,
aż zaczną zeznawać”*
Źródło: Mieczysław Muraszkiewicz,
Instytut Informatyki Teoretycznej i Stosowanej PAN
50 lat doświadczenia w przetwarzaniu, analizowaniu i zabezpieczaniu danych
Rozwiązania informatyczne dla sektora publicznego i prywatnego
Usługi IT w modelu SaaS
Centrum Bezpieczeństwa Danych ZETO Katowice.
Doświadczenie i rozwiązania pracujące w oparciu o architekturę systemów x86, RISC i Mainframe.
Nowa strategia rozwoju
Wyodrębnienie działalności związanej z zaawansowaną analityką i Big Data
Wykorzystanie Internetu Rzeczy
Inny model tworzenia i wdrażania produktów
Rozwiązania wspomagające podejmowanie decyzji biznesowych działające w czasie rzeczywistym
Dużo danych z wielu źródeł, ale:
Brak usystematyzowania
Brak pomysłu
Potencjał? Nieznany…
Uzasadnienie potrzeby Eco Drivingu przez jednego z przewoźników brytyjskich.
„Wyobraźmy sobie sytuację, że prawa do emisji CO2 wykupują od Państwa poszczególni przewoźnicy ………….”
Skąd tyle danych, tyle systemów analitycznych a zero użytecznej wiedzy.
Dwie tezy zasłyszane w rozmowach z FPL.
Sprzedaż coraz to nowych urządzeń z rejestratorami być może napędza rynek ale przyczynia się także do powstawania ogromnej ilości danych, których nikt nie potrafi przekształcić w wiedzę.
W czasach gdy lawinowo rośnie ilość danych i urządzeń rejestrujących, wszyscy wmawiają nam, że wraz z nowymi urządzeniami otrzymamy gratis oprogramowanie, które pozwoli nam przekształcić całość gromadzone dane w użyteczną biznesowo wiedzę
Rośnie popyt na podmioty, które potrafią zamienić dane w użyteczną biznesowo informację/wiedzę.
Od potrzeb klienta …… po potencjał zbudowanego rozwiązania, możliwość jego zastosowania w całości lub w częściach dla wielu branży/podmiotów.
Najważniejszy element „Wspólnie z klientem” i „Wielokrotna weryfikacja” nowe spojrzenie na formułę PoC.
Projekt prowadzony jest wspólnie z Klientem w formule PoC (ang. Proof of Concept).
Formuła projektu zakłada skrajną elastyczność i wielokrotne powtarzanie cyklu, na który składają się:
proponowanie rozwiązań,
zbieranie informacji zwrotnych,
wyciąganie wniosków,
wdrażanie zmian i ponowny kontakt z Klientem.
Wielokrotnie poważany cykl.
No i koniecznie, że z udziałem klienta.
Zasadniczym warunkiem powodzenia procesu przekształcania danych w użyteczną wiedzę jest udział zlecających w fazach: - definiowania zadania,
- eksperymentów, - ewaluacji wyników.
Cross Industry Standard Process for Data Mining (CRISP-DM)
Zgodnie ze standardem proces zgłębiania danych podzielony jest na 6 faz:
1 Zrozumienie uwarunkowań biznesowych
Jest to pierwszy i zarazem kluczowy etap metodologii. Najważniejszym jest tu jasne sformułowanie celów i wymagań projektu.
2 Zrozumienie danych
Etap ten składa się z dwóch podetapów:
zebranie danych,
ocena przydatności danych.
3 Przygotowanie danych
Na przygotowanie danych składają się kolejno:
wykonanie przekształceń,
czyszczenie danych,
usuniecie wartości skrajnych.
4 Modelowanie
Kluczowe w tej fazie są:
wybór i zastosowanie odpowiedniej techniki modelującej,
skalowanie parametrów modelu.
5 Ewaluacja
W ramach ewaluacji wykonywana jest:
ocena modeli pod względem jakości i efektywności,
ustalenie czy model spełnia wszystkie wymagania.
6 Wdrożenie
Ostatni etap, którego celem jest wykorzystanie stworzonego modelu.
Parafrazując:
“Wygrywa ten, kto ma autorski, najlepszy algorytm, dopracowany model fizyczny i najwięcej danych.” by Mirosław Nowak
Jedno za źródeł danych w Projekcie.
Przykład.
Potencjał, różnorodność źródeł danych to właśnie BigData.
Strumienie
Dane klienta
Dane zewnętrzne
Dane operatorów infrastruktury/taboru
Słowniki
Bazy infrastruktury
Bazy systemów dziedzinowych
Extract, Translate, Load ETL czyli to co ZETO Katowice robi od 50 lat.
Są dane są analitycy – wynik to tylko kwestia czasu.
KLUCZOWE, podstawa dobrze zasilonej warstwy analitycznej będącej podstawą wszelakich analiz i procesów dostarczania oczekiwanych wartości w oczekiwanym czasie .
Narzędzie Microsoft Integration Services
Power Shell
Ciekawe przypadki.
Potwierdzenie reguły G.. In G.. Out
Garbage In, Garbage Out – tłumaczone na polski jako śmieci na wejściu — śmieci na wyjściu; maksyma przypominająca, że wyniki przetwarzania błędnych danych będą błędne nawet wtedy, gdy procedura przetwarzania była poprawna
Ciekawe przypadki.
Potwierdzenie reguły G.. In G.. Out
Garbage In, Garbage Out – tłumaczone na polski jako śmieci na wejściu — śmieci na wyjściu; maksyma przypominająca, że wyniki przetwarzania błędnych danych będą błędne nawet wtedy, gdy procedura przetwarzania była poprawna
Garbage In, Garbage Out cd.
Model analityczny w oparciu o algorytm
Model fizyczny do weryfikacji
Asystent maszynisty
Potencjał – wsłuchujemy się w klienta, jesteśmy ekspertami sami możemy proponować rozwiązania
Rodzaje analityk:
Analityka 1.0 – Informatyk przynosi mi raporty, na których zawartość nie mam wpływu. Wszystkie próby wpływania na ich zawartość i rodzaj prezentacji kończą się fiaskiem.
Analityka 2.0 – Dostaję narzędzie typu Raport Studio. Pulpit Managera mieni się wszystkimi kolorami tęczy. Pełnia szczęścia – ale do czasu. Pojawiają się ograniczenia. „Tego nie ma w danych” – twierdzi informatyk.
Analityka 3.0 – Informatyk przynosi mi raporty – tak z sentymentu o tym, że systemy wspomagania decyzji, wirtualni asystenci i inne wynalazki BigDatowe przekładają się na wymierne korzyści dla mojego biznesu.
Analityka pozwala wizualizować przejazdy i je oceniać. Identyfikacja najlepszych i najgorszych przejazdów ->Platforma szkoleniowa
Porównanie z optymalnym przejazdem wyznaczonym przez algorytm -> weryfikacja w modelu fizycznym -> Podpowiadanie optymalnych parametrów
Wiedza o kosztach – planowanie spedycji i wyceny
Monitoring przejazdów w Centrum dowodzenia
Utrzymanie – predykcja awarii pojazdów i planowanie magazynu części zamiennych
Dostęp do danych i zaufanie
Kompetencje analityczne
Ścisła współpraca z Klientem – zaangażowanie!
Niestandardowe podejście – uciekamy od schematów