1. OUR BUSINESS CASE:
VALLUM DIGITAL & DATA
INTELLIGENT SOLUTIONS
- EXAMPLE TRAFFIC
SIGN RECORD-DATA
AI VISUAL EYE- LESSONS?
VALLUM OY.
Eero Siljander,
13.12.2018.
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
1
2. LÄHTÖKOHTIA – VALLUM SERVICES
1) Our Starting points:
Ensure a)BENEFITS, b)TARGETS, and c)QUALITY of DIGITAL DATA SOLUTIONS.
▪ 2) Miten lähtisit tutkimaan datasettiä ja miten visualisoisit tämän
▪ - What can we DO and LEARN from OPEN SOURCE DATA ?
▪ - What is our project STRATEGY and AIMS/GOALS?
▪ 3) Minkälaista lisätietoa olisi liitettävissä dataan, ja mahdollisesti hyödyllistä
tässä kontekstissa (alla linkki Digitrafficin lähteisiin)
▪ - What SOURCES and METHODS do we need to get RESULTS? PROFITS?
▪ - How DO we RE-ITERATE and keep these BENEFITS in the long-run?
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
2
3. RAPORTOINNIN LÄHTÖKOHDAT – VALLUM DATA PROJECTS.
▪ 1) Edellytykset:
▪ A) Yhdessä sovitut tavoitteet.
▪ B) Oikeat metodit ja datat.
▪ C) Tarkka aineistokuvaus, raportointi.
▪ D) Oikean tiimin / sopivan projekti-
ryhmän valinta.
▪ 2) Onnistunut raportointi:
▪ E) -> Selkeät johtopäätökset.
▪ ->>Tulosten Jalkauttaminen!
▪ F) -> Jatkotyö -> Lisädatat-> asiakastarve.
▪ PIDETÄÄN SIDOSRYHMÄT JA ASIAKKAAT MUKANA !
g) Edistyneemmät
tarkastelut ja
kehitystyö.
h) Dataan
integroitavien
lisätietolähteiden
suunnittelu &
hankinta.
Machine Learning
->>
AI-Intelligence ->>
ON/YES.WE CAN!
Vaihe 3. ”Next Steps”
d) Datan
tunnusluvut
ja kaavioiden
kuvaus.
e) Raportointi ja
menetelmä-
kuvaukset.
f) Tulosten
esittely ja
jalkautus!
RESULTS &
PRESENTATIONS
Step 2. ”Sprint!”
a)
Tavoitteiden
asettaminen.
b) Datan
visuaalinen
tarkastelu ja
siivous.
c) Metodien
valinta.
DATA & DW &
BI & AI
Step 1. ”Planning”
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
3
CRM, ERP, Myynti & Markkinointi asiakkaille!
Projekteissa voidaan käyttää ”kriittistä polkua”-vesiputous,
scrum-agile ”iteraatiota”, tms. menetelmää.
4. AJATUKSENI PROJEKTINHALLINNASTA JA
TYÖSTÄ YLEENSÄ –> TAVOITTEELLISUUS !
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
4
• Meille Vallumissa projektinhallinta on:
• A) Tavoitteellisen ja
• B) Järkevän tekemisen ohjenuora.
• C) Johtamisen työkalu.
• Our Advantages +++ (Vallum, Ketteryys, Agile):
• Sovitut tehtävät ja toimenkuvat. Mdm & mine.
• Tulosten raportointi selkeästi. Tailor reports.
• Asiakirjojen taltiointi. DW storage.
• Auditointi ja laadunhallinta. Audit quality.
• Riskien hallinta. Risk magement.
• Kustannusten hallinta. Value-for-money.
• ->>Deadlines & Budgets hold!.
• SWOT-Miinukset --- (competitors,
• some large suppliers):
• Sitoutuminen voi isolla toimijalla vaihdella. Many
many Customers - Commitment to You?
• Henkilöstö voi vaihtua usein. Churning of staff?
• Asiakkuus voi loppua/vaihtua. CRM change?
5. 5
COSTS
€ 8 927
REVENUES
€ 13 950
CASH FLOW
€ 22 858Costs Revenues Cash flow
Title Business Partn. Category Contact No. Start Date End Date Lifecycle Files Status
Lorem Ipsum Lorem Ipsum Lorem Ipsum Lorem Ipsum Oct 5, 2015 Oct 5, 2015 Lorem Ipsum 1 Files Draft
Lorem Ipsum Lorem Ipsum Lorem Ipsum Lorem Ipsum Oct 5, 2015 Oct 5, 2015 Lorem Ipsum 1 Files Active
Lorem Ipsum Lorem Ipsum Lorem Ipsum Lorem Ipsum Oct 5, 2015 Oct 5, 2015 Lorem Ipsum 1 Files Pending
Lorem Ipsum Lorem Ipsum Lorem Ipsum Lorem Ipsum Oct 5, 2015 Oct 5, 2015 Lorem Ipsum 1 Files Terminated
Lorem Ipsum Lorem Ipsum Lorem Ipsum Lorem Ipsum Oct 5, 2015 Oct 5, 2015 Lorem Ipsum 1 Files Archived
Title Business Partn.
Lorem Ipsum Lorem Ipsum
Lorem Ipsum Lorem Ipsum
Lorem Ipsum Lorem Ipsum
Lorem Ipsum Lorem Ipsum
Lorem Ipsum Lorem Ipsum-40
-30
-20
-10
0
10
20
30
40
FY1-Q3
FY1-Q4
FY2-Q1
FY2-Q2
FY2-Q3
FY2-Q4
FY3-Q1
FY3-Q2
FY3-Q3
FY3-Q4
FY4-Q1
FY4-Q2
Recently Added Recently Edited
Quarterly Summary – Neljännesvuosikatsaus.
CASH FLOW
Quarterly TOP 5 CONTRACTS
5
Contract Cost
SUM OF COSTS AND REVENUES
SHOW ALL ADD
6. 6
87 Philip Larkin High Done 75%
10 Vivienne Caya High Done Don
22 Daniel Wright High In Progress 50%
34 Anthony Tiller Normal In Progress 20%
47 Raymond Funk Normal In Progress 40%
93 Rice Kazantsev Normal In Progress 80%
88 Ann Britt Low Not Started 0%
2 Robert Thies Low In Progress 10%
25 Lorena Mario Low Canceled 0%
84 David Ford Low Not Started 80%
Completed Tasks
0 100
Tasks in Progress
0 100
Not Started Tasks
0 100
Task # Assigned to Priority Status Complete
Triaged Tasks Agile – Scrum-master, projektinäkymä.
LIST OF PROJECT PRIORITIES
7. 7
User Funnel Analysis – Tuotekehitysputki. Vallum minimizes risk.
What are we
building? Mitä
rakennamme/
kehitämme?
“Cloud of Uncertainty”
- “epävarmuushaarukka”.
0.25x
0. 5x
0. 67x
0. 8x
1x
1. 25x
1.5x
2x
4x
Aika/Riskikerroin2-4x
How does it
work? Miten
se toimii ?
2-1.5x
What will it
look like?
Miltä se
näyttää
(ulkoasu) ?
1.5-1.25x
Development!
Kehittäminen!
Utvecling!
PRODUCT/CONCEPT
TUOTE/KONSEPTI
>1.25x
9. LIIKENNEMERKIT RYHMÄN MUKAAN
▪ Liikennemerkit on kuviossa
ryhmitelty category-muuttujan
perusteella.
▪ Category-luokkien määritelmät on
poimittu Liikenneviraston sivuilta.
▪ Noin puolet havainnoista (49%) on
Ohje- ja opastusmerkkejä
(indication, A=25 %) ja (special-
regulations, B=24 %).
▪ Seuraavaksi eniten on
määräysmerkkejä (24 %), kielto-
ja rajoitusmerkkejä (13 %) ja
lisäkilpiä (7 %).
▪ Koko jakauma prosenttipurku
seuraavan sivun
piirakkadiagrammista.
▪ https://www.liikennevirasto.fi/tiev
erkko/liikennemerkit#.We4p4mi0
OM8
▪ (* ja ** selitys
aineistokuvauksessa.)
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
9
11. DATAN MUUTTUJIEN JAKAUMIA
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
11
Huomaa X-Y-hajontakuviossa, että localization_confidence muuttuja on
hajonnaltaan ja vaihteluväliltään moninkertainen detection_confidenceen
verrattuna.
Koodimuuttuja on keskittynyt voimakkaasti
vaihteluvälille 500-562 ja samoin välille 374-436
– histogrammi antaa yleiskuvan tilanteesta.
12. HAHMONTUNNISTUKSEN TILASTOLLINEN
LUOTETTAVUUS (***, **, JA *-TASOT)
Detection confidence muuttujan piirakka
--> on tilastollisesti melko luotettavasti
vähintään *-tasolla kaikki.
(ts.alle *-> N=0).
Liikennemerkkien Localization confidence
muuttujan piirakka → huomattavasti heikommin
luotettava ! (ts. 43 % N:stä alle *-tasolla).
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
12
13. MUITA AINEISTON MUUTTUJIA
Side-muuttujassa painottuu
”right”-havainnot -> n=794.
Elevation muuttujassa on
huomattavaa hajontaa (myös yksi
negatiivinen havainto =-1,9919)
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
13
14. LIIKENNEMERKKIDATAN TUNNUSLUVUT
▪ Aineiston numeeristen muuttujien aritmeettiset keskiarvot,
keskihajonnat ja mediaanit esitetään oheisessa taulukossa.
Otos=N=1517 havaintoa.
▪ 1) Pituus- ja leveyspiirit ilmoitetaan asteina, jotka voidaan
jakaa 60 minuuttiin ja edelleen 60 sekuntiin siis DMS-
järjestelmä (asteet, minuutit, sekuntia) tai 2) DD-
järjestelmään (desimaalin astetta).
▪ Longtitude- ja Latitude- muuttujien keskiarvokohdasta
löytyy GPS-haulla seuraava osoite (DD-järjestelmä):
▪ Sokerilinnantie 9, 02600 Espoo, Suomi. Tätä tulosta
indikoivat selkeästi myös aineiston map_url ja direction -
muuttujat. Aineiston liikennemerkit sijoittuvat Rambollin
toimipisteen ympäristöön Leppävaarassa Espoossa.
▪ Variaatiokerroin indikoi, että hajonta on lähes keskiarvon
suuruinen (1:1) Heading ja N_Videos –muuttujissa.
Huomattava kerroin myös localization_confidence -
muuttujassa.
▪ Lähde: http://mapszoom.com/fi/gps-
coordinates.php?town=Laskuri
▪ (* Code-muuttujan numerisointi, 3-numerotaso, ks. Aineistokuvaus)
▪ (**Accuracy-muuttujassa huomautus, ks. Aineistokuvaus)
▪ (*** Localization_detection-muuttujassa huomautus havaintoja, ks. Aineistokuvaus)
Muuttuja Keskiarvo Mediaani
Keski-
hajonta
Variaatio-
kerroin
Min Max
Longtitude 24,8149 24,8152 0,0070 0,0003 24,8003 24,8284
Latitude 60,2158 60,2158 0,0025 0,0000 60,2108 60,2208
Elevation 32,7578 32,2900 10,9162 0,3332 -1,9919 107,5911
Code* 607 521 208 0,3432 121 1000
Heading 165 171 102 0,6176 1 359
N_Videos 1,8 1,0 1,3 0,7497 1 9
Accuracy 6,5** 6,0 3,3** 0,5115 2 16
Detection_
confidence
0,9977 1,0000 0,0073 0,0073 0,9505 1,0000
Localization
confidence
0,8742
***
0,9900
0,1294
***
0,2167 0,2400 1,0000
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
14
16. MUUTTUJIEN VÄLISET RIIPPUVUUDET.
▪ Muuttujien korrelaatiokertoimet (lineaariset riippuvuudet) on esitetty yllä olevassa taulukossa ja yli r > 0,1 kertoimet on tummennettu.
▪ Detection_confidence on positiivisesti korreloitunut videoiden lukumäärän kanssa (r=0,13) ja negatiivisesti korreloitunut koodi-muuttujan kanssa (r=-0,14).
Johtopäätös: Mitä enemmän videoita (n_videos), niin sitä parempi tunnistaminen (detection). Mitä suurempi koodi (code)-muuttujan arvo, niin sitä heikompi
tunnistamisaste (detection).
▪ Localization_confidence on positiivisesti korreloitunut videoiden lukumäärän kanssa (r=0,19). Johtopäätös: Mitä enemmän videoita - number of videos- niin sitä
parempi paikannusmuuttujan arvo (localization). -> 2) Samoin ovat localization ja detection muuttujat keskenään (r=0,09). *(Puuttuvat tiedot havainnoissa on
korvattu keskiarvoilla, ks. Aineistokuvaus)
▪ Yhteenvetona: 1) videoiden lukumäärä number of videos on positiivisessa yhteydessä sekä detection että localization muuttujiin. Parempi tunnistusteho !
Korrelaatiot longitude latitude elevation code c_number heading n_videos accuracy detection localization
longitude 1,00
latitude -0,28 1,00
elevation -0,41 -0,02 1,00
code 0,00 -0,01 -0,01 1,00
category_number 0,01 0,00 0,01 0,25 1,00
heading 0,02 -0,07 0,19 0,02 0,02 1,00
number_of_videos 0,12 -0,33 0,04 -0,02 -0,05 -0,01 1,00
accuracy -0,01 0,00 0,06 -0,03 -0,01 -0,02 0,04 1,00
detection_confidence -0,01 -0,02 0,00 -0,14 0,01 -0,04 0,13 0,01 1,00
localization_confidence 0,02 -0,03 0,01 -0,02 -0,12 -0,04 0,19 0,08 0,09 1,00
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
16
17. REGRESSION MODEL , AI-MODELSM
FOR Y=DETECTION-VARIABLE (R, STATA, SAS).
YHTEENVETO TULOSTUS
Y = DETECTION_CONFIDENCE
Regressiotunnusluvut
Kerroin R 0,1490
Korrelaatiokerroin 0,0222
Tarkistettu korr.kerroin 0,0209
Keskivirhe 0,0072
Havainnot 1517
ANOVA
va NS KN F F:n tarkkuus
Regressio 2 0,0018 0,0009 17,1827 0,0000
Jäännös 1514 0,0783 0,0001
Yhteensä 1516 0,0801
Kertoimet Keskivirhe t Tunnusluvut P-arvo Alin 95% Ylin 95% Alin 95,0% Ylin 95,0%
Leikkauspiste 0,9942 0,0009 1073,1405 0,0000 0,9924 0,9960 0,9924 0,9960
number_of_videos 0,0007 0,0001 4,7512 0,0000 0,0004 0,0010 0,0004 0,0010
localization_confidence 0,0026 0,0011 2,4815 0,0132 0,0005 0,0047 0,0005 0,0047
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
17
• Kaikkien muuttujien (P-value under <0,05), eli ne ovat merkitseviä tilastollisesti 5 %:n tasolla.
• Täten number of videos ja localization confidence muuttujat ennustavat detection confidence
muuttujaa (myös leikkauspiste=vakiotermi). We have Machine Learning Skills and Confidence!
• Mallin F-arvo ja F:n tarkkuus on tilastollisesti merkitsevä tilastollisesti (statistical level) 0,1 %:n
tasolla. Mallin parametrit ovat siis tilastollisesti yhteismerkitseviä. Statistical & Econometric !
19. LIIKENNEMERKKIDATAN YHTEENVETOA
▪ JOHTOPÄÄTÖS1: LIIKENNEMERKKI-AINESTO ON KOHTUULLISEN HYVÄ AINEISTO JATKOTYÖHÖN !
▪ JOHTOPÄÄTÖS2: LIIKENNEMERKKI-AINEISTO ON LAAJENNETTAVISSA SEURAAVAN SIVUN EHDOTUKSILLA.
LISÄKSI AINEISTON TARKKUUTTA ON PARANNETTAVISSA OTANTA-MENETELMILLÄ. UUSIEN LIIKENNEMERKKIEN
TULLESSA KÄYTTÖÖN AINEISTOSTA ESIINKÄYVÄ METODI ON PÄTEVÄ JA EROTTELUKYKYINEN.
▪ JOHTOPÄÄTÖS3: DATA VAATII KUITENKIN KEHITYSTYÖTÄ JA JATKO-ANALYYSIA !
▪ SUMMA SUMMARUM: Aineiston perustunnusluvut ovat johdonmukaisia ja niistä voidaan tehdä johtopäätöksiä
liikennemerkkien tunnistettavuudesta ja tunnistuksen luotettavuudesta. Aineistosta laskettiin tunnuslukuja ja
piirrettiin graafeja. Myös Riippuvuuksia analysointiin kattavasti.
▪ Riskienhallinta:
▪ Liikennemerkkien tunnistamiseen liittyy kuitenkin monia haasteita. Näitä ovat tekstien normaali kuluminen, ilkivaltainen rikkominen, spray-
sotkeminen, onnettomuuksissa vääntyminen jne. Lisäksi merkittävä osa merkeistä on yksityis-, pyöräily- ja kävelyteillä, mikä ASETTAA
HAASTEITA.
▪ Liikennemerkkien lisäkilvet ovat pientä tekstiä ja herkkiä kulumiselle/sotkuille. Samoin ohje- ja opastekyltit joita on ENEMMISTÖ MERKEISTÄ !
▪ VASTAUS RISKEIHIN: 1:-> Otantamenetelmät keräämään liikennemerkkidataa erilaisista liikenneympäristöistä (ryväsotanta, ryhmitelty otanta,
stratifioitu otanta) –osaaminen on allekirjoittaneella VAHVUUTENI2:-> koneoppimisen regressiomenetelmät sorttaamaan hyviä havaintoja
huonoista (discriminatory analysis, SUR-regression, selective wregression machine learning! AI !) – osaaminen on allekirjoittaneella.
▪ (((Muita huomioita: Aineistossa havaittiin lukuisia puutteita, jotka on kuvattu tarkasti erillisessä Aineistokuvauksessa. Näitä puutteita olivat mm. puuttuvat
havainnot, selkeästi virhetietoiset havainnot (esim. 2,1,2017 -> accuracy muuttujassa) koodi-muuttujan numero-teksti ”sekamelska” (-> RUS, add, W 0, W 1, dow,
ent, on-). Jouduttiin luomaan uusia numeerisia muuttujia kuten category_numbers, koska category-muuttuja oli tekstimuuttuja -> kuvioita ja keskiarvoja varten.
Samoin tekstimuuttuja side koodattiin 0/1-muuttujaksi (left/right). Aineistokuvaus kertoo tarkemmin.)))
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
19
20. LISÄÄ API-DATASTA – PAIKKATIETO
TALTEEN JA SUUNNITTELUUN !
▪ Paikkatietokantaan perustuvan datan (GPS/GIS/GeoJson Point
Geometry Object) yhdistäminen liikennemerkkidataan järkevää. Näin
saadaan selville suunnittelutyötä ja businestä varten liikenneympäristön
tyyppi: a) kantatie, moottoritie, yksityistie; b) piha-alue, sairaala-alue,
puisto-alue, maa-alue, vesistö-alue, jätemaa c) metropoli, kaupunki,
taajama, maaseutu jne.
▪ -> Tehostaa suunnittelijan ja urakoitsijan työtä!
▪ https://tie.digitraffic.fi/api/v1/metadata/location-
types?version=latest&lastUpdated=false
▪ /api/v1/metadata/location-types
▪ The static information of location types and locationsubtypes
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
20
21. LIIKENNEMERKKI-
DATAN LISÄTYÖ (2)
▪ Digitraffic Road metadata API
▪ PAIKKATIETOKANTA (GIS) EHDOTTOMASTI MUKAAN!
▪ /api/v1/metadata/locations/{id}
▪ The static information of one location
▪ LocationProperties {
▪ areaRef (integer, optional): Code of the upper order
administrative area ,
▪ coordinatesETRS89 (Array[number], optional): Point
coordinates (LONGITUDE, LATITUDE). Coordinates are
in ETRS89 / ETRS-TM35FIN format. ,
▪ firstName (string): For roads and segments this is the
name of the starting point. For all other objects
(linear (streets), area and point) this is the name of
the object ,
▪ geocode (string, optional): Point location according to
Finnish Transport Agency’s official addressing where
Locations on road network are addressed as: Road
number;Road part number;Carriageway; Distance
from the beginning of the road part ,
▪ linearRef (integer, optional): For segments and point
locations. Describes the code of the segment which
these objects belong to. If there are no segments on
the road the location code of the road is given
instead.
-MITÄ TIETOJA DATAAN VOISI LIITTÄÄ? Digitraffic Road
metadata API. WHAT CAN WE ADD TO THIS DATA? OPEN?
-> Paikkatiedot*, GIS-data.
-> Säädata (C-asteet, kosteus, sade)*, Weather Data.
-> Ruuhkadata*, Congestion data.
-> Nopeusrajoitusdata*, Speed-limit Data.
-> Matka-aikadata*, Travel time data.
*Merkityt perustuvat Geometry {type (string): "Point":
GeoJson Point Geometry Object ,coordinates
(Array[number]): Point's coordinates [LONGITUDE,
LATITUDE, ALTITUDE] (Coordinates in WGS84 format in
decimal degrees. Altitude is optional and measured in
meters. Location accuracy is 1-100 metres.)
-> GPS-dataan/QGIS/GIS-dataan -> voimme yhdistää Datat
paikkatiedon perusteella !
-> JATKOKEHITYSTYÖ. FURTHER WORK !
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
21
22. HENKILÖKOHTAINEN ESITTELY
▪ Eero Siljander
▪ Data Scientist, ekonometrikko, Vallum Oy.
▪ VTL 2005, VTM 2002 (Taloustiede, ekonometria, HY).
▪ Isännöintikurssi, Eduhouse Oy, 2016. ProjectTalent-projektikurssi, Talentgate Oy, 2015.
▪ IPMA D, PRY ry, 2015. ProTalent-viestintäkurssi, TalentGate Oy, 2008.
▪ Tietokoneen A-ajokortti (Ms Office-kertaus), Eduhouse Oy, 2016.
▪ Yhteystiedot, Eerosiljander59@gmail.com
▪ https://fi.linkedin.com/in/eero-siljander-b498ba26
▪ ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
▪ VAHVUUTENI - SPECIAL SKILLS:
▪ 1) Programming/reporting/statistics - R, Qlikview/QLiksense, Hadoop, SQL, Oracle Enterprise 12c SAS, SPSS Excel, Stata, Azure, AWS.
▪ 2 ) Statistics and Data Analytics - 1) and Python-analytics.
▪ 3) Projektipäällikkö, Project Manager, IPMA D.
▪ Olen tehnyt mm. R, SAS, SQL, Stata ohjelmilla koneoppimismalleja osana kiinteistötekniikan energiansäästö (energy effiency data analysis)
automaationhallintaprojektia (LVI-/kaukolämpö-/kaukokylmä-, sähköautomation optimointi) 2016-2017.
▪ Lisätietoja ja suosittelija: TJ Risto Pyykkönen, Monzuun Oy, puh. 043 824 4853, Risto.Pyykkonen@monzuun.com.
13.12.2018RAMBOLL-Työhaastattelu-EeroSiljander
22
23. KIITOS
MIELENKIINNOSTA -
OPITTAVAA RIITTÄÄ
JA SEN TEEN
MIELELLÄNI !
BEST REGARDS!
TERVEISIN
EERO SILJANDER
DATA SCIENTIST
VALLUM OY, Eero.Siljander@vallum.fi
Eerosiljander59@gmail.com