SlideShare a Scribd company logo
1 of 52
Download to read offline
Minimizing The Rage
One Step at a Time
Daniel Kohlsdorf
dkohl.org
dkohlsdorf@gmail.com
2
1. [WS 07/08 - SS 11] Dipl. Inf Uni Bremen (Wearables / Gestures)
2. [12 - 15] PhD CS Georgia Tech (Dolphins)
3. [Now] Xing SE - Data Science
About Me
Outline
3
1. About Rage and Xing
2. Optimisation in General (Fast)
3. More Like This: Word2Vec (Informal)
4. Outlier Filtering: Gradient Boosted Trees
5. Data & Code: Infrastructure
Xing Use Case and Engineering
Methods We Use
In General
Please Interrupt me
Title/Name/Place/Date (edit by "Insert > Header and Footer") 3
Social Network
Communities
Jobs
Tools for
Recruiters
Events
What does XING offer?
Title/Name/Place/Date (edit by "Insert > Header and Footer") 3
Social Network
Communities
Jobs
Tools for
Recruiters
Events
What does XING offer?
Title/Name/Place/Date (edit by "Insert > Header and Footer") 3
Social Network
Communities
Jobs
Tools for
Recruiters
Events
What does XING offer?
Title/Name/Place/Date (edit by "Insert > Header and Footer") 3
Social Network
Communities
Jobs
Tools for
Recruiters
Events
What does XING offer?
Job
Recommendations
5
Job Recommendations @Xing
6
2	
Scala	Dev	
(m/w)	
Scala	
Engineer	
Scala	Dev,	
Hamburg	
user
job postings
Job
recommender
companies
Recommendations on Start Page
7
Start Page
Job recommendations
Recommendations in the Jobs Market
8
Reco Page
Job recommendations
A sample job posting
9
Example
Job recommendations
Example: item (job posting)
5
10
Content Based Recommendations @Xing
PROFILE POSTINGS
11
Content Based Recommendations @Xing
PROFILE POSTINGS
Key sources for understanding user demands
12
Social Network
explicit and
implicit
connections
Profile
Fabian Abel
Data Scientist
Haves:
Interests:
web science
big data, hadoop
skills & co.
Interactions
data
web
social media
clicks, shares,
ratings
big data
kununu
Interactions of
similar users
similar usershadoop
scala
The Rage
13
Sources Of The Rage
14
1. Users are insulted by recommendations
2. Everything Matches except one field (Internship vs C-Level)
3. Matching …
15
Text
Text
Understanding the meaning of things that people
write in job postings and in their profiles is not
trivial…
Job Recommendation Architecture
What John writes… And what he means…
Recruiter-John
International Sales Manager Call Center Agent
(10 EUR per hour)
Sales Manager Sales Manager for B2B
customers
(80K EUR per year)
Data Scientist skilled in Hadoop,
Scala, Elasticsearch, … with PhD in …
Data Analyst
(skilled in SAS or Excel)
16
17
What Paul says he is… And what he means…
Paul, the Candidate
CEO Network Engineer
(currently unemployed)
BI Engineer
(skilled in old-school ETL)
Shopman
(in a kiosk)
Data Scientist with 100+ skills
Sales Manager
Approach 1: Filtering bad recommendations
18
1. Use feedback app
2. Rating prediction
3. Filter postings from recommendations with low rating
Approach 2: More Like This
19
1. Use Bookmarks and Reply Intentions as strong positive feedback
2. Search semantically similar postings
3. Rescore recommendations based on similarity to bookmark
Optimisation
20
Linear Regression - Short Recap
21
1. Text
2. Text
3. Text
4. Text
5. Text
X1
Y • 1D Linear Regression
• Learn Line from Data:
• Model:
• With Parameters:
bias
slope
• 2D Linear Regression
• Learn Plane from Data:
• Model:
• With Parameters:
Linear Regression - Short Recap
22
input
slope
output
X
Y
bias
slope
vectors
Logistic Regression - Short Recap
23
y’
x
0 >= y <= 1
y’
y
Learning Setup
24
• Probability for positive example
• Probability for negative example
• Short form
• For dataset
L
(w,b)
After Some Math:
http://cs229.stanford.edu/notes/cs229-notes1.pdf
Learning
25
Text
+
+
Stochastic / MiniBatch
26
Newton
27
Taylor Series Expansion http://mathworld.wolfram.com/TaylorSeries.html
More on Optimisation and Derivatives
28
Word2Vec
29
Word Embeddings
30
Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Distributed Representations of
Words and Phrases and their Compositionality"
Word2Vec Model
31
1. Sliding Window over text
2. Predict center word
Derivatives
32
LogisticRegression
1. Sums do not change the gradient but
distribute it.
2. Weights of embeddings are updated
equally
3. In other words, the error from the logistic
regression is passed equally to the
embeddings involved in the average.
Gradient Flow In Word2Vec
33
1. Gradients from prediction attempt spread equally among words involved
2. Words in same prediction context become more similar
Visualisation
34
Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in
einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im
Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen
im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche
Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft
Gute Deutschkenntnisse in Wort und Schrift
• Context: {Profil, Ihr, Ausbildung, Im}
• Predict: Abgeschlossene
• Measure Error
• Update Context
Visualisation
35
Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in
einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im
Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen
im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche
Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft
Gute Deutschkenntnisse in Wort und Schrift
• Context: {Profil, Bereich,Abgeschlossene, Im}
• Predict: Ausbildung
• Measure Error
• Update Context
Visualisation
36
Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in
einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im
Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen
im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche
Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft
Gute Deutschkenntnisse in Wort und Schrift
• Context: {Ausbildung, Informatik, Im, Oder}
• Predict: Bereich
• Measure Error
• Update Context
*I left out some subsampling details: see paper
37
Xing2Vec: Similar words with cosine similarity
Kauffrau (Job)
• Bürokauffrau
• Hotelfachfrau
• Bankkauffrau
• Bürokaufmann
Hamburg (Location)
• Bremen
• Berlin
• Hannover
• Kiel
Volkswagen (Brand)
• Opel
• Audi
• Volvo
• Daimler
Xing2Vec: Document Queries
38
[…] nächstmöglichen Zeitpunkt eine/n IT
Support Engineer (m/w) Datenbank- und
Applikationsbetreuung. […]
Ihr Profil Abgeschlossene Ausbildung im Bereich
Informatik oder vergleichbare Berufserfahrung,
idealerweise in einem medizinischen Umfeld
Gute Datenbankkenntnisse, SQL-Abfragen,
Prozeduren Know-How im Bereich CITRIX und
MS-Server von Vorteil Erste Erfahrungen mit
Performanceanalysen und Optimierungen im
SQL-Server-Umfeld wünschenswert
Eigeninitiative, Zuverlässigkeit und Teamgeist
Rasche Auffassungsgabe und analytisches
Denkvermögen Bereitschaft zur Teilnahme an
einer Rufbereitschaft Gute Deutschkenntnisse
in Wort und Schrift
[…] IT - Systemmanager (m/w)Ihr Aufgabenfeld: -
Management von Daten und Systeme […]
Administration von Microsoft SharePoint, SQL-
Server Die Anforderungen: - ein erfolgreich
abgeschlossenes Studium der (Wirtschafts-)
Informatik oder eine vergleichbare Ausbildung und
Berufserfahrung - Erfahrungen in der Entwicklung
bzw. Anpassung von SharePoint Lösungen ab
Version 2010 - erste Entwicklungserfahrungen im
.NET Umfeld und JavaScript - Microsoft
Zertifizierungen […]
Gradient
Boosting
39
40
Boosting
Tree Ensembles - Liking Video Games?
41
Tianqi Chen, Carlos Guestrin: XGBoost: A Scalable Tree Boosting System, KDD16
Deriving the learning algorithm
42
Learning the leaf nodes
43
Applying a tree to an instance gives output:
-1
-1
Update equations
44
Structure of trees is learned greedily
Similar to information gain while utilizing gradients
*I left out regularization: If interested see paper
Experimental Setup
45
Linear Regression
XGBoost
* =
Features
46
Text
Account Manager
Microsoft Word, Java
Consultant, Nursing
The “Onion Plot”
47
Data/Code
48
49
Text
Search	indices	
XING
Sources	/	XING	services	
MySQL	
NoSQL	
live	
updates	
Batch	processing	
batch	
updates	
RecommenderRESTservice
XING	
Products	
Deployment Infrastructure
50
Text
Text
Search	indices	
XING
Sources	/	XING	services	
MySQL	
NoSQL	
live	
updates	
Batch	processing	
batch	
updates	
RecommenderRESTservice
XING	
Products	
Deployment Infrastructure
51
Text
Text
Hadoop Cluster
~40 Data Nodes
41	
power consumption map
52
Thanks

More Related Content

Similar to Data Science Algorithms @ Xing

Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“hpaustria
 
Webinar SAP/ABAP und Microsoft
Webinar  SAP/ABAP und MicrosoftWebinar  SAP/ABAP und Microsoft
Webinar SAP/ABAP und MicrosoftCadaxo GmbH
 
Solutiontogo webinar top 5 tricks und templates für die Planung mit MS Excel
Solutiontogo webinar top 5 tricks und templates für die Planung mit MS ExcelSolutiontogo webinar top 5 tricks und templates für die Planung mit MS Excel
Solutiontogo webinar top 5 tricks und templates für die Planung mit MS Excelsolutiontogo
 
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes KunzeSEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunzetakevalue Consulting GmbH
 
Architectures for .Net Core Applications
Architectures for .Net Core ApplicationsArchitectures for .Net Core Applications
Architectures for .Net Core ApplicationsRobin Sedlaczek
 
MASTERhora Stellenanzeigen
MASTERhora StellenanzeigenMASTERhora Stellenanzeigen
MASTERhora StellenanzeigenTremendousd
 
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...DevDay Dresden
 
The Best Business Software in Town - Wie agiles Requirements Engineering die ...
The Best Business Software in Town - Wie agiles Requirements Engineering die ...The Best Business Software in Town - Wie agiles Requirements Engineering die ...
The Best Business Software in Town - Wie agiles Requirements Engineering die ...Christopher Schulz
 
SaaS – Risiko oder Chance für Softwareanbieter?
SaaS – Risiko oder Chance für Softwareanbieter?SaaS – Risiko oder Chance für Softwareanbieter?
SaaS – Risiko oder Chance für Softwareanbieter?Uniserv
 
Jetzt DataLion noch besser nutzen
Jetzt DataLion noch besser nutzenJetzt DataLion noch besser nutzen
Jetzt DataLion noch besser nutzenDataLion
 
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -Falk Neubert
 
Vorschau zum Seminar "Strategisches Intranet-Projektmanagement" [DE]
Vorschau zum Seminar "Strategisches Intranet-Projektmanagement" [DE]Vorschau zum Seminar "Strategisches Intranet-Projektmanagement" [DE]
Vorschau zum Seminar "Strategisches Intranet-Projektmanagement" [DE]Stephan Schillerwein
 
Beyond Agile - when Freedom grows to Quality and Speed
Beyond Agile - when Freedom grows to Quality and SpeedBeyond Agile - when Freedom grows to Quality and Speed
Beyond Agile - when Freedom grows to Quality and SpeedSebastian Bernt
 
Objekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBsObjekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBsSebastian Dietrich
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesComsysto Reply GmbH
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Spark Summit
 
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019TechMeetups
 

Similar to Data Science Algorithms @ Xing (20)

Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“Kennst du einUnternehmen, dass erfolgreichdie QS outtasked hat?“
Kennst du ein Unternehmen, dass erfolgreich die QS outtasked hat?“
 
Webinar SAP/ABAP und Microsoft
Webinar  SAP/ABAP und MicrosoftWebinar  SAP/ABAP und Microsoft
Webinar SAP/ABAP und Microsoft
 
Solutiontogo webinar top 5 tricks und templates für die Planung mit MS Excel
Solutiontogo webinar top 5 tricks und templates für die Planung mit MS ExcelSolutiontogo webinar top 5 tricks und templates für die Planung mit MS Excel
Solutiontogo webinar top 5 tricks und templates für die Planung mit MS Excel
 
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes KunzeSEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
SEO Campixx 2015 | ETL & BI für SEO Analysen und Reportings von Johannes Kunze
 
Architectures for .Net Core Applications
Architectures for .Net Core ApplicationsArchitectures for .Net Core Applications
Architectures for .Net Core Applications
 
MASTERhora Stellenanzeigen
MASTERhora StellenanzeigenMASTERhora Stellenanzeigen
MASTERhora Stellenanzeigen
 
2010 09 29 13-30 michael gniffke
2010 09 29 13-30 michael gniffke2010 09 29 13-30 michael gniffke
2010 09 29 13-30 michael gniffke
 
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...
Dev Day 2019: Stephan Birnbaum – Die Glaskugel hat ausgedient, wir machen Sof...
 
The Best Business Software in Town - Wie agiles Requirements Engineering die ...
The Best Business Software in Town - Wie agiles Requirements Engineering die ...The Best Business Software in Town - Wie agiles Requirements Engineering die ...
The Best Business Software in Town - Wie agiles Requirements Engineering die ...
 
SaaS – Risiko oder Chance für Softwareanbieter?
SaaS – Risiko oder Chance für Softwareanbieter?SaaS – Risiko oder Chance für Softwareanbieter?
SaaS – Risiko oder Chance für Softwareanbieter?
 
Jetzt DataLion noch besser nutzen
Jetzt DataLion noch besser nutzenJetzt DataLion noch besser nutzen
Jetzt DataLion noch besser nutzen
 
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
Open-Source ERP und BI - Kriterien für ein effizientes Zusammenspiel -
 
Vorschau zum Seminar "Strategisches Intranet-Projektmanagement" [DE]
Vorschau zum Seminar "Strategisches Intranet-Projektmanagement" [DE]Vorschau zum Seminar "Strategisches Intranet-Projektmanagement" [DE]
Vorschau zum Seminar "Strategisches Intranet-Projektmanagement" [DE]
 
Beyond Agile - when Freedom grows to Quality and Speed
Beyond Agile - when Freedom grows to Quality and SpeedBeyond Agile - when Freedom grows to Quality and Speed
Beyond Agile - when Freedom grows to Quality and Speed
 
Objekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBsObjekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBs
 
Data lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid ArchitecturesData lake vs Data Warehouse: Hybrid Architectures
Data lake vs Data Warehouse: Hybrid Architectures
 
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
Clickstream Analysis with Spark—Understanding Visitors in Realtime by Josef A...
 
Jobs Life Softwareentwickler
Jobs Life SoftwareentwicklerJobs Life Softwareentwickler
Jobs Life Softwareentwickler
 
Microsoft Azure - Roadshow
Microsoft Azure - RoadshowMicrosoft Azure - Roadshow
Microsoft Azure - Roadshow
 
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019
Record Evolution exhibiting at Frankfurt Tech Job Fair Spring 2019
 

Data Science Algorithms @ Xing

  • 1. Minimizing The Rage One Step at a Time Daniel Kohlsdorf dkohl.org dkohlsdorf@gmail.com
  • 2. 2 1. [WS 07/08 - SS 11] Dipl. Inf Uni Bremen (Wearables / Gestures) 2. [12 - 15] PhD CS Georgia Tech (Dolphins) 3. [Now] Xing SE - Data Science About Me
  • 3. Outline 3 1. About Rage and Xing 2. Optimisation in General (Fast) 3. More Like This: Word2Vec (Informal) 4. Outlier Filtering: Gradient Boosted Trees 5. Data & Code: Infrastructure Xing Use Case and Engineering Methods We Use In General Please Interrupt me
  • 4. Title/Name/Place/Date (edit by "Insert > Header and Footer") 3 Social Network Communities Jobs Tools for Recruiters Events What does XING offer? Title/Name/Place/Date (edit by "Insert > Header and Footer") 3 Social Network Communities Jobs Tools for Recruiters Events What does XING offer? Title/Name/Place/Date (edit by "Insert > Header and Footer") 3 Social Network Communities Jobs Tools for Recruiters Events What does XING offer? Title/Name/Place/Date (edit by "Insert > Header and Footer") 3 Social Network Communities Jobs Tools for Recruiters Events What does XING offer?
  • 7. Recommendations on Start Page 7 Start Page Job recommendations
  • 8. Recommendations in the Jobs Market 8 Reco Page Job recommendations
  • 9. A sample job posting 9 Example Job recommendations Example: item (job posting) 5
  • 10. 10 Content Based Recommendations @Xing PROFILE POSTINGS
  • 11. 11 Content Based Recommendations @Xing PROFILE POSTINGS
  • 12. Key sources for understanding user demands 12 Social Network explicit and implicit connections Profile Fabian Abel Data Scientist Haves: Interests: web science big data, hadoop skills & co. Interactions data web social media clicks, shares, ratings big data kununu Interactions of similar users similar usershadoop scala
  • 14. Sources Of The Rage 14 1. Users are insulted by recommendations 2. Everything Matches except one field (Internship vs C-Level) 3. Matching …
  • 15. 15 Text Text Understanding the meaning of things that people write in job postings and in their profiles is not trivial…
  • 16. Job Recommendation Architecture What John writes… And what he means… Recruiter-John International Sales Manager Call Center Agent (10 EUR per hour) Sales Manager Sales Manager for B2B customers (80K EUR per year) Data Scientist skilled in Hadoop, Scala, Elasticsearch, … with PhD in … Data Analyst (skilled in SAS or Excel) 16
  • 17. 17 What Paul says he is… And what he means… Paul, the Candidate CEO Network Engineer (currently unemployed) BI Engineer (skilled in old-school ETL) Shopman (in a kiosk) Data Scientist with 100+ skills Sales Manager
  • 18. Approach 1: Filtering bad recommendations 18 1. Use feedback app 2. Rating prediction 3. Filter postings from recommendations with low rating
  • 19. Approach 2: More Like This 19 1. Use Bookmarks and Reply Intentions as strong positive feedback 2. Search semantically similar postings 3. Rescore recommendations based on similarity to bookmark
  • 21. Linear Regression - Short Recap 21 1. Text 2. Text 3. Text 4. Text 5. Text X1 Y • 1D Linear Regression • Learn Line from Data: • Model: • With Parameters: bias slope • 2D Linear Regression • Learn Plane from Data: • Model: • With Parameters:
  • 22. Linear Regression - Short Recap 22 input slope output X Y bias slope vectors
  • 23. Logistic Regression - Short Recap 23 y’ x 0 >= y <= 1 y’ y
  • 24. Learning Setup 24 • Probability for positive example • Probability for negative example • Short form • For dataset L (w,b) After Some Math: http://cs229.stanford.edu/notes/cs229-notes1.pdf
  • 27. Newton 27 Taylor Series Expansion http://mathworld.wolfram.com/TaylorSeries.html
  • 28. More on Optimisation and Derivatives 28
  • 30. Word Embeddings 30 Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Distributed Representations of Words and Phrases and their Compositionality"
  • 31. Word2Vec Model 31 1. Sliding Window over text 2. Predict center word
  • 32. Derivatives 32 LogisticRegression 1. Sums do not change the gradient but distribute it. 2. Weights of embeddings are updated equally 3. In other words, the error from the logistic regression is passed equally to the embeddings involved in the average.
  • 33. Gradient Flow In Word2Vec 33 1. Gradients from prediction attempt spread equally among words involved 2. Words in same prediction context become more similar
  • 34. Visualisation 34 Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft Gute Deutschkenntnisse in Wort und Schrift • Context: {Profil, Ihr, Ausbildung, Im} • Predict: Abgeschlossene • Measure Error • Update Context
  • 35. Visualisation 35 Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft Gute Deutschkenntnisse in Wort und Schrift • Context: {Profil, Bereich,Abgeschlossene, Im} • Predict: Ausbildung • Measure Error • Update Context
  • 36. Visualisation 36 Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft Gute Deutschkenntnisse in Wort und Schrift • Context: {Ausbildung, Informatik, Im, Oder} • Predict: Bereich • Measure Error • Update Context *I left out some subsampling details: see paper
  • 37. 37 Xing2Vec: Similar words with cosine similarity Kauffrau (Job) • Bürokauffrau • Hotelfachfrau • Bankkauffrau • Bürokaufmann Hamburg (Location) • Bremen • Berlin • Hannover • Kiel Volkswagen (Brand) • Opel • Audi • Volvo • Daimler
  • 38. Xing2Vec: Document Queries 38 […] nächstmöglichen Zeitpunkt eine/n IT Support Engineer (m/w) Datenbank- und Applikationsbetreuung. […] Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft Gute Deutschkenntnisse in Wort und Schrift […] IT - Systemmanager (m/w)Ihr Aufgabenfeld: - Management von Daten und Systeme […] Administration von Microsoft SharePoint, SQL- Server Die Anforderungen: - ein erfolgreich abgeschlossenes Studium der (Wirtschafts-) Informatik oder eine vergleichbare Ausbildung und Berufserfahrung - Erfahrungen in der Entwicklung bzw. Anpassung von SharePoint Lösungen ab Version 2010 - erste Entwicklungserfahrungen im .NET Umfeld und JavaScript - Microsoft Zertifizierungen […]
  • 41. Tree Ensembles - Liking Video Games? 41 Tianqi Chen, Carlos Guestrin: XGBoost: A Scalable Tree Boosting System, KDD16
  • 42. Deriving the learning algorithm 42
  • 43. Learning the leaf nodes 43 Applying a tree to an instance gives output: -1 -1
  • 44. Update equations 44 Structure of trees is learned greedily Similar to information gain while utilizing gradients *I left out regularization: If interested see paper
  • 51. 51 Text Text Hadoop Cluster ~40 Data Nodes 41 power consumption map