Mahout, Machine Learning pour Hadoop par Bertrand Dechoux
Upcoming SlideShare
Loading in...5
×
 

Mahout, Machine Learning pour Hadoop par Bertrand Dechoux

on

  • 1,751 views

Un introduction à Mahout, la première librairie de Machine Learning pour Hadoop.

Un introduction à Mahout, la première librairie de Machine Learning pour Hadoop.

Statistics

Views

Total Views
1,751
Views on SlideShare
1,735
Embed Views
16

Actions

Likes
2
Downloads
5
Comments
0

2 Embeds 16

https://twitter.com 12
http://localhost 4

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Mahout, Machine Learning pour Hadoop par Bertrand Dechoux Mahout, Machine Learning pour Hadoop par Bertrand Dechoux Presentation Transcript

  • Mahout machine learning pour Hadoop Bertrand Dechoux Mercredi 11 Decembre 2013
  • Réseaux Bayésiens Bertrand Dechoux @BertrandDechoux Certified trainer 2
  • L’écosystème : une menagerie ZooKeeper PIG Impala 3
  • Machine learning ? Pour Hadoop? 4
  • Le programme  Recommendation    user/item-based recommender Clustering   filtrage collaborative kmeans Classification  naive bayes network 5
  • Pas juste un algo       DevOps TDD A/B Testing Data cleansing Anonymisation Sécurité 6
  • Bachotage -> overfitting 7
  • 1 : Recommendation 8
  • Marketing 1.0 http://www.flickr.com/photos/mpk/4310357482/ 9
  • Marketing 2.0 10
  • Collaborative filtering Item 1 item 2 item 3 4 user 1 user 2 item 2 1 3 item 5 1 ... 4 2 ? item 4 4 user 3 user 4 1 user 5 5 user 6 1 4 5 ... 11
  • item-based / user-based calculer la similarité entre tous ▶ trouver le voisinage ▶ calculer les prediction ▶ 12
  • Aperçu de l’API DataModel dataModel = new FileDataModel(dataFile); UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(dataModel); UserNeighborhood neighborhood = new NearestNUserNeighborhood(n, userSimilarity, dataModel); UserBasedRecommender recommender = new GenericUserBasedRecommender(dataModel, neighborhood, userSimilarity); List<RecommendedItem> recommendedItems = recommender.recommend(1, 100); 13
  • Evaluation et Optimisation  différence entre prédiction et observation  comme un moteur de recherche  precision, recall ... 14
  • Hadoop, realité et matrices   recommendation : solution contre trop de choix il faut calculer O(n2) similaritées ??? 15
  • Hadoop, realité et matrices s11 s12 p1 X s21 s22 s11 x p1 + s12 x p2 = p2 s21 x p1 + s22 x p2 16
  • Hadoop, realité et matrices I1 I2 I3 I1 - 1 3 I2 1 - 2 I3 3 2 - User Score 5 X ? -> (1x5+2x3)/3 => 3.7 3 17
  • MAHOUT-1288 : recommendation = recherche 18
  • 2 : Clustering 19
  • Clustering : un regroupement    detection de caractères aperçu de news ... 20
  • Un monde en n dimensions      OLAP fichier excel, csv modèle entité-association (ERD) filtrage collaboratif ... 21
  • la base : k-means (Lloyd’s) http://en.wikipedia.org/wiki/K-means_clustering 22
  • preclustering : canopy https://cwiki.apache.org/confluence/display/MAHOUT/Canopy+Clustering 23
  • mahout 0.8 : kmeans amélioré  “Fast and Accurate k-means for Large Data Sets”   http://books.nips.cc/papers/files/nips24/NIPS2011_1271.pdf Scalable K-Means++  http://theory.stanford.edu/~sergei/papers/vldb12-kmpar.pdf  https://issues.apache.org/jira/browse/MAHOUT-1154  http://blog.cloudera.com/blog/2013/03/ cloudera_ml_data_science_tools/ 24
  • 3 : Classification 25
  • Classification le cousin ‘supervisé’ du Clustering      associer une lettre à un groupe de pixels filtre anti-spam detection de fraudes classification de tumeurs ... 26
  • Prenons du recul les modèles probabilistes  On veut connaitre : P( Monde )  Pour demander : P( interet | observation) 27
  • Réseau Bayésien : un framework 28
  • Naive Bayes Classifier 29
  • Evaluation : Matrice de confusion prediction : TRUE prediction : FALSE réalité : TRUE true positive false negative réalité : FALSE false positive true negative 30
  • Le tour est fini! = + Machine Learning =    Recommendation Clustering Classification 31
  • Merci ! 32
  • Et pour (vraiment) finir 33