The document describes the creation of an algorithm to detect counterfeit banknotes. Various analyses of the dataset are presented, including descriptive analyses, principal component analysis, K-means clustering, and logistic regression modeling. The dataset contains geometric data from 170 banknotes labeled as genuine or counterfeit. Analyses show the data can differentiate between the two classes and a logistic regression model is able to accurately predict whether unseen banknotes are genuine or counterfeit, demonstrating the effectiveness of the detection algorithm.
Anticiper les besoins en consommation d'énergie de SeattleFUMERY Michael
Projet de Machine Learning, data analysis, EDA et modélisation pour prédiction des consommations d'énergie de la ville de Seattle. Formation Ingénieur Machine Learning
La Data peut-elle améliorer la sécurité routière.FUMERY Michael
Présentation du projet "Réaliser un projet libre à caractère social" du parcours Data Analyst. Analyse de l'accidentologie Française et prédiction de l'évolution et de la gravité des accidents.
Anticiper les besoins en consommation d'énergie de SeattleFUMERY Michael
Projet de Machine Learning, data analysis, EDA et modélisation pour prédiction des consommations d'énergie de la ville de Seattle. Formation Ingénieur Machine Learning
La Data peut-elle améliorer la sécurité routière.FUMERY Michael
Présentation du projet "Réaliser un projet libre à caractère social" du parcours Data Analyst. Analyse de l'accidentologie Française et prédiction de l'évolution et de la gravité des accidents.
Prospective anomaly detection methods such as the Modified EARS C2 are commonly adapted and used in public health syndromic surveillance systems. These methods however can produce an excessive false alert rate. We present a combined use of retrospective (e.g., Change Point Analysis (or CPA)) and prospective (e.g., C2) anomaly detection methods. This combined approach will help detect sudden aberrations in addition to subtle changes in local trends, help rule out alarm investigations, and assist with retrospective follow-ups. Examples on the utility of this combined approach in working collaboratively with the scientific community are applied to BioSense emergency departments' visits due to ILI. Methods, limitations, future work, and invitation to the scientific community to collaborate with us will be discussed at this talk.
NLP - Prédictions de tags sur les questions StackoverflowFUMERY Michael
Présentation des techniques de NLP, Bag of words, TFIDF, modélisations supervisées et non-supervisées pour prédiction des tags automatiques sur les questions Stackoverflow
Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...Bang Xiang Yong
Presented at MET4FOF Workshop, JULY 2020
I talk about our recent work of combining Bayesian Deep learning with Explainable Artificial Intelligence (XAI) methods. In particular, we look at Bayesian Autoencoders.
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...Sri Ambati
Abstract:
Explainability in the age of the EU GDPR is becoming an increasingly pertinent consideration for Machine Learning. At QuantumBlack, we address the traditional Accuracy vs. Interpretability trade-off, by leveraging modern XAI techniques such as LIME and SHAP, to enable individualised explanations without necessary limiting the utility and performance of the otherwise ‘black-box’ models. The talk focuses on Shapley additive explanations (Lundberg et al. 2017) that integrate Shapley values from the Game Theory for consistent and locally accurate explanations; provides illustrative examples and touches upon the wider XAI theory.
Bio:
Dr Torgyn Shaikhina is a Data Scientist at QuantumBlack, STEM Ambassador, and the founder of the Next Generation Programmers outreach initiative. Her background is in decision support systems for Healthcare and Biomedical Engineering with a focus on Machine Learning with limited information.
Join us for this 30-minute webinar to hear from Zach Blumenfeld, Neo4j’s Data Science Specialist, to learn the basics of Graph Neural Networks (GNNs) and how they can help you to improve predictions in your data.
Automated Hyperparameter Tuning, Scaling and TrackingDatabricks
Automated Machine Learning (AutoML) has received significant interest recently. We believe that the right automation would bring significant value and dramatically shorten time-to-value for data science teams. Databricks is automating the Data Science and Machine Learning process through a combination of product offerings, partnerships, and custom solutions. This talk will focus on how Databricks can help automate hyperparameter tuning.
For both traditional Machine Learning and modern Deep Learning, tuning hyperparameters can dramatically increase model performance and improve training times. However, tuning can be a complex and expensive process. In this talk, we'll start with a brief survey of the most popular techniques for hyperparameter tuning (e.g., grid search, random search, and Bayesian optimization). We will then discuss open source tools that implement each of these techniques, helping to automate the search over hyperparameters.
Finally, we will discuss and demo improvements we built for these tools in Databricks, including integration with MLflow:
Apache PySpark MLlib integration with MLflow for automatically tracking tuning
Hyperopt integration with Apache Spark to distribute tuning and with MLflow for automatic tracking
Recording and notebooks will be provided after the webinar so that you can practice at your own pace.
Presenters
Joseph Bradley, Software Engineer, Databricks
Joseph Bradley is a Software Engineer and Apache Spark PMC member working on Machine Learning at Databricks. Previously, he was a postdoc at UC Berkeley after receiving his Ph.D. in Machine Learning from Carnegie Mellon in 2013.
Yifan Cao, Senior Product Manager, Databricks
Yifan Cao is a Senior Product Manager at Databricks. His product area spans ML/DL algorithms and Databricks Runtime for Machine Learning. Prior to Databricks, Yifan worked on two Machine Learning products, applying NLP to find metadata and applying machine learning to predict equipment failures. He helped build the products from ground up to multi-million dollars in ARR. Yifan started his career as a researcher in quantum computing. Yifan received his B.S in UC Berkeley and Master from MIT.
How to transform and select variables/features when creating a predictive model using machine learning. To see the source code visit https://github.com/Davisy/Feature-Engineering-and-Feature-Selection
Smarter Fraud Detection With Graph Data ScienceNeo4j
Join us for this 20-minute webinar to hear from Nick Johnson, Product Marketing Manager for Graph Data Science, to learn the basics of Neo4j Graph Data Science and how it can help you to identify fraudulent activities faster.
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
A Review of Deep Contextualized Word Representations (Peters+, 2018)Shuntaro Yada
A brief review of the paper:
Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. In NAACL-HLT (pp. 2227–2237)
Dagster - DataOps and MLOps for Machine Learning Engineers.pdfHong Ong
In this session, we will introduce Dagster, a cutting-edge framework that simplifies DataOps and MLOps for machine learning engineers. We will explore the benefits of this powerful tool, learn how to implement it in your machine learning workflows, and discuss practical use cases to help you enhance productivity, collaboration, and deployment of ML models.
Prospective anomaly detection methods such as the Modified EARS C2 are commonly adapted and used in public health syndromic surveillance systems. These methods however can produce an excessive false alert rate. We present a combined use of retrospective (e.g., Change Point Analysis (or CPA)) and prospective (e.g., C2) anomaly detection methods. This combined approach will help detect sudden aberrations in addition to subtle changes in local trends, help rule out alarm investigations, and assist with retrospective follow-ups. Examples on the utility of this combined approach in working collaboratively with the scientific community are applied to BioSense emergency departments' visits due to ILI. Methods, limitations, future work, and invitation to the scientific community to collaborate with us will be discussed at this talk.
NLP - Prédictions de tags sur les questions StackoverflowFUMERY Michael
Présentation des techniques de NLP, Bag of words, TFIDF, modélisations supervisées et non-supervisées pour prédiction des tags automatiques sur les questions Stackoverflow
Uncertainty Quantification with Unsupervised Deep learning and Multi Agent Sy...Bang Xiang Yong
Presented at MET4FOF Workshop, JULY 2020
I talk about our recent work of combining Bayesian Deep learning with Explainable Artificial Intelligence (XAI) methods. In particular, we look at Bayesian Autoencoders.
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Achieving Algorithmic Transparency with Shapley Additive Explanations (H2O Lo...Sri Ambati
Abstract:
Explainability in the age of the EU GDPR is becoming an increasingly pertinent consideration for Machine Learning. At QuantumBlack, we address the traditional Accuracy vs. Interpretability trade-off, by leveraging modern XAI techniques such as LIME and SHAP, to enable individualised explanations without necessary limiting the utility and performance of the otherwise ‘black-box’ models. The talk focuses on Shapley additive explanations (Lundberg et al. 2017) that integrate Shapley values from the Game Theory for consistent and locally accurate explanations; provides illustrative examples and touches upon the wider XAI theory.
Bio:
Dr Torgyn Shaikhina is a Data Scientist at QuantumBlack, STEM Ambassador, and the founder of the Next Generation Programmers outreach initiative. Her background is in decision support systems for Healthcare and Biomedical Engineering with a focus on Machine Learning with limited information.
Join us for this 30-minute webinar to hear from Zach Blumenfeld, Neo4j’s Data Science Specialist, to learn the basics of Graph Neural Networks (GNNs) and how they can help you to improve predictions in your data.
Automated Hyperparameter Tuning, Scaling and TrackingDatabricks
Automated Machine Learning (AutoML) has received significant interest recently. We believe that the right automation would bring significant value and dramatically shorten time-to-value for data science teams. Databricks is automating the Data Science and Machine Learning process through a combination of product offerings, partnerships, and custom solutions. This talk will focus on how Databricks can help automate hyperparameter tuning.
For both traditional Machine Learning and modern Deep Learning, tuning hyperparameters can dramatically increase model performance and improve training times. However, tuning can be a complex and expensive process. In this talk, we'll start with a brief survey of the most popular techniques for hyperparameter tuning (e.g., grid search, random search, and Bayesian optimization). We will then discuss open source tools that implement each of these techniques, helping to automate the search over hyperparameters.
Finally, we will discuss and demo improvements we built for these tools in Databricks, including integration with MLflow:
Apache PySpark MLlib integration with MLflow for automatically tracking tuning
Hyperopt integration with Apache Spark to distribute tuning and with MLflow for automatic tracking
Recording and notebooks will be provided after the webinar so that you can practice at your own pace.
Presenters
Joseph Bradley, Software Engineer, Databricks
Joseph Bradley is a Software Engineer and Apache Spark PMC member working on Machine Learning at Databricks. Previously, he was a postdoc at UC Berkeley after receiving his Ph.D. in Machine Learning from Carnegie Mellon in 2013.
Yifan Cao, Senior Product Manager, Databricks
Yifan Cao is a Senior Product Manager at Databricks. His product area spans ML/DL algorithms and Databricks Runtime for Machine Learning. Prior to Databricks, Yifan worked on two Machine Learning products, applying NLP to find metadata and applying machine learning to predict equipment failures. He helped build the products from ground up to multi-million dollars in ARR. Yifan started his career as a researcher in quantum computing. Yifan received his B.S in UC Berkeley and Master from MIT.
How to transform and select variables/features when creating a predictive model using machine learning. To see the source code visit https://github.com/Davisy/Feature-Engineering-and-Feature-Selection
Smarter Fraud Detection With Graph Data ScienceNeo4j
Join us for this 20-minute webinar to hear from Nick Johnson, Product Marketing Manager for Graph Data Science, to learn the basics of Neo4j Graph Data Science and how it can help you to identify fraudulent activities faster.
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
A Review of Deep Contextualized Word Representations (Peters+, 2018)Shuntaro Yada
A brief review of the paper:
Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. In NAACL-HLT (pp. 2227–2237)
Dagster - DataOps and MLOps for Machine Learning Engineers.pdfHong Ong
In this session, we will introduce Dagster, a cutting-edge framework that simplifies DataOps and MLOps for machine learning engineers. We will explore the benefits of this powerful tool, learn how to implement it in your machine learning workflows, and discuss practical use cases to help you enhance productivity, collaboration, and deployment of ML models.
Jiawei Han, Micheline Kamber and Jian Pei
Data Mining: Concepts and Techniques, 3rd ed.
The Morgan Kaufmann Series in Data Management Systems
Morgan Kaufmann Publishers, July 2011. ISBN 978-0123814791
Getting to Know Your Data Some sources from where you can access datasets for...AkshayRF
Data sets are made up of data objects.
A data object represents an entity.
Examples:
sales database: customers, store items, sales
medical database: patients, treatments
university database: students, professors, courses
Also called samples , examples, instances, data points, objects, tuples.
Data objects are described by attributes.
Database rows -> data objects; columns ->attributes.
Isotonic Regression is a statistical technique of fitting a free-form line to a sequence of observations such that the fitted line is non-decreasing (or non-increasing) everywhere, and lies as close to the observations as possible. Isotonic Regression is limited to predicting numeric output so the dependent variable must be numeric in nature…
For More :
https://www.facebook.com/Computer-Programming-Assignments-826290177441561/
-
https://www.facebook.com/A-Tech-and-Software-Development-1683037138630673/
Data Mining: Concepts and Techniques — Chapter 2 —Salah Amean
the presentation contains the following :
-Data Objects and Attribute Types.
-Basic Statistical Descriptions of Data.
-Data Visualization.
-Measuring Data Similarity and Dissimilarity.
-Summary.
Welcome to TechSoup New Member Orientation and Q&A (May 2024).pdfTechSoup
In this webinar you will learn how your organization can access TechSoup's wide variety of product discount and donation programs. From hardware to software, we'll give you a tour of the tools available to help your nonprofit with productivity, collaboration, financial management, donor tracking, security, and more.
Model Attribute Check Company Auto PropertyCeline George
In Odoo, the multi-company feature allows you to manage multiple companies within a single Odoo database instance. Each company can have its own configurations while still sharing common resources such as products, customers, and suppliers.
June 3, 2024 Anti-Semitism Letter Sent to MIT President Kornbluth and MIT Cor...Levi Shapiro
Letter from the Congress of the United States regarding Anti-Semitism sent June 3rd to MIT President Sally Kornbluth, MIT Corp Chair, Mark Gorenberg
Dear Dr. Kornbluth and Mr. Gorenberg,
The US House of Representatives is deeply concerned by ongoing and pervasive acts of antisemitic
harassment and intimidation at the Massachusetts Institute of Technology (MIT). Failing to act decisively to ensure a safe learning environment for all students would be a grave dereliction of your responsibilities as President of MIT and Chair of the MIT Corporation.
This Congress will not stand idly by and allow an environment hostile to Jewish students to persist. The House believes that your institution is in violation of Title VI of the Civil Rights Act, and the inability or
unwillingness to rectify this violation through action requires accountability.
Postsecondary education is a unique opportunity for students to learn and have their ideas and beliefs challenged. However, universities receiving hundreds of millions of federal funds annually have denied
students that opportunity and have been hijacked to become venues for the promotion of terrorism, antisemitic harassment and intimidation, unlawful encampments, and in some cases, assaults and riots.
The House of Representatives will not countenance the use of federal funds to indoctrinate students into hateful, antisemitic, anti-American supporters of terrorism. Investigations into campus antisemitism by the Committee on Education and the Workforce and the Committee on Ways and Means have been expanded into a Congress-wide probe across all relevant jurisdictions to address this national crisis. The undersigned Committees will conduct oversight into the use of federal funds at MIT and its learning environment under authorities granted to each Committee.
• The Committee on Education and the Workforce has been investigating your institution since December 7, 2023. The Committee has broad jurisdiction over postsecondary education, including its compliance with Title VI of the Civil Rights Act, campus safety concerns over disruptions to the learning environment, and the awarding of federal student aid under the Higher Education Act.
• The Committee on Oversight and Accountability is investigating the sources of funding and other support flowing to groups espousing pro-Hamas propaganda and engaged in antisemitic harassment and intimidation of students. The Committee on Oversight and Accountability is the principal oversight committee of the US House of Representatives and has broad authority to investigate “any matter” at “any time” under House Rule X.
• The Committee on Ways and Means has been investigating several universities since November 15, 2023, when the Committee held a hearing entitled From Ivory Towers to Dark Corners: Investigating the Nexus Between Antisemitism, Tax-Exempt Universities, and Terror Financing. The Committee followed the hearing with letters to those institutions on January 10, 202
Biological screening of herbal drugs: Introduction and Need for
Phyto-Pharmacological Screening, New Strategies for evaluating
Natural Products, In vitro evaluation techniques for Antioxidants, Antimicrobial and Anticancer drugs. In vivo evaluation techniques
for Anti-inflammatory, Antiulcer, Anticancer, Wound healing, Antidiabetic, Hepatoprotective, Cardio protective, Diuretics and
Antifertility, Toxicity studies as per OECD guidelines
Read| The latest issue of The Challenger is here! We are thrilled to announce that our school paper has qualified for the NATIONAL SCHOOLS PRESS CONFERENCE (NSPC) 2024. Thank you for your unwavering support and trust. Dive into the stories that made us stand out!
Safalta Digital marketing institute in Noida, provide complete applications that encompass a huge range of virtual advertising and marketing additives, which includes search engine optimization, virtual communication advertising, pay-per-click on marketing, content material advertising, internet analytics, and greater. These university courses are designed for students who possess a comprehensive understanding of virtual marketing strategies and attributes.Safalta Digital Marketing Institute in Noida is a first choice for young individuals or students who are looking to start their careers in the field of digital advertising. The institute gives specialized courses designed and certification.
for beginners, providing thorough training in areas such as SEO, digital communication marketing, and PPC training in Noida. After finishing the program, students receive the certifications recognised by top different universitie, setting a strong foundation for a successful career in digital marketing.
Synthetic Fiber Construction in lab .pptxPavel ( NSTU)
Synthetic fiber production is a fascinating and complex field that blends chemistry, engineering, and environmental science. By understanding these aspects, students can gain a comprehensive view of synthetic fiber production, its impact on society and the environment, and the potential for future innovations. Synthetic fibers play a crucial role in modern society, impacting various aspects of daily life, industry, and the environment. ynthetic fibers are integral to modern life, offering a range of benefits from cost-effectiveness and versatility to innovative applications and performance characteristics. While they pose environmental challenges, ongoing research and development aim to create more sustainable and eco-friendly alternatives. Understanding the importance of synthetic fibers helps in appreciating their role in the economy, industry, and daily life, while also emphasizing the need for sustainable practices and innovation.
Introduction to AI for Nonprofits with Tapp NetworkTechSoup
Dive into the world of AI! Experts Jon Hill and Tareq Monaur will guide you through AI's role in enhancing nonprofit websites and basic marketing strategies, making it easy to understand and apply.
How libraries can support authors with open access requirements for UKRI fund...
Détectez des faux billets
1. Création d’un algorithme de
détection de faux billets
M i s s i o n d u m i n i s t è r e d e l ' I n t é r i e u r , d a n s l e
c a d r e d e l a l u t t e c o n t r e l a c r i m i n a l i t é
o r g a n i s é e , à l ' O f f i c e c e n t r a l p o u r l a
r é p r e s s i o n d u f a u x m o n n a y a g e
2. Contexte & méthode
Prop oser u n algorith me d e d étec tion d e fau x
b illets entrain é avec d es d on n ées fou rn ies.
• Analyse descriptive du dataset ;
• Analyse en composantes principales (ACP) ;
• Analyse de classification par Kmeans ;
• Détails de la modélisation de données ;
• Test de l’algorithme.
2
4. Données géométriques des billets
Les données fournies par le client regroupent les données
géométriques de 170 billets, qu’ils soient « vrai » ou « faux ».
Le fichier CSV a été importé dans Python via la librairie Pandas afin
de créer un dataframe pour faciliter les analyses.
Lexique des variables :
• length : la longueur du billet (en mm) ;
• height_left : la hauteur du billet (mesurée
sur le côté gauche, en mm) ;
• height_right : La hauteur du
billet (mesurée sur le côté droit, en mm) ;
• margin_up : la marge entre le bord
supérieur du billet et l'image de celui-ci (en
mm) ;
• margin_low : la marge entre le bord
inférieur du billet et l'image de celui-ci (en
mm) ;
• diagonal : la diagonale du billet (en mm) ;
• is_genuine : Indication si le billet est
vrai (True) ou faux (False).
4
5. Description des données
Le fichier source ne comporte pas de données aberrantes (Les max, min et écarts types sont cohérents) et pas
de données manquantes ou Null.
Nous allons pouvoir passer à l’analyse univariée du dataset.
5
6. Répartition vrais / faux billets
6
Vrais billets
59%
Faux billets
41%
Sur les 170 billets 41,2% sont faux et 58,8% sont
authentiques.
Cette répartition nous offre une base intéressante
pour un clustering ou encore une méthode de
classification supervisée.
10. Test de Kolmogorov-Smirnov
Pour vérifier l’adéquation à la loi normale (gaussienne), au
niveau de test 5% :
Les Pvalues obtenues permettent de rejeter en effet cette
adéquation sur les variables :
• Length
• margin_low
10
11. Analyses bivariés : Corrélations linéaires
Quelques fortes corrélations linéaires :
• height_right / height_left avec 𝓻 = 𝟎, 𝟕𝟑 ;
• height_right / margin_low avec 𝓻 = 𝟎, 𝟓𝟏 ;
• margin_low / Length avec 𝓻 = − 𝟎, 𝟔𝟒 ;
• margin_up / Length avec 𝓻 = − 𝟎, 𝟓𝟐
11
Is_genuine :
La variable vrai / faux
billet semble être très
corrélée avec
• Length
• Margin_low
12. Pairplots sur les variables 2 à 2
12
En réalisant ces pairplots avec la séparation de
couleurs entre vrais et faux billets, on
remarque bien 2 groupes distincts pour
chacune des variables, qui permettent
certainement de différencier les billets falsifiés
Scatterplot height_right / height_left
15. Boxplots en fonction de is_genuine
15
Si les variances sur ces variables restent relativement similaires entre les vrais et
faux billets, on constate là encore que les faux billets ont des valeurs médianes
assez différentes des vrais billets.
16. FR
Pour résumer …
La d esc ription d es d on n ées n ou s in d iq u e
• Que le dataset est sain, pas de valeurs
aberrantes ni de valeurs manquantes.
• Que la répartition vrais / faux billets est
relativement équitable.
• Que les corrélations sembles bien
établies.
• Que les distributions des variables en
fonction de is_genuine semblent
montrer des différences marquées.
16
17. ACP du dataset
A n alyses en comp osantes
p rin c ip ales ou exp loration
statistiq u e d es d on n ées.
18. Préparation des données
A fin d e réaliser u n e ACP p erformante, il est
n éc essaire d e b ien p rép arer les d on n ées :
• Standardisation des données par centrage et réduction ;
• Calculer les coordonnées factorielles ;
• Calculer les variances expliquées et de leurs proportions ;
• …
18
19. Eboulis des valeurs propres
Définir le nombre d’axes
d’analyse :
Afin de définir les axes principaux à
analyser, l’éboulis des valeurs propres
a été réalisé.
On remarque que sur les 2 premiers
axes (F1 et F2), l’inertie cumulée est
de 69,40 %.
Une analyse sur ces 2 premiers axes
est donc cohérente et suffisante.
19
20. Variables : Cercle des corrélations
Représentation des corrélations des variables
Les variables sont bien représentées, proches su
cercle, et les corrélerions (cosinus de l’angle entre
les vecteurs) sont bien visualisables.
• Length / Height et Margin sont très corrélés à la
composante principale F1
• Diagonal est très corrélé à la composante F2 et
quasi orthogonale à Length.
On remarque également que le vecteur
représentant is_genuine (variable vrai / faux billet)
est très corrélée à length.
20
21. COS² : Qualité de représentation des variables
Heatmap de la qualité de
représentation des variables :
Un COS² élevé indique une bonne
représentation de la variable sur les axes
principaux en considération.
• Diagonal est parfaitement représenté
sur la composante F2.
• Les autres variables sur l’axe F1 à
quasi égalité (sauf margin_up)
21
22. CTR : Contribution des variables aux axes
Heatmap de contribution des
variables aux axes principaux :
• Diagonal est donc une variable très
importante pour expliquer l’axe 2.
• Les autres variables sur l’axe F1 et F2
ont une répartition plutôt égalitaire
de leurs contributions.
22
23. Individus : Projection dans le 1er plan factoriel
Projection des individus. Nuage de
points sur les variables synthétiques
F1 et F2
Nous avons vu que les 2 variables synthétiques
représentaient concrètement les 6 variables du
dataset.
• Coloration des individus en fonction de
la variable illustrative is_genuine
• 2 nuages distincts si le billet est vrai ou
faux.
• Ajout des centroïdes de classes.
• Quelques outliers pour les vrais billets.
23
24. COS² : Qualité de représentation des individus
Taille des points en fonction du
COS² sur F1 :
On remarque ici que les individus
autour des centroïdes ont une
meilleure qualité de représentation
sur F1.
24
25. COS² : Qualité de représentation des individus
Taille des points en fonction du
COS² sur F2 :
Ce scatterplot quant à lui représente le
COS² sur F2. Les individus
représentatifs y sont moins nombreux.
25
26. CTR : Contribution des individus aux axes
Calculs de contribution des
individus aux axes principaux :
• En calculant les CTR sur les axes F1 et
F2, on remarque qu’il n’y a pas
d’individus fortement contributeurs.
• A noter que l’individu 0 semble se
démarquer plus que les autres sur
l’axe F2.
26
27. FR
Pour résumer l’ACP
L’an alyse en comp osantes p rin c ip ales in d iq u e
• Qu’une analyse sur le premier plan
factoriel est cohérente.
• F2 représente très bien la variable
diagonal, F1 toutes les autres.
• Qu’il n’y a pas d’individus
surcontributeurs.
• Que les 2 nuages de points en fonction
de la variable is_genuine sont bien
identifiés.
27
29. Méthode des silhouettes : Le meilleur K
Déterminer le meilleur nombre de
clusters pour le Kmeans
• En toute logique, 2 clusters semblent
être la meilleure option pour notre
Kmeans.
• Comme nous souhaitons une
réponse binaire « vrai » / « faux »,
nous allons sélectionner 2 K
29
30. Application de l’algorithme Kmeans
Kmeans sur les données centrées
réduites :
• Une fois que l’algorithme a convergé,
que les centroïdes calculés ne
bougent plus, on place le résultat du
clustering dans le dataframe initial.
• Puis on compare les résultats
obtenus avec la variable is_genuine.
30
31. Comparaison cluster Kmeans / is_genuine
Environ 5% de marge d’erreur pour
la classification :
• Quelques vrais billets sont considérés
comme faux par l’algorithme
Kmeans.
• Nous les visualiserons sur le premier
plan factoriel.
31
32. Projection Kmeans sur le 1er plan factoriel
Une projection quasi identique à
l’ACP :
• On remarque que la répartition des
clusters calculés est fidèle à la
projection de l’ACP
• Les individus marquants des
différences is_genuine / kmeans sont
ici identifiés par un rectangle rouge.
Ils sont proches de la séparation
(quelques outliers sur les vrais billets
également)
32
33. FR
Synthèse du Kmeans
La c lassification au tomatiq u e n ou s in d iq u e
• Que la classification par Kmeans est
fidèle à 95% aux données réelles.
• Les divergences concernent surtout
des vrais billets identifiés comme
faux car leurs géométrie est un peu
hors norme.
33
35. Préparation des données
A fin d e réaliser la rég ression log istiq u e, il est
n éc essaire d e p rép arer les d on n ées :
• La variable cible « is_genuine » a été transformée en
variable numérique (True = 0, False = 1) ;
• Subdivision du jeu de données :
• 80% des données pour l’entrainement, soit 136 individus
• 20% pour la partie test, soit 34 individus
35
36. 2 librairies Python testées
Pou r obten ir les meilleu res p réd ic tion s, n ou s
avon s testé 2 lib rairies P y th on :
• Statsmodels avec sa fonction Logit() ;
• Scikit-learn avec LogisticRegression().
36
37. Statsmodels Logit()
Quelques warnings pour cette
régression logistique :
• En analysant les Pvalues on
remarque que les variables ne
peuvent pas être considérées comme
significatives.
• La séparation semble trop parfaite
pour le modèle ce qui restreint le
nombre de paramètres identifiés.
37
38. Scikit-learn LogisticRegression()
Des prédictions plus précises avec le
modèle Scikit-learn :
• Les probabilités vrai (0) / faux (1) sont
calculées et stockées dans un array.
• Nous allons à présent comparer les
résultats obtenus des 2 méthodes et
tester la variable cible is_genuine.
38
39. Comparaison des résultats des 2 méthodes
Les 2 librairies nous fournissent des
résultats concluants sur les données
test :
• Les probabilités prédites par Scikit sont
plus précises.
• Les 2 algorithmes fournissent des
résultats vrai / faux correctes.
• Les points de divergences identifiés
avec le Kmeans sont correctement
prédits (individu 5, 144 …)
39
Pour la suite de la modélisation, nous
conservons Scikit-learn.
40. Analyse du Logit : Matrice de confusion
Pas de faux positifs ni de faux négatifs
pour cette régression logistique :
• Les chiffres sur la diagonale indiquent
les éléments bien classés, à savoir les
vrais positifs et vrais négatifs.
• Le prédictions du modèle semblent être
particulièrement fiable sur les données
test utilisées.
40
41. Distribution des probabilités obtenues
Une frontière fixée à 50% pour
déterminer les vrais / faux
billets :
• Plus l’aire commune aux deux
distributions est petite, plus le
modèle est confiant. Cette aire
commune est reliée à la
courbe ROC.
• Ici, nous remarquons qu’il n’y a
aucune aire commune.
41
42. Courbe de ROC sur le Logit
Une courbe qui représente bien
l’absence de faux positifs et faux
négatifs :
• La mesure AUC est l’aire sous la courbe.
Elle représente la probabilité que le
score d’un exemple classé faux à raison
soit inférieur à un exemple classé faux
à tort.
• Ici, comme nous le constatons, l’AUC
est égal à 1.
42
43. Précision et rappel de la régression
En calculant ces metrics sur la variable
is_genuine test et la variable prédite :
• Précision et rappel (recall) sont égaaux
à 100%. Pas de faux positifs ni de faux
négatifs, ce qui est logique.
• La métrique F1, qui est la moyenne
harmonique de precision et recall est
donc elle aussi égale à 100%.
• Le modèle peut donc être considéré
comme parfait.
43
44. FR
Synthèse du Logit
Notre mod èle d e rég ression log istiq u e :
• Le modèle de régression logistique
avec Scikit-learn est fiable sur nos
données test.
• Le modèle est confiant et précis
avec les données fournies.
• Nous allons utiliser cet algorithme
pour développer notre programme
de prédiction.
44
45. Test du modèle sur des données inconnues
Nous testons l’algorithme de
régression logistique sur des données
qu’il n’a jamais vu :
• Après avoir importé les données, on
applique la fonction de prédiction de
Sklearn, sur le modèle développé.
• Puis nous récupérons les probabilité de
la classe « faux billet ».
45
46. Test du modèle sur des données inconnues
Calcul de la variable is_genuine :
• Si la probabilité que le billet soit dans la
classe « faux » calculée est supérieure à
50%, alors le billet est considéré faux.
• On affiche le tout dans un dataframe
pour plus de clarté.
46
47. Test du modèle sur des données inconnues
• Le dataframe final regroupe l’ID du billet testé, la probabilité calculée ainsi qu’une précision sur son authenticité.
• Après vérification, ces classes prédites sont bien exactes, notre modèle de régression logistique peut être utilisé.
47
48. FR
Utilisation de l’algorithme de prédiction
Avec P y th on sou s Ju py ter N oteb ook : P6 _0 4 _p rog _test.ipy n b
Service concurrentiel
48
1. Exécutez le notebook en entier,
2. Sélectionnez le fichier à tester,
3. Retrouvez les résultats en fin de notebook.
49. Merci de votre attention.
Michael FUMERY
06.59.20.65.39
mika.fumery@gmail.com