TP1 Data science: manipulation d'une base de donnée
1. Compte rendue TP1 de Génie de connaissance Dép. de Maths
Sahar Ben Mabrouk MP MATIS 2 FSS 05/11/2020
But du TP :
• savoir charger et manipuler une base de données à partir du bibliothèque Scikits-learn et
pandas
• Créer une base de données et la manipuler
Introduction :
Ce TP nous allons avoir une idée générale sur les bibliothèques Pandas et Scikits-learn et leurs utilités dans la
machine Learning et les différents algorithmes d’apprentissage que ces deux librairies couvrent. On va
essayer d’exécuter le code pour charger et créer (load) une base de données , connaitre ces classes et ses
attributs et la manipuler
Manipulation du TP :
Des installations préalables : on doit installer les bibliothèques pandas et scikits-learn
I -Base de Données du cancer du sein
Maintenant on va charger la base de données du cancer du sein dans la variable ‘breast’ en
exécutant le code déjà existé dans la fiche de TP1 :
Visualiser son type avec commande ‘type()’
Visualiser les attributs de cette classe avec la commande ‘dir()’
La variable breast est de type class
On obtient une liste d’attributs (sous classes de
la classe) où chaque attribut est de type
spécifique
2. La liste des caractéristiques
On visualise Les informations
les noms des deux buts d’apprentissage ce sont deux classes ( deux types du cancer du sein)
On obtient Une liste de sous listes des
valeurs numériques
3. La description de la base de données
II- Lecture et manipulation base de données de type csv
on va crées un fichier csv et le remplir ,ligne par ligne, les notes et puis l’enregistrer dans un dossier
peut être traiter par anaconda
Le nombre d’échantillons malignes (classe 0) et bénigne (classe1)
Dans la description on trouve une liste des caractéristiques , de statistiques ,
nombres d’échantillons , l’auteur et d’autre informations
4. On exécute le code suivant qui sert à lire le contenu du fichier et d’afficher les données :
Maintenant on va reconstruire ce tableau dans le fichier csv vide ‘liste2.csv’
En python3, on peut effectuer la boucle for dans un tableau ,ou chaine de caractères ou une
liste c’est pour ça on a chargé les données du ‘liste1.csv’ dans la variable lecture (de type
csv.reader) et on a effectué un boucle for : en itérant ligne par ligne on va afficher sa
contenue et remplir la lise T par concaténation à la fin en utilisant ’ append()’
Chaque ligne de lecture est une liste, T est une liste
des listes
5. Et si on affiche le contenue du liste2.csv on trouve le même tableau
On peut ajouter une ligne au fichier liste1.csv
Maintenant on va calculer la moyenne, pour cela on construit la fonction moyenne qui prend en
variable d’entrée une liste et retourne un réel
Dans la variable moy de type liste on
va mettre juste les moyennes après
avoir les calculé par la fonction
moyenne dont la variable d’entrée est
‘l’ la liste des notes en chaque ligne
de T
On remarque que la ligne s’ajoute au
tableau Excel dans le fichier liste1.csv
6. dans ce code on affiche la colonne des moyennes et la liste T
après avoir crée un fichier csv vide nommé ‘liste3’ et le fermé on exécute ce code
La colonne des moyennes s’y ajoute