Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Mamadou Aguibou DIALLO - STATA

2,351 views

Published on

Intervention de Mamadou Aguibou Diallo dans le cadre du cycle de rencontres 2017-2018 autour du traitement et de l’analyse de données quantitatives en SHS à l'Université de Bretagne Occidentale (UFR Lettres et Sciences Humaines) à Brest.

Published in: Data & Analytics
  • Be the first to comment

Mamadou Aguibou DIALLO - STATA

  1. 1. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 1 sur 16 SUPPORT DE FORMATION POUR STATA (version 13) 1 INTRODUCTION AU LOGICIEL STATA Stata est un logiciel de traitement et d’analyse statistique et économétrique, développé par Stata Corporation. Il fonctionne globalement avec des lignes de commande (le langage « ado- file ») saisies (différent de SPSS, pareil que SAS). Le recours aux lignes de commande a des avantages. -On peut facilement reproduire l’affichage des résultats ou le traitement des données en suivant la procédure de commande (notamment dans le do file).Or avec un logiciel à interface, il n'y a pas de trace de quels clics ont été faits. -le logiciel s'enrichit en permanence. Il est possible de créer une commande en utilisant plusieurs autres sur internet https://www.stata.com/ . Or, les interfaces sont figées et ne changent qu'à la parution de nouvelles versions. -Enfin il couvre la quasi-totalité des domaines des statistiques et de l'économétrie abordés dans différentes sciences comme l'économie, la santé, l'épidémiologie. Dans ce document, nous allons apprendre à utiliser des commandes STATA pour : Créer une base de données avec des variables, Traiter et gérer des variables Afficher les résultats sous format graphique ou tabulaire Procéder à des tests statistiques 1.1 Fichiers et répertoires Le logiciel STATA utilise plusieurs types de fichiers nommés d’après leurs extensions (.dta .do .ado .gph) : -Fichier .dta : ce sont des fichiers de données au format Stata. -Fichier .do : fichiers de commandes, au format texte. Ils permettent à l’utilisateur de lancer plusieurs commandes Stata en une seule opération et de garder une trace des commandes -Fichier .ado : fichier de programmes, définissant une ou plusieurs commandes. Ces fichiers sont au format texte ; -Fichier.gph enregistré en format Stata contient les graphiques.
  2. 2. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 2 sur 16 1.2 Présentation de l'interface Stata Le logiciel STATA se présente sous la forme de 4 fenêtres. - La fenêtre Command où vous tapez les commandes STATA, - La fenêtre Results où les résultats STATA sont présentés, - La fenêtre Review où les commandes précédentes sont présentées, - La fenêtre Variables qui liste toutes les variables présentes dans la base de données en cours d’utilisation1 . 1.3 L'éditeur de Do-Files L'éditeur de dofile est un fichier assimilable à un brouillon sur lequel on lance et manipule les commandes. Il est souvent recommandé quand on veut pouvoir reproduire son analyse autant de fois qu'on le souhaite Il permet entre autres, de : -Editer et de copier-coller les commandes. -Ajouter des annotations en fin de ligne comme des commentaires2 en faisant précéder la ligne de "*" ou en terminant une commande par " //" - Créer des macros - Générer des variables qui ne vont exister que le temps du programme 1.4 Le Data Editor Le data editor permet d'afficher le contenu d'un fichier de données et de le modifier directement à l'écran (non recommandé). Il permet aussi de copier-coller les données provenant d'un tableur Excel par exemple. Le data editor peut soit être appelé par la commande edit, soit appelé en cliquant sur son icone3 . 1 Attention ! STATA ne peut ouvrir qu’une seule base de données en même temps 2 Un commentaire est simplement affiché dans la fenêtre de résultats, sans que Stata cherche à l'exécuter. 3 En haut à droite se trouvent la liste des variables présentes dans le fichier. On coche/décoche les variables que l'on souhaite (ou non) avoir à l'écran. Au milieu à droite se trouve un éditeur des propriétés des variables. On peut modifier ici directement le label de variable, son type, son format d'affichage, ses étiquettes de valeurs.
  3. 3. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 3 sur 16 2 LA SYNTAXE DE BASE DES COMMANDES ET LES OPERATEURS STATA De façon générale, toutes les commandes Stata4 sont appelées selon une syntaxe uniforme. Une fois que l’on connaît la forme générale, on sait alors comment appeler toute commande. 2.1 Organisation générale de la syntaxe 5 La forme générale de la syntaxe dans STATA est la suivante6 : command [varlist] [if expr] [in range] [weight] [, options] command est le nom (ou l’abréviation) d’un programme Stata conçu pour remplir une tâche spécifique varlist est une liste de nom de variables (ou de leurs abréviations) séparés par des espaces ; if exp restreint l’exécution de la commande aux observations satisfaisant aux conditions énoncées in range restreint l’exécution de la commande aux observations contenues dans une plage spécifique options modifient les paramètres par défaut d’une commande et sont habituellement propres à chaque commande. 2.2 Quelques éléments de langage : les opérateurs et les expressions Les opérateurs et les expressions sont fondamentales lors de l’affichage des variables, des résultats mais aussi au moment du traitement des données. 2.2.1 Les opérateurs sous STATA Les opérateurs permettent de retrouver des informations ayant certaines caractéristiques et de créer ainsi des sous bases de données à partir de la base de données générale. Ils permettent aussi de procéder à des résultats sous conditions. On distingue souvent les opérateurs de relation, les opérations logiques et les opérations arithmétiques7 . 4 NOTE : La syntaxe Stata est économe : toute commande peut être autant abrégée que possible, i.e.que cela ne crée aucune ambiguïté. Ainsi, summarize peut s’abréger indifféremment en summari, sum ou su. On ne peut pas l’abréger en s, car il y aurait alors confusion possible avec une autre commande, sort. 5 Les arguments encadrés par des crochets sont facultatifs et ne sont pas utilisés avec toutes les commandes. Plus précisément : 6 Par convention, la paire de crochets [ ] dénote le caractère optionnel de la commande qu’elle comporte. Les mots clefs sont en gras. Dans la ligne de syntaxe, à part la commande command qui est obligatoire, tout le reste est optionnel. 7 L’ordre de préséance des opérateurs est comme suit : !, ^, -(négation), /,*,-,+,!=,>,<,<=,>= ,==, & et |. Pour des opérateurs de préséance égale, l’expression est évaluée de gauche à droite
  4. 4. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 4 sur 16 Arithmetic Logical Relational + Addition & And > Greater Than - Subtraction | Or < Less Than * Multiplication ! Not >= Greater Than or Equal / Division ~ Not <= Less Than or Equal ^ Power == Equal - Negation != Not Equal + String Concatenation ~= Not Equal 2.2.2 Les expressions sous STATA : les fondamentales : by, if et in By, if et in sont des trois expressions très sollicitées en analyse de données avec STATA. Elles peuvent s’utiliser avec la majorité des commandes et on peut les combiner les unes avec les autres.  by permet d’appliquer une commande à chaque valeur (ou modalité) d’une variable. La syntaxe de cette expression est8 : by variable : commande variable. On peut utiliser sort avant le by, ou pour classer et effectuer le by en même temps, bysort. Exemple : bysort Genre : summarize salaire Cette commande permet d’obtenir le salaire moyen des femmes et des hommes.  if permet de n’appliquer la commande qu’aux observations remplissant une condition. La Syntaxe : commande variable if condition. Exemple 1: summarize salaire if (Age ==18) Exemple 2: summarize salaire if Age==18 | Age>20 & Age<=25 Cet exemple de commande donne les statistiques descriptives de la variable salaire pour les observations dont la variable âge est égale à 18 (remarquer le double signe =, il s’agit d’un test) ou comprise entre 20 (exclu) et 50 (inclus)9 .  in permet de n’appliquer la commande qu’aux observations se situant dans un intervalle donné. La syntaxe est la suivante : commande variable in condition. Exemple : summarize salaire in 10/14 donne les statistiques descriptives de la variable salaire pour les observations de la 10ème à la 14ème ligne de la base de données. 8 Après by il faut utiliser deux points avant de préciser la commande 9 L’opérateur & est prioritaire, les parenthèses sont inutiles ici.
  5. 5. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 5 sur 16 3 LECTURE DES DONNEES ET CREATION DE FICHIERS 3.1 Lire un fichier de données Pour lire un fichier on peut utiliser la commande use. En effet use permet d’ouvrir une table au format STATA. -soit la table entière. Exemple 1 : use auto.dta clear10 -soit quelques variables de cette table. Exemple 2: use sexe age using auto.dta -soit quelques observations de cette table: Exemple 3 : use auto.dta if Genre== “homme” clear -soit la combinaison des deux: Exemple 4: use sexe age using auto.dta if sexe== “homme” 3.2 Création d’un fichier de données Stata11 Pour entrer des données dans Stata, il existe plusieurs moyens, à utiliser en fonction de la nature des données : – Si il n’y a que quelques données à rentrer, on peut utiliser la commande input : input str20 ville age str6 sexe taille ancienneté salaire "Brest" 17 homme 160 10 1500 "Dakar" 17 femme 175 15 "Ziguinchor" 20 homme 180 20 1500 end On peut également saisir directement les données dans le Data Editor (edit), comme on ferait avec Excel. – Si l’utilisateur dispose déjà d’une base de données au format Stata (.dta), nommée par exemple base.dta, use base.dta on procède à l’ouverture de cette base 10 L’option clear permet de vider les données en mémoire avant l’ouverture d’un nouveau fichier 11 Stata ne peut gérer qu’une seule base de données à la fois. Avant d’en ouvrir une, il convient donc de fermer celle qui est actuellement utilisée (clear).
  6. 6. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 6 sur 16 3.3 Importation d’un fichier de données externes Stata peut lire les fichiers externes Excel12 , ASCII délimités, créés par un tableur ou un gestionnaire de base de données (séparateur de variables différent de l'espace)13 . Menu File   , cliquer sur "Browse" et sélectionner le fichier qui se trouve dans votre répertoire de travail. Ne pas oublier de cocher si votre fichier de données contient les entêtes de colonnes. La 1ère ligne du fichier doit contenir les noms de variables. Si ce n'est pas le cas, il faut rajouter l'option "noname" lors de l'importation. 3.4 Copier-coller des données depuis Excel Si vous travaillez sur de petits fichiers, il est possible de copier-coller les données directement depuis Excel14 . 3.5 Exportation et sauvegarde des données Plusieurs formats de sauvegarde des données sont possibles. On peut tout simplement sauver des données dans le format de Stata (save mabase.dta), pour utilisation future. On peut également exporter des données pour les utiliser ensuite avec un tableur ou un autre logiciel, grâce à l’onglet file….export….data to xls ….on laisse la case de variables vide… on donne un nom au fichier à exporter… submit…ok 12 Attention ; Stata ne reconnait pas les virgules. Donc pour les nombreux décimaux changer la virgule par un point avant d’importer le fichier. Les données manquantes sont des cases vides a faire sur Excel 13 Des données propres sont des données organisées avec une ligne par observation, les variables en colonne, les chaînes de caractères identifiées par des guillemets et les séparateurs tous identiques (virgule ou tabulation. Pas d’espace !). 14 Ouvrez sous Excel le fichier Sélectionner les colonnes et copier leur contenu (avec les entêtes de colonnes). Sous stata, tapez clear pour fermer votre fichier de données (si vous en aviez un d'affiché à l'écran).Cliquez sur le bouton "Data editor". Coller. Fermer le data éditor. Enregistrez le fichier
  7. 7. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 7 sur 16 4 Création et gestion d’une base de données sous STATA Les variables sous Stata peuvent être numériques ou alphanumériques. Les variables numériques peuvent être de différents types selon la précision nécessaire. Les variables alphanumériques sont des chaînes de caractères quelconques (string, str), d’une longueur maximale de 244 caractères15 . Les variables peuvent prendre plusieurs noms selon leurs caractéristiques : byte ; int ;long ; float ; double ; str. 4.1 Créer des variables et des modalités Pour créer de nouvelles variables, deux commandes existent : generate et egenerate generate permet de créer des variables qui nécessitent des calculs « simples » egenerate (extended generate) s’impose lorsque les calculs se complexifient un peu ou que l’utilisation de fonctions statistiques spécifiques est nécessaire. Exemples d’utilisation de generate : La syntaxe générale de cette commande est : generate [type] newvar = expr [if expr] [in range  gen x = 12. Crée une constante nommée x, qui vaut 12.  gen var=. Crée une variable avec des cases vides16 :  gen x = "Bonsoir". x est une chaîne de caractères, égale à « Bonjour » pour toutes les observations.  gen x = (sexe=="Homme"). x est égale à 1 si la variable sexe contient la chaîne de caractère « Homme », zéro sinon.  gen x = salaire[4]. x est une constante, égale au contenu de la 4ème observation pour la variable salaire.  generate var3=var1+var2 pour créer une variable combinant l’addition de deux variables 15 Stata gère les noms longs, mais pour des raisons pratiques ou de compatibilité avec d’autres logiciels, ll faut privilégier les noms courts pour variables. De plus le logiciel fait une différence entre un nom en majuscule et en minuscule qu’il considère comme deux noms distincts/ 16 Pour remplir les cases vides on peut utiliser des commandes replace avec les conditions
  8. 8. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 8 sur 16  generate var4=5*var1 pour une variable qui est la multiplication de deux variables  generate double price2 = price * price  generate taille= recode (nb,0,5 ;10 ;15) regroupe le nombre de salariés nb en 4 classes : 0 ;entre 1 et 5 inclus ; entre 6 et 10 inclus ; et 11 et plus. La variable taille ainsi crééeaura les modalités 0, 5 et 15.  Egen taillegr=cut (taille),groupe (5)decoupela variable taille en 5 groupes homogenes de point de vue des frequences.  Egen taillegr=cut (taille) at (5,10,15) crée deux groupes à partir de la variabletaille, l’un codé 5(de 5 à moins de 9), et l’autre 10 (de 10 à moins de 15). 4.2 Gestion et manipulations des variables 4.2.1 Les labels sous STATA : label var, label define, label value Stata affiche les données selon leur nature Les variables numériques s'affichent en noir, Les variables numériques avec label sur les valeurs s'affichent en bleu, Les variables de nature texte s'affichent en rouge. La commande Label var + variable permet d’affecter un label à une variable Exemple label var var6 poids Label define Label définie permet de définir un label pour les modalités d’une variable Exemple : label define oui non 1 ‘’oui’’ 0 ‘’non’’ définit le codage ouinon Label define lab_sexe 1 ‘’Homme’’ 2 ‘’ Femme’’ définit le codage sexe Label value La commande label value permet d’affecter le préalablement défini à la variable désirée Exemple : label value genre lab_sexe affecte à la variable genre le label lab_sexe
  9. 9. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 9 sur 16 4.2.2 Changer le nom d’une variable STATA permet de renommer une variable Exemple : rename sexe genre On peut aussi changer le nom de plusieurs variables en utilisant des parenthèses pour spécifier les multiples variables anciennes et nouvelles variables. rename (v1 v2) (v2 v1) Echange le nom de v1 pour v2 et v2 pour v1. 4.2.3 Changer le format d’une variable Pour transformer une chaîne en variable numérique, on utilise la commande destring variable, options. Parmi les options, gen(var) ou replace. destring [varlist] , {generate(newvarlist)|replace} [destring_options] Pour convertir des variables numériques en variables textes tostring varlist , {generate(newvarlist)|replace} [tostring_options] La première option crée une nouvelle variable, nommée var contenant la transformation demandée, la seconde écrase au contraire la variable chaîne pour la remplacer par sa transformation. 4.2.4 Recoder une variable Encode permet de convertir une variable chaine en numérique en créant une autre variable Exemple : encode SEXE, gen(GENRE) On peut aussi recoder en regroupant les informations Recode (2 3=4) (6 7=5, generate (zone 2) regroupe les modalités d’une variable numérique avec un recodage permettant d’avoir un regroupement en 4 pour les modalités 2 et 3 et en 5 pour les modalités 6 et 7. L’option generate permet de créer une nouvelle variable recodée renommée zone 2 ? Pour recoder les valeurs manquantes de toutes les variables en 999, on utilise : mvrecode_all, mv(999). Par ailleurs, on peut utiliser replace pour regrouper des modalités Replace zone=4 if zone==2 | zone== 3 permet de regrouper les modalités 2 et 3 en 4 de la variable zone
  10. 10. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 10 sur 16 4.3 Traitement de données ou de variables Lors du traitement des données, il arrive que l’on souhaite supprimer, garder ou restaurer des données supprimées ; STATA permet de réaliser ces opérations à travers les commandes, drop, keep, restore, …. 4.3.1 Supprimer une variable ou des observations Pour supprimer une variable on utilise la commande drop Exemple : drop salaire drop x. Supprime la variable x. drop _all. Supprime toutes les variables drop in 5 supprime l’observation 5 drop in 10/50 supprime les observations 10 à 50 drop in 15/-2 supprime les observations de la ligne 15 jusqu’à l’avant dernière ligne drop if sexe==1 supprime les observations pour lesquelles la variable sexe égal à 1 4.3.1.1 Garder des variables ou des observations Keep qui est le pendant de drop ne garde que les observations désirées. Il s’utilise comme drop. Exemple Keep age keep x. Conserve la variable x, supprime toutes les autres. On peut utiliser cette commande par lot en utilisant by Exemple: by sexe : keep if-n==1 On ne conservera qu’une observation (la première) pour chaque modalité de la variable sexe 4.3.1.2 Restaurer une variable Il est utile parfois de restaurer une variable supprimée par erreur afin de garder une information dans la base de données. Pour restaurer, il faut écrire restore Exemple ; preserve drop var10 restore. Attention ! Avant de supprimer il faut écrire d’abord preserve drop var et exécuter ensuite. Cela permet d’effacer la ou les variables ciblées.
  11. 11. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 11 sur 16 4.3.1.3 Modification de variables existantes : Pour remplacer des valeurs (ou manquants) par des valeurs d’une variable on utilise la commande replace Exemple : replace AGE = age Exemple : replace AGE = 1 if AGE==20 & AGE!=. 4.3.2 Gestion des données manquantes : Pour des variables numériques, les cellules vides seront considérées comme des infinis positifs Pour des variables en texte, les cellules vides sont considérées comme les valeurs les plus faibles Ainsi, si on trie par une variable ayant des valeurs manquantes, celles-ci seront donc triées en début du fichier si cette variable est de nature texte, en fin de fichier si elle est de nature numérique. 4.3.3 Décrire le fichier, en avoir un aperçu Une fois saisies dans la base de données, on souhaite découvrir les données, les parcourir, les explorer ou les décrire. Les commandes suivantes permettent de faciliter le travail. 4.3.3.1 Les commandes d’affichage Edit La commande Edit permet d’ouvrir la base de données STATA et de modifier les modalités - edit + nom de la variable ou edit + condition : édition de la variable ou des individus répondant aux critères de sélection. Browse Pour voir simplement les données, on peut utiliser la commande browse: browse[varlist] [if exp] [in range] Si on veut voir une partie des données selon une variable browse if salaire==1500 montre les données selon que le salaire est égal à 1500
  12. 12. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 12 sur 16 4.3.3.2 Commandes descriptives Il existe plusieurs manières d’examiner une base de données dans STATA en ayant un aperçu rapide du contenu des variables, telles que : inspect describe, list, codebook, count, list et summarize. inspect Cette commande renseigne sur le nombre de valeurs négatives, nulles, positives, uniques ou manquantes des variables numériques et produit aussi un petit histogramme codebook Permet de décrire le contenu des variables codebook [varlist] [if] [in] [, options] Important car permet de voir l'existence de valeurs manquantes + les caractéristiques de la variable codebook * : donne des informations sur tout le fichier count permet d’obtenir quelques chiffres rapides count [if] [in] describe La commande describe produit un résumé du contenu d’une base de données (nombre d’observations et de variables, description des variables : nom, type, format, labels). describe using filename (décrit une base de données STATA) Il est possible aussi de décrire seulement une partie des variables d’une base de données, en spécifiant describe varlist (décrit un groupe de variables) Exemple 1 : describe var1-var10 (décrit toutes les variables entre var1 et var10) Exemple 2 : describe var* (décrit toutes les variables dont le nom commence par var) list Pour afficher une liste d’observations affichant la valeur des variables, on pourra utiliser cette commande list Dans le cas où aucune variable n’est précisée (varlist) toutes les variables seront affichées Exemple 1 : list age in 3 (liste la valeur de âge pour la 3e observation) Exemple 2 : list age in 1/100 (liste la valeur de age pour les observations de 1 jusqu’à 100)
  13. 13. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 13 sur 16 5 TABLES, GRAPHIQUES ET STATISTIQUES AVEC STATA 5.1 Tableaux plats et tableaux croisés -Tabulate ou Tab La commande tabulate est très utilisée et produit des tableaux de fréquences simples ou croisés. Pour les tableaux simples, on a la commande tabulate var ; Tab1 tab2 permet de créer des séries de tableaux de fréquences simples ou croisés en spécifiant une liste de variables. Exemple : Tab1 sexe age secteur Une telle commande réalise trois tableaux successifs sur chacune des variables Exemple : tab2 sexe age secteur Cette commande crée toutes les combinaisons possibles de tableaux croisés (3 tableaux dans notre exemple) entre les variables spécifiés dans la liste ? Aussi, pour un tableau croisé il faut utiliser la commande : tabulate var1 var2. NOTE : Par défaut, "tabulate var1 var2" donne les fréquences (nombre d’observations) dans chaque cellule, mais il est possible et très pratique d’utiliser cette commande pour obtenir des pourcentages, avec les options cell (% par cellule), col (% par colonne) ou row (% par lignes). Pour n’avoir que des pourcentages, ajouter l’option nofreq Aussi, la commande Tabulate sexe stage, row col : donne un tableau croisé avec des pourcentages en lignes et en colonnes. - Par ailleurs, la commande tabulate est adaptée à la description de variables dichotomiques ou catégorielles, mais peut aussi être utilisée pour résumer des variables continues par catégorie.
  14. 14. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 14 sur 16 Aussi, en ajoutant à "tabulate var1 [var2]" l’option summarize (var3), on obtient un tableau croisé contenant la moyenne de la variable ‘var3’ dans chaque cellule, ainsi que son écart-type et le nombre d’observations : Exemple : tabulate var, summarize(var3) On peut souhaiter faire ou ne pas faire apparaitre les données manquantes. Dans ce cas, STATA suggère d’utiliser les commandes suivantes. Tabulate sexe, nolabel : fournit un tableau simple sans le label afin de conserver le codage Tabulate sexe, missing : donne un tableau simple mais en faisant apparaitre les valeurs manquantes. 5.2 Statistiques descriptives et inférentielles STATA est un logiciel qui permet certes d’organiser, de traiter et d’afficher les données, mais c’est aussi, un outil pour calculer des statistiques descriptives et différentielles. 5.2.1 Statistiques descriptives Pour commencer, on peut continuer avec la commande tabulate qui permet d’afficher quelques statistiques usuelles. Par exemple : tabulate sexe, sum (salaire) : fournit la moyenne et l’écart-type du salaire selon le sexe Pour n’avoir que les moyennes, ajouter les options nof (pas de fréquences) et nost (pas d’écarts-type). Mean et Means On peut utiliser aussi les commandes mean et mean pour avoir la moyenne d’une variable. Toutefois, mean ne donne que la moyenne arithmétique tandis que means estime les moyennes géométriques, harmoniques, … ainsi que les intervalles de confiance respectifs. Exemple 1: tabulate var1 var2, summarize(var3) nof nost
  15. 15. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 15 sur 16 summarize, tabstat et collapse Par ailleurs, les commandes summarize, tabstat et collapse sont très utiles pour afficher des statistiques. summarize variable permet d’obtenir les statistiques descriptives usuelles. L’option détail permet d’en avoir plus. La commande tabstat variable permet de faire presque la même chose que summarize, mais permet plus de flexibilité pour faire un tableau de statistiques. collapse permet de créer une base de données contenant les statistiques descriptives d’une autre. Exemple : collapse (mean) age educ (median)revenu, by(pays) calcule les âges et niveaux d’éducation nationaux moyens et les revenus nationaux médians et ne conserve que ces moyennes dans la base de données. 5.2.2 Statistiques inférentielles Corrélation Pour effectuer une corrélation entre des variables quantitatives on appelle la commande pwcorr Exemple 1 : pwcorr variable1 variable2 donne la matrice de corrélations entre les variables. Exemple 2 : pwcorr variable1 variable2 variable3 permet d’obtenir les coefficients de corrélation partielle entre les variables prises deux à deux. L’option sig permet d’obtenir le résultat du test de nullité du coefficient de corrélation. En outre, corr variable1 variable2, cov permet d’obtenir la matrice des variance-covariances. Tests sur la moyenne, la variance et la distribution des variables ttest permet de comparer les moyennes de deux variables Exemple 1 : ttest salaire, by(sexe), pour tester la significativité de la différence de salaire entre hommes et femmes. Exemple 2 : ttest salaire=1000 pour savoir si la moyenne des salaires est égale à 1 000 euros. Exemple 3 : sdtest permet de comparer les variances de deux variables. sdtest salaire, by sexe.
  16. 16. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018 Page 16 sur 16 5.3 Les graphiques avec STATA 5.3.1 Les graphiques avec une seule variable La création de graphiques avec Stata n’est pas toujours simple, en particulier lorsqu’on souhaite que les graphiques soient « présentables »: – Pour obtenir un graphique circulaire (un « camembert »), graph pie salaire bonus prime avantages_nature. – Pour un diagramme en bâtons (ne pas le confondre avec un histogramme...) : graph bar salaire, over(sexe, descend gap(-20)) over(pays). Pour des bâtons verticaux : graph hbar. 5.3.2 Les graphiques avec une deux variables Pour tous les graphiques (X,Y), la commande débute par twoway suivi du type de graphique X,Y souhaité. Parmi les principaux types : – tw histogram variable, options génère un histogramme17 . – tw scatter variable_ordonnee variable_abscisse, options permet d’obtenir un nuage de points. – tw line variable_ordonnee variable_abscisse, options permet d’obtenir un graphique avec des points reliés par une ligne. – tw area variable_ordonnee variable_abscisse, options crée un graphique avec une ligne reliant les points (x,y) et une aire colorée entre la ligne et l’axe des abscisses. 17 L’option normal ajoute à l’histogramme une loi normale

×