Intervention de Mamadou Aguibou Diallo dans le cadre du cycle de rencontres 2017-2018 autour du traitement et de l’analyse de données quantitatives en SHS à l'Université de Bretagne Occidentale (UFR Lettres et Sciences Humaines) à Brest.
1. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 1 sur 16
SUPPORT DE FORMATION POUR STATA
(version 13)
1 INTRODUCTION AU LOGICIEL STATA
Stata est un logiciel de traitement et d’analyse statistique et économétrique, développé par
Stata Corporation. Il fonctionne globalement avec des lignes de commande (le langage « ado-
file ») saisies (différent de SPSS, pareil que SAS).
Le recours aux lignes de commande a des avantages.
-On peut facilement reproduire l’affichage des résultats ou le traitement des données en
suivant la procédure de commande (notamment dans le do file).Or avec un logiciel à
interface, il n'y a pas de trace de quels clics ont été faits.
-le logiciel s'enrichit en permanence. Il est possible de créer une commande en utilisant
plusieurs autres sur internet https://www.stata.com/ . Or, les interfaces sont figées et ne
changent qu'à la parution de nouvelles versions.
-Enfin il couvre la quasi-totalité des domaines des statistiques et de l'économétrie abordés
dans différentes sciences comme l'économie, la santé, l'épidémiologie.
Dans ce document, nous allons apprendre à utiliser des commandes STATA pour :
Créer une base de données avec des variables,
Traiter et gérer des variables
Afficher les résultats sous format graphique ou tabulaire
Procéder à des tests statistiques
1.1 Fichiers et répertoires
Le logiciel STATA utilise plusieurs types de fichiers nommés d’après leurs extensions (.dta
.do .ado .gph) :
-Fichier .dta : ce sont des fichiers de données au format Stata.
-Fichier .do : fichiers de commandes, au format texte. Ils permettent à l’utilisateur de lancer
plusieurs commandes Stata en une seule opération et de garder une trace des commandes
-Fichier .ado : fichier de programmes, définissant une ou plusieurs commandes. Ces fichiers
sont au format texte ;
-Fichier.gph enregistré en format Stata contient les graphiques.
2. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 2 sur 16
1.2 Présentation de l'interface Stata
Le logiciel STATA se présente sous la forme de 4 fenêtres.
- La fenêtre Command où vous tapez les commandes STATA,
- La fenêtre Results où les résultats STATA sont présentés,
- La fenêtre Review où les commandes précédentes sont présentées,
- La fenêtre Variables qui liste toutes les variables présentes dans la base de données
en cours d’utilisation1
.
1.3 L'éditeur de Do-Files
L'éditeur de dofile est un fichier assimilable à un brouillon sur lequel on lance et manipule les
commandes. Il est souvent recommandé quand on veut pouvoir reproduire son analyse autant
de fois qu'on le souhaite Il permet entre autres, de :
-Editer et de copier-coller les commandes.
-Ajouter des annotations en fin de ligne comme des commentaires2
en faisant précéder la
ligne de "*" ou en terminant une commande par " //"
- Créer des macros
- Générer des variables qui ne vont exister que le temps du programme
1.4 Le Data Editor
Le data editor permet d'afficher le contenu d'un fichier de données et de le modifier
directement à l'écran (non recommandé). Il permet aussi de copier-coller les données
provenant d'un tableur Excel par exemple. Le data editor peut soit être appelé par la
commande edit, soit appelé en cliquant sur son icone3
.
1
Attention ! STATA ne peut ouvrir qu’une seule base de données en même temps
2
Un commentaire est simplement affiché dans la fenêtre de résultats, sans que Stata cherche à l'exécuter.
3
En haut à droite se trouvent la liste des variables présentes dans le fichier. On coche/décoche les variables que
l'on souhaite (ou non) avoir à l'écran. Au milieu à droite se trouve un éditeur des propriétés des variables. On peut
modifier ici directement le label de variable, son type, son format d'affichage, ses étiquettes de valeurs.
3. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 3 sur 16
2 LA SYNTAXE DE BASE DES COMMANDES ET LES OPERATEURS STATA
De façon générale, toutes les commandes Stata4
sont appelées selon une syntaxe uniforme.
Une fois que l’on connaît la forme générale, on sait alors comment appeler toute commande.
2.1 Organisation générale de la syntaxe 5
La forme générale de la syntaxe dans STATA est la suivante6
:
command [varlist] [if expr] [in range] [weight] [, options]
command est le nom (ou l’abréviation) d’un programme Stata conçu pour remplir une tâche
spécifique
varlist est une liste de nom de variables (ou de leurs abréviations) séparés par des espaces ;
if exp restreint l’exécution de la commande aux observations satisfaisant aux conditions
énoncées
in range restreint l’exécution de la commande aux observations contenues dans une plage
spécifique
options modifient les paramètres par défaut d’une commande et sont habituellement propres à
chaque commande.
2.2 Quelques éléments de langage : les opérateurs et les expressions
Les opérateurs et les expressions sont fondamentales lors de l’affichage des variables, des
résultats mais aussi au moment du traitement des données.
2.2.1 Les opérateurs sous STATA
Les opérateurs permettent de retrouver des informations ayant certaines caractéristiques et de
créer ainsi des sous bases de données à partir de la base de données générale. Ils permettent
aussi de procéder à des résultats sous conditions. On distingue souvent les opérateurs de
relation, les opérations logiques et les opérations arithmétiques7
.
4
NOTE : La syntaxe Stata est économe : toute commande peut être autant abrégée que possible, i.e.que cela ne
crée aucune ambiguïté. Ainsi, summarize peut s’abréger indifféremment en summari, sum ou su. On ne peut pas
l’abréger en s, car il y aurait alors confusion possible avec une autre commande, sort.
5
Les arguments encadrés par des crochets sont facultatifs et ne sont pas utilisés avec toutes les commandes. Plus
précisément :
6
Par convention, la paire de crochets [ ] dénote le caractère optionnel de la commande qu’elle comporte. Les mots
clefs sont en gras. Dans la ligne de syntaxe, à part la commande command qui est obligatoire, tout le reste est
optionnel.
7
L’ordre de préséance des opérateurs est comme suit : !, ^, -(négation), /,*,-,+,!=,>,<,<=,>= ,==, & et |. Pour des
opérateurs de préséance égale, l’expression est évaluée de gauche à droite
4. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 4 sur 16
Arithmetic Logical Relational
+ Addition & And > Greater Than
- Subtraction | Or < Less Than
* Multiplication ! Not >= Greater Than or Equal
/ Division ~ Not <= Less Than or Equal
^ Power == Equal
- Negation != Not Equal
+ String Concatenation ~= Not Equal
2.2.2 Les expressions sous STATA : les fondamentales : by, if et in
By, if et in sont des trois expressions très sollicitées en analyse de données avec STATA.
Elles peuvent s’utiliser avec la majorité des commandes et on peut les combiner les unes avec
les autres.
by permet d’appliquer une commande à chaque valeur (ou modalité) d’une variable.
La syntaxe de cette expression est8
: by variable : commande variable.
On peut utiliser sort avant le by, ou pour classer et effectuer le by en même temps, bysort.
Exemple : bysort Genre : summarize salaire
Cette commande permet d’obtenir le salaire moyen des femmes et des hommes.
if permet de n’appliquer la commande qu’aux observations remplissant une condition.
La Syntaxe : commande variable if condition.
Exemple 1: summarize salaire if (Age ==18)
Exemple 2: summarize salaire if Age==18 | Age>20 & Age<=25
Cet exemple de commande donne les statistiques descriptives de la variable salaire pour les
observations dont la variable âge est égale à 18 (remarquer le double signe =, il s’agit d’un
test) ou comprise entre 20 (exclu) et 50 (inclus)9
.
in permet de n’appliquer la commande qu’aux observations se situant dans un
intervalle donné.
La syntaxe est la suivante : commande variable in condition.
Exemple : summarize salaire in 10/14 donne les statistiques descriptives de la variable
salaire pour les observations de la 10ème à la 14ème ligne de la base de données.
8
Après by il faut utiliser deux points avant de préciser la commande
9
L’opérateur & est prioritaire, les parenthèses sont inutiles ici.
5. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 5 sur 16
3 LECTURE DES DONNEES ET CREATION DE FICHIERS
3.1 Lire un fichier de données
Pour lire un fichier on peut utiliser la commande use. En effet use permet d’ouvrir une table
au format STATA.
-soit la table entière.
Exemple 1 : use auto.dta clear10
-soit quelques variables de cette table.
Exemple 2: use sexe age using auto.dta
-soit quelques observations de cette table:
Exemple 3 : use auto.dta if Genre== “homme” clear
-soit la combinaison des deux:
Exemple 4: use sexe age using auto.dta if sexe== “homme”
3.2 Création d’un fichier de données Stata11
Pour entrer des données dans Stata,
il existe plusieurs moyens, à utiliser en fonction de la nature des données :
– Si il n’y a que quelques données à rentrer, on peut utiliser la commande input :
input str20 ville age str6 sexe taille ancienneté salaire
"Brest" 17 homme 160 10 1500
"Dakar" 17 femme 175 15
"Ziguinchor" 20 homme 180 20 1500
end
On peut également saisir directement les données dans le Data Editor (edit), comme on
ferait avec Excel.
– Si l’utilisateur dispose déjà d’une base de données au format Stata (.dta), nommée par
exemple base.dta, use base.dta on procède à l’ouverture de cette base
10
L’option clear permet de vider les données en mémoire avant l’ouverture d’un nouveau fichier
11
Stata ne peut gérer qu’une seule base de données à la fois. Avant d’en ouvrir une, il convient
donc de fermer celle qui est actuellement utilisée (clear).
6. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 6 sur 16
3.3 Importation d’un fichier de données externes
Stata peut lire les fichiers externes Excel12
, ASCII délimités, créés par un tableur ou un
gestionnaire de base de données (séparateur de variables différent de l'espace)13
.
Menu File , cliquer sur "Browse" et sélectionner le fichier
qui se trouve dans votre répertoire de travail. Ne pas oublier de cocher si votre fichier de
données contient les entêtes de colonnes.
La 1ère ligne du fichier doit contenir les noms de variables. Si ce n'est pas le cas, il faut
rajouter l'option "noname" lors de l'importation.
3.4 Copier-coller des données depuis Excel
Si vous travaillez sur de petits fichiers, il est possible de copier-coller les données directement
depuis Excel14
.
3.5 Exportation et sauvegarde des données
Plusieurs formats de sauvegarde des données sont possibles. On peut tout simplement sauver
des données dans le format de Stata (save mabase.dta), pour utilisation future.
On peut également exporter des données pour les utiliser ensuite avec un tableur ou un autre
logiciel, grâce à l’onglet file….export….data to xls ….on laisse la case de variables vide… on
donne un nom au fichier à exporter… submit…ok
12
Attention ; Stata ne reconnait pas les virgules. Donc pour les nombreux décimaux changer la virgule par un point
avant d’importer le fichier. Les données manquantes sont des cases vides a faire sur Excel
13
Des données propres sont des données organisées avec une ligne par observation, les variables en colonne, les
chaînes de caractères identifiées par des guillemets et les séparateurs tous identiques (virgule ou tabulation. Pas
d’espace !).
14
Ouvrez sous Excel le fichier Sélectionner les colonnes et copier leur contenu (avec les entêtes de colonnes).
Sous stata, tapez clear pour fermer votre fichier de données (si vous en aviez un d'affiché à l'écran).Cliquez sur le
bouton "Data editor". Coller. Fermer le data éditor. Enregistrez le fichier
7. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 7 sur 16
4 Création et gestion d’une base de données sous STATA
Les variables sous Stata peuvent être numériques ou alphanumériques.
Les variables numériques peuvent être de différents types selon la précision nécessaire.
Les variables alphanumériques sont des chaînes de caractères quelconques (string, str),
d’une longueur maximale de 244 caractères15
.
Les variables peuvent prendre plusieurs noms selon leurs caractéristiques :
byte ; int ;long ; float ; double ; str.
4.1 Créer des variables et des modalités
Pour créer de nouvelles variables, deux commandes existent : generate et egenerate
generate permet de créer des variables qui nécessitent des calculs « simples »
egenerate (extended generate) s’impose lorsque les calculs se complexifient un peu ou que
l’utilisation de fonctions statistiques spécifiques est nécessaire.
Exemples d’utilisation de generate :
La syntaxe générale de cette commande est : generate [type] newvar = expr [if expr] [in range
gen x = 12. Crée une constante nommée x, qui vaut 12.
gen var=. Crée une variable avec des cases vides16
:
gen x = "Bonsoir". x est une chaîne de caractères, égale à « Bonjour » pour toutes
les observations.
gen x = (sexe=="Homme"). x est égale à 1 si la variable sexe contient la chaîne de
caractère « Homme », zéro sinon.
gen x = salaire[4]. x est une constante, égale au contenu de la 4ème observation
pour la variable salaire.
generate var3=var1+var2 pour créer une variable combinant l’addition de deux
variables
15
Stata gère les noms longs, mais pour des raisons pratiques ou de compatibilité avec d’autres logiciels, ll faut
privilégier les noms courts pour variables. De plus le logiciel fait une différence entre un nom en majuscule et en
minuscule qu’il considère comme deux noms distincts/
16
Pour remplir les cases vides on peut utiliser des commandes replace avec les conditions
8. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 8 sur 16
generate var4=5*var1 pour une variable qui est la multiplication de deux variables
generate double price2 = price * price
generate taille= recode (nb,0,5 ;10 ;15) regroupe le nombre de salariés nb en 4
classes : 0 ;entre 1 et 5 inclus ; entre 6 et 10 inclus ; et 11 et plus. La variable taille
ainsi crééeaura les modalités 0, 5 et 15.
Egen taillegr=cut (taille),groupe (5)decoupela variable taille en 5 groupes
homogenes de point de vue des frequences.
Egen taillegr=cut (taille) at (5,10,15) crée deux groupes à partir de la variabletaille,
l’un codé 5(de 5 à moins de 9), et l’autre 10 (de 10 à moins de 15).
4.2 Gestion et manipulations des variables
4.2.1 Les labels sous STATA : label var, label define, label value
Stata affiche les données selon leur nature
Les variables numériques s'affichent en noir,
Les variables numériques avec label sur les valeurs s'affichent en bleu,
Les variables de nature texte s'affichent en rouge.
La commande Label var + variable permet d’affecter un label à une variable
Exemple label var var6 poids
Label define
Label définie permet de définir un label pour les modalités d’une variable
Exemple : label define oui non 1 ‘’oui’’ 0 ‘’non’’ définit le codage ouinon
Label define lab_sexe 1 ‘’Homme’’ 2 ‘’ Femme’’ définit le codage sexe
Label value
La commande label value permet d’affecter le préalablement défini à la variable désirée
Exemple : label value genre lab_sexe affecte à la variable genre le label lab_sexe
9. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 9 sur 16
4.2.2 Changer le nom d’une variable
STATA permet de renommer une variable
Exemple : rename sexe genre
On peut aussi changer le nom de plusieurs variables en utilisant des parenthèses pour spécifier
les multiples variables anciennes et nouvelles variables. rename (v1 v2) (v2 v1) Echange le
nom de v1 pour v2 et v2 pour v1.
4.2.3 Changer le format d’une variable
Pour transformer une chaîne en variable numérique, on utilise la commande destring
variable, options. Parmi les options, gen(var) ou replace.
destring [varlist] , {generate(newvarlist)|replace} [destring_options]
Pour convertir des variables numériques en variables textes
tostring varlist , {generate(newvarlist)|replace} [tostring_options]
La première option crée une nouvelle variable, nommée var contenant la transformation
demandée, la seconde écrase au contraire la variable chaîne pour la remplacer par sa
transformation.
4.2.4 Recoder une variable
Encode permet de convertir une variable chaine en numérique en créant une autre variable
Exemple : encode SEXE, gen(GENRE)
On peut aussi recoder en regroupant les informations
Recode (2 3=4) (6 7=5, generate (zone 2) regroupe les modalités d’une variable numérique
avec un recodage permettant d’avoir un regroupement en 4 pour les modalités 2 et 3 et en 5
pour les modalités 6 et 7. L’option generate permet de créer une nouvelle variable recodée
renommée zone 2 ?
Pour recoder les valeurs manquantes de toutes les variables en 999, on utilise :
mvrecode_all, mv(999).
Par ailleurs, on peut utiliser replace pour regrouper des modalités
Replace zone=4 if zone==2 | zone== 3 permet de regrouper les modalités 2 et 3 en 4 de la
variable zone
10. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 10 sur 16
4.3 Traitement de données ou de variables
Lors du traitement des données, il arrive que l’on souhaite supprimer, garder ou restaurer des
données supprimées ; STATA permet de réaliser ces opérations à travers les commandes,
drop, keep, restore, ….
4.3.1 Supprimer une variable ou des observations
Pour supprimer une variable on utilise la commande drop
Exemple : drop salaire
drop x. Supprime la variable x.
drop _all. Supprime toutes les variables
drop in 5 supprime l’observation 5
drop in 10/50 supprime les observations 10 à 50
drop in 15/-2 supprime les observations de la ligne 15 jusqu’à l’avant dernière ligne
drop if sexe==1 supprime les observations pour lesquelles la variable sexe égal à 1
4.3.1.1 Garder des variables ou des observations
Keep qui est le pendant de drop ne garde que les observations désirées. Il s’utilise comme
drop.
Exemple Keep age
keep x. Conserve la variable x, supprime toutes les autres.
On peut utiliser cette commande par lot en utilisant by
Exemple: by sexe : keep if-n==1
On ne conservera qu’une observation (la première) pour chaque modalité de la variable sexe
4.3.1.2 Restaurer une variable
Il est utile parfois de restaurer une variable supprimée par erreur afin de garder une
information dans la base de données. Pour restaurer, il faut écrire restore
Exemple ; preserve drop var10 restore.
Attention ! Avant de supprimer il faut écrire d’abord preserve drop var et exécuter ensuite.
Cela permet d’effacer la ou les variables ciblées.
11. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 11 sur 16
4.3.1.3 Modification de variables existantes :
Pour remplacer des valeurs (ou manquants) par des valeurs d’une variable on utilise la
commande replace
Exemple : replace AGE = age
Exemple : replace AGE = 1 if AGE==20 & AGE!=.
4.3.2 Gestion des données manquantes :
Pour des variables numériques, les cellules vides seront considérées comme des infinis
positifs
Pour des variables en texte, les cellules vides sont considérées comme les valeurs les plus
faibles
Ainsi, si on trie par une variable ayant des valeurs manquantes, celles-ci seront donc triées en
début du fichier si cette variable est de nature texte, en fin de fichier si elle est de nature
numérique.
4.3.3 Décrire le fichier, en avoir un aperçu
Une fois saisies dans la base de données, on souhaite découvrir les données, les parcourir, les
explorer ou les décrire. Les commandes suivantes permettent de faciliter le travail.
4.3.3.1 Les commandes d’affichage
Edit
La commande Edit permet d’ouvrir la base de données STATA et de modifier les modalités
- edit + nom de la variable ou edit + condition : édition de la variable ou des individus
répondant aux critères de sélection.
Browse
Pour voir simplement les données, on peut utiliser la commande
browse: browse[varlist] [if exp] [in range]
Si on veut voir une partie des données selon une variable
browse if salaire==1500 montre les données selon que le salaire est égal à 1500
12. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 12 sur 16
4.3.3.2 Commandes descriptives
Il existe plusieurs manières d’examiner une base de données dans STATA en ayant un aperçu
rapide du contenu des variables, telles que :
inspect describe, list, codebook, count, list et summarize.
inspect
Cette commande renseigne sur le nombre de valeurs négatives, nulles, positives, uniques ou
manquantes des variables numériques et produit aussi un petit histogramme
codebook
Permet de décrire le contenu des variables
codebook [varlist] [if] [in] [, options]
Important car permet de voir l'existence de valeurs manquantes + les caractéristiques de la
variable
codebook * : donne des informations sur tout le fichier
count
permet d’obtenir quelques chiffres rapides
count [if] [in]
describe
La commande describe produit un résumé du contenu d’une base de données (nombre
d’observations et de variables, description des variables : nom, type, format, labels).
describe using filename (décrit une base de données STATA)
Il est possible aussi de décrire seulement une partie des variables d’une base de données, en
spécifiant describe varlist (décrit un groupe de variables)
Exemple 1 : describe var1-var10 (décrit toutes les variables entre var1 et var10)
Exemple 2 : describe var* (décrit toutes les variables dont le nom commence par var)
list
Pour afficher une liste d’observations affichant la valeur des variables, on pourra utiliser cette
commande list
Dans le cas où aucune variable n’est précisée (varlist) toutes les variables seront affichées
Exemple 1 : list age in 3 (liste la valeur de âge pour la 3e observation)
Exemple 2 : list age in 1/100 (liste la valeur de age pour les observations de 1 jusqu’à 100)
13. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 13 sur 16
5 TABLES, GRAPHIQUES ET STATISTIQUES AVEC STATA
5.1 Tableaux plats et tableaux croisés
-Tabulate ou Tab
La commande tabulate est très utilisée et produit des tableaux de fréquences simples ou
croisés.
Pour les tableaux simples, on a la commande tabulate var ;
Tab1 tab2 permet de créer des séries de tableaux de fréquences simples ou croisés en
spécifiant une liste de variables.
Exemple : Tab1 sexe age secteur
Une telle commande réalise trois tableaux successifs sur chacune des variables
Exemple : tab2 sexe age secteur
Cette commande crée toutes les combinaisons possibles de tableaux croisés (3 tableaux dans
notre exemple) entre les variables spécifiés dans la liste ?
Aussi, pour un tableau croisé il faut utiliser la commande : tabulate var1 var2.
NOTE : Par défaut, "tabulate var1 var2" donne les fréquences (nombre d’observations)
dans chaque cellule, mais il est possible et très pratique d’utiliser cette commande pour
obtenir des pourcentages, avec les options cell (% par cellule), col (% par colonne) ou row (%
par lignes). Pour n’avoir que des pourcentages, ajouter l’option nofreq
Aussi, la commande Tabulate sexe stage, row col : donne un tableau croisé avec des
pourcentages en lignes et en colonnes.
- Par ailleurs, la commande tabulate est adaptée à la description de variables dichotomiques
ou catégorielles, mais peut aussi être utilisée pour résumer des variables continues par
catégorie.
14. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 14 sur 16
Aussi, en ajoutant à "tabulate var1 [var2]" l’option summarize (var3), on obtient un tableau
croisé contenant la moyenne de la variable ‘var3’ dans chaque cellule, ainsi que son écart-type
et le nombre d’observations :
Exemple : tabulate var, summarize(var3)
On peut souhaiter faire ou ne pas faire apparaitre les données manquantes. Dans ce cas,
STATA suggère d’utiliser les commandes suivantes.
Tabulate sexe, nolabel : fournit un tableau simple sans le label afin de conserver le codage
Tabulate sexe, missing : donne un tableau simple mais en faisant apparaitre les valeurs
manquantes.
5.2 Statistiques descriptives et inférentielles
STATA est un logiciel qui permet certes d’organiser, de traiter et d’afficher les données, mais
c’est aussi, un outil pour calculer des statistiques descriptives et différentielles.
5.2.1 Statistiques descriptives
Pour commencer, on peut continuer avec la commande tabulate qui permet d’afficher
quelques statistiques usuelles.
Par exemple : tabulate sexe, sum (salaire) : fournit la moyenne et l’écart-type du salaire
selon le sexe
Pour n’avoir que les moyennes, ajouter les options nof (pas de fréquences) et nost (pas
d’écarts-type).
Mean et Means
On peut utiliser aussi les commandes mean et mean pour avoir la moyenne d’une variable.
Toutefois, mean ne donne que la moyenne arithmétique tandis que means estime les
moyennes géométriques, harmoniques, … ainsi que les intervalles de confiance respectifs.
Exemple 1: tabulate var1 var2, summarize(var3) nof nost
15. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 15 sur 16
summarize, tabstat et collapse
Par ailleurs, les commandes summarize, tabstat et collapse sont très utiles pour afficher des
statistiques.
summarize variable permet d’obtenir les statistiques descriptives usuelles. L’option
détail permet d’en avoir plus.
La commande tabstat variable permet de faire presque la même chose que summarize, mais
permet plus de flexibilité pour faire un tableau de statistiques.
collapse permet de créer une base de données contenant les statistiques descriptives
d’une autre.
Exemple : collapse (mean) age educ (median)revenu, by(pays) calcule les âges et niveaux
d’éducation nationaux moyens et les revenus nationaux médians et ne conserve que ces
moyennes dans la base de données.
5.2.2 Statistiques inférentielles
Corrélation
Pour effectuer une corrélation entre des variables quantitatives on appelle la commande
pwcorr
Exemple 1 : pwcorr variable1 variable2 donne la matrice de corrélations entre les variables.
Exemple 2 : pwcorr variable1 variable2 variable3 permet d’obtenir les coefficients de
corrélation partielle entre les variables prises deux à deux.
L’option sig permet d’obtenir le résultat du test de nullité du coefficient de corrélation.
En outre, corr variable1 variable2, cov permet d’obtenir la matrice des variance-covariances.
Tests sur la moyenne, la variance et la distribution des variables
ttest permet de comparer les moyennes de deux variables
Exemple 1 : ttest salaire, by(sexe), pour tester la significativité de la différence de salaire
entre hommes et femmes.
Exemple 2 : ttest salaire=1000 pour savoir si la moyenne des salaires est égale à 1 000 euros.
Exemple 3 : sdtest permet de comparer les variances de deux variables. sdtest salaire, by
sexe.
16. Dr Mamadou A DIALLO (UASZ/Sénégal) mars 2018
Page 16 sur 16
5.3 Les graphiques avec STATA
5.3.1 Les graphiques avec une seule variable
La création de graphiques avec Stata n’est pas toujours simple, en particulier lorsqu’on
souhaite que les graphiques soient « présentables »:
– Pour obtenir un graphique circulaire (un « camembert »),
graph pie salaire bonus
prime avantages_nature.
– Pour un diagramme en bâtons (ne pas le confondre avec un histogramme...) :
graph
bar salaire, over(sexe, descend gap(-20)) over(pays).
Pour des bâtons verticaux : graph hbar.
5.3.2 Les graphiques avec une deux variables
Pour tous les graphiques (X,Y), la commande débute par twoway suivi du type de graphique
X,Y souhaité. Parmi les principaux types :
– tw histogram variable, options génère un histogramme17
.
– tw scatter variable_ordonnee variable_abscisse, options permet d’obtenir un nuage de
points.
– tw line variable_ordonnee variable_abscisse, options permet d’obtenir
un graphique avec des points reliés par une ligne.
– tw area variable_ordonnee variable_abscisse, options crée un graphique
avec une ligne reliant les points (x,y) et une aire colorée entre la ligne et l’axe des abscisses.
17
L’option normal ajoute à l’histogramme une loi normale