1. Initiation à l’utilisation du
logiciel STATISTICA
Joseph LARMARANGE
http://joseph.larmarange.net
Intervention du 9 janvier 2004
2ème année en Ressources Humaines
GEA (Gestion des Entreprises et des Administrations)
IUT d’Orléans
2. Initiation à
STATISTICA Joseph LARMARANGE 2
Plan
Saisie des données
Statistiques descriptives
Corrélation linéaire
Test du Khi 2
3. Initiation à
STATISTICA Joseph LARMARANGE 3
Principes d’un fichier
STATISTICA
Les données sont saisies sous la forme
d’un tableau.
En colonnes, des variables (soit le nombre
d’information que nous avons pour
chaque individu).
En lignes, des individus (cela peut-être
des personnes physiques, des ménages,
des institutions, etc.).
4. Initiation à
STATISTICA Joseph LARMARANGE 4
Exemple de données à
saisir
Il s’agit du montant des ventes d’une
équipe de 15 vendeurs.
Pour chacun d’eux, on dispose
du sexe,
de l’âge
et du chiffre d’affaire réalisé.
5. Initiation à
STATISTICA Joseph LARMARANGE 5
Création d’un nouveau
fichier (Fichier > Nouveau)
Indiquer le
nombre de
variables (3)
Et le nombre
d’observations
(ici 15)
Cliquez sur OK.
6. Initiation à
STATISTICA Joseph LARMARANGE 6
Création d’un nouveau
fichier
Apparition du
fichier de
données.
On va
maintenant
spécifier le nom
des variables
7. Initiation à
STATISTICA Joseph LARMARANGE 7
Nommer les variables
On donnera un
nom court mais
explicite. Mieux
vaut éviter les
caractères
particuliers.
Il est aussi
possible de
faire une
description
détaillée des
variables.
8. Initiation à
STATISTICA Joseph LARMARANGE 8
Nommer les variables
On donnera un
nom court mais
explicite. Mieux
vaut éviter les
caractères
particuliers.
Il est aussi
possible de
faire une
description
détaillée des
variables.
9. Initiation à
STATISTICA Joseph LARMARANGE 9
Les variables qualitatives
On privilégiera de saisir un code
chiffre plutôt qu’un texte pour éviter
les erreurs de saisie.
Cependant, il est toujours possible
de donner une étiquette (valeurs-
texte) aux différentes modalités.
ATTENTION :
Avant de cliquer, sur
Valeurs-Texte, il faut d ’abord
sélectionner la variable
concernée.
10. Initiation à
STATISTICA Joseph LARMARANGE 10
Donner un texte
court pour la
Valeur-Texte.
Préciser la
correspondance
numérique.
Une étiquette
pour préciser la
modalité est
disponible.
<< & >> servent
à passer d ’une
variable à l’autre.
Le nom de la variable
concernée apparaît en haut à droite
Modifier les Valeurs-Texte
11. Initiation à
STATISTICA Joseph LARMARANGE 11
Saisie des données
Exemple 1 :
Sexe Âge
Chiffre
d’Affaire
Sexe Âge
Chiffre
d’Affaire
Homme 25 230 Homme 42 332
Homme 32 257 Homme 34 165
Femme 23 200 Femme 36 352
Femme 35 197 Homme 29 318
Homme 41 409 Femme 24 400
Femme 28 287 Femme 31 255
Femme 39 372 Homme 28 333
Femme 33 470
12. Initiation à
STATISTICA Joseph LARMARANGE 12
Saisie des données
On peut choisir d’afficher les
Valeurs-Texte ou leur équivalent
numérique en allant dans le
menu
Affichage >
Afficher les Valeurs-Texte
ou en cliquant sur le bouton
13. Initiation à
STATISTICA Joseph LARMARANGE 13
Statistiques descriptives
Aller dans le
module
Statistiques
Élémentaires
disponible dans
le menu
Statistiques.
16. Initiation à
STATISTICA Joseph LARMARANGE 16
Choisir les variables
Sélectionner les
variables retenues
pour l’analyse
Pour une liste
continue de
variables, utilisez la
touche SHIFT
(ou ) et pour une
liste discontinue la
touche CTRL
27. Initiation à
STATISTICA Joseph LARMARANGE 27
Sous
l’onglet
Options,
choisir
Tableau
détaillé.
Cliquer
sur
Synthèse.
Lancer l’analyse
28. Initiation à
STATISTICA Joseph LARMARANGE 28
Résultats détaillés
r(X,Y) est le coefficient de corrélation.
Les résultats sont en rouge si les résultats sont significatifs
avec un risque d’erreur de 5% (p<0.05, le seuil est
paramétrable sous l’onglet options). La valeur de p est
fournie. t correspond à la statistique du test utilisé.
29. Initiation à
STATISTICA Joseph LARMARANGE 29
Résultats détaillés
N rappelle le nombre d’observations considérées.
La moyenne et l’écart-type de chacune des deux variables
sont donnés à titre indicatif.
30. Initiation à
STATISTICA Joseph LARMARANGE 30
Résultats détaillés
Rappelons que le principe est de trouver une droite qui
représente le mieux les deux variables. On cherche donc à
modéliser le rapport entre X et Y de la forme Y = a X + b.
Mais il est aussi possible de modéliser sous la forme
X = c Y + d.
31. Initiation à
STATISTICA Joseph LARMARANGE 31
Résultats détaillés
Statistica donne ces 4 coefficients :
Y = a X + B
X = c Y + d
Ainsi ici, Y = 0,18 X + 1,39 et
X = 4,87 Y - 4,34
b a d c
33. Initiation à
STATISTICA Joseph LARMARANGE 33
Afficher la droite de
régression
Statistica
trace la
droite de
régression
ainsi que
les valeurs
observées
représenté
es par un
petit
cercle.
34. Initiation à
STATISTICA Joseph LARMARANGE 34
Autre exemple :
Un psychologue de l’armée américaine a remarqué que les soldats qui fumaient
le plus avaient tendance à contracter plus de rhumes que les fumeurs légers. Par
ailleurs il pense que les fumeurs sont des personnalités plus stressées que les
non-fumeurs et que ce facteur ‘stress’ pourrait être responsable de leur santé
fragile.
Variables relevées :
CIGA : nombre de cigarettes fumées par semaine
RHUM : nombre de rhumes contractés dans l’année écoulée
STRE : mesure du stress sur une échelle de 1 (faible) à 5 (élevé)
Exemple 3 :
35. Initiation à
STATISTICA Joseph LARMARANGE 35
Autre exemple :
Exemple 3 :
Le tableau présente les résultats
obtenus par 20 soldats.
CIGA RHUM STRE CIGA RHUM STRE
70 2 4 65 1 4
105 6 3 110 6 3
35 1 2 40 2 2
105 4 3 100 4 3
0 2 2 0 1 2
70 7 3 65 8 3
35 3 1 40 3 1
140 6 5 145 6 5
0 4 5 0 3 5
140 4 3 145 4 3
36. Initiation à
STATISTICA Joseph LARMARANGE 36
Résultats
Nous avons affiché la
matrice de corrélation
simple.
Il apparaît à p=5% qu’il y a
une corrélation significative
entre le nombre de
cigarettes et le nombre de
rhumes.
Par contre, le stress
n’enregistre aucune
corrélation significative avec
les deux autres variables.
37. Initiation à
STATISTICA Joseph LARMARANGE 37
Test du Khi 2
Lors d'une étude sur la connaissance du sida chez les femmes guinéennes
âgées de 15-49 ans, on a construit un indicateur de connaissance du sida
répartie en quatre groupes : faible, moyenne, bonne et très bonne. Les
données sont issues de l'Enquête de Démographie et de Santé 1999. On a
comparé cet indicateur avec le niveau d'instruction des femmes. Les
effectifs sont les suivants (elles portent sur 6.561 femmes) :
Exemple 4 :
Niveau d’instruction
Connaissance
du sida Aucun Primaire Secondaire Supérieur
Faible 888 50 4 0
Moyenne 2.230 204 99 9
Bonne 1.018 170 114 16
Très Bonne 1.142 249 267 101
38. Initiation à
STATISTICA Joseph LARMARANGE 38
Saisie des données
Nous avons 6.561 individus et 2 variables. Nous devrions donc
remplir un tableau comportant 6.561 lignes et 2 colonnes.
Cependant, il apparaît que certains individus sont identiques (c’est-
à-dire présentant exactement les mêmes valeurs pour chaque
variables).
Ainsi, nous avons 888 femmes qui ont toute une faible
connaissance du sida et aucun niveau d’instruction.
Nous constatons qu’il y a en tout 16 « profils d’individu » différents.
Au lieu de rentrer les caractéristiques des 6.561 femmes, nous
allons saisir les caractéristiques des 16 profils type et indiquer dans
une troisième variable (le poids) le nombre de femmes que ce profil
représente.
C’est le principe de la pondération.
39. Initiation à
STATISTICA Joseph LARMARANGE 39
Saisie des données
Nous allons donc créer un fichier comportant 16
observations et 3 variables.
Pour la connaissance du sida, nous coderons 1
une faible connaissance, 2 une moyenne, 3 une
bonne et 4 une très bonne.
Pour le niveau d’instruction, 0 pour aucun, 1
pour primaire, 2 pour secondaire et 3 pour
supérieur.
44. Initiation à
STATISTICA Joseph LARMARANGE 44
Préciser la pondération
Cliquer
sur ce
bouton
Ce bouton est
accessible dans
toutes les fenêtres
de Statistica, la
pondération
pouvant être
utilisée pour
n’importe quel
calcul.
45. Initiation à
STATISTICA Joseph LARMARANGE 45
Préciser la pondération
Sélectionner
la variable
de
pondération
Activer la
pondération Un double clic dans le champ
d’édition du nom de la variable ouvre
une liste de l ’ensemble des variables
du fichier.
46. Initiation à
STATISTICA Joseph LARMARANGE 46
Lancer l’analyse
Cliquez deux fois sur OK.
Aller sous l’onglet Options. Sélectionner Chi² & Pearson
et Effectifs théoriques
47. Initiation à
STATISTICA Joseph LARMARANGE 47
Premier tableau de
résultats
Pour naviguer
d’un tableau à
l’autre
Il s’agit du tableau croisé
des effectifs.
48. Initiation à
STATISTICA Joseph LARMARANGE 48
Second tableau de
résultats
Affichage des effectifs théoriques
Rappel : il s’agit des effectifs que l’on aurait si les deux variables étaient
parfaitement indépendantes.
Ici p est inférieur à 0,05. On en déduit qu’avec une erreur de première
espèce de 5% que les deux variables ne sont pas indépendantes.
NB : petit hic, normalement on ne doit pas avoir d’effectifs inférieurs à 5 (ou à 10 pour
plus de précision). Il serait donc préférable de regrouper auparavant certaines catégories.
49. Initiation à
STATISTICA Joseph LARMARANGE 49
Autre exemple :
Dans une enquête sur le réseau Internet auprès de 1006 personnes, une
des questions posées était la suivante:
" Personnellement quelle est votre attitude à l'égard de cette nouvelle
application de la micro-informatique ? Vous êtes...
Passionné,
Intéressé,
Indifférent,
Dépassé,
Agacé,
ou ne se prononce pas (NSP).
Les personnes interrogées ont été regroupées en 5 catégories d'âge :
18-24 ans, 25-34 ans, 34-49 ans, 50-64 ans, plus de 65 ans.
Exemple 5 :
50. Initiation à
STATISTICA Joseph LARMARANGE 50
Autre exemple :
Exemple 5 :
Groupe d’âges
Internet
18-24 25-34 34-49 50-64 65&+
Passionné 15 5 9 9 2
Intéressé 72 84 112 96 28
Indifférent 34 68 112 144 52
Dépassé 10 10 23 21 16
Agacé 7 7 26 24 6
NSP 0 0 6 6 2
Voici les données observées.
Étant donné le très faible nombre de NSP, nous n’en tiendrons pas
compte.
L’analyse portera donc sur 992 individus.
51. Initiation à
STATISTICA Joseph LARMARANGE 51
Fichier de données
Tableau à 3 colonnes et
25 lignes
(puisqu’on ne tient pas
compte des NSP)
52. Initiation à
STATISTICA Joseph LARMARANGE 52
Résultats
p < 0,05 L’attitude à l’égard de Internet diffère avec l ’âge.
53. Initiation à
STATISTICA Joseph LARMARANGE 53
Liens
Ce diaporama est disponible, ainsi que les
fichiers des exemples, à l’adresse
http://joseph.larmarange.free.fr
Les statistiques élémentaires sont disponibles
gratuitement dans la version de démonstration
de statistica disponible sur internet :
http://www.statsoft.com/french/welcome.html