1. À propos de pourcentages et de chiffres significatifs
1.1. Quelques principes élémentaires
À première vue, quoi de plus familier qu’un pourcentage ? Le mot revient de manière fréquente dans les médias et chacun, je pense, a une certaine représentation de ce qu’est une augmentation de 10 % ou bien une TVA à 19,6 % ou bien de 50,6 % de voix à une élection. En revanche, il est un peu moins immédiat de savoir quelle diminution représente – en théorie une baisse de la TVA de 19,6 % à 5,5 % (cela requiert un peu de calcul mental).
Souvent on cherche, en SHS, quelle est la proportion d’une population qui possède telle ou telle caractéristique. Ainsi, 19 % d’une population de 1 000 personnes représente 190 individus.
Dire que 18,6 % d’une population de 100 personnes a telle ou telle qualité a peu de sens. (On est autour de 2/10). C’est encore plus vrai quand les effectifs sont encore plus faibles. Dans ce cas des pourcentages, avec des chiffres après la virgule, n’a pas de sens.
1.2. Un exemple
Il est important qu’apparaissent toujours clairement les effectifs sur lesquels sont calculés les pourcentages. Le tableau ci-dessous présente les résultats à la session de qualification aux fonctions de maître de conférences en sciences de l’éducation en 2009. Il montre une réussite légèrement meilleure des femmes, dont un test du chi2 indique qu’il correspond à une probabilité de 0,335 d’écart à l’indépendance.
|
| oui | non | Total |
| H | 29% | 71% | 142 |
| F | 35% | 65% | 186 |
| Total | 33% | 67% | 328 |
Tableau 1 : réussite à la qualification en sciences de l’éducation par genre, 2009
Il convient de le répéter, il n’y a pas de statistique des petits nombres. Et il faut toujours donner les effectifs absolus relatifs aux pourcentages. Et éviter de donner des nombres dont les chiffres sont non significatifs. Si l’échantillon est petit, la prudence est de rigueur.
2. À propos de tableaux et graphiques
2.1. Principes élémentaires
Le principe ici est d’éviter la redondance, de manière à focaliser le lecteur sur ce qui est vraiment important. Un principe de parcimonie est utile. Par exemple, si on a, dans telle population, une proportion de 60 % de femmes, il est inutile de faire un graphique montrant, par exemple, un histogramme avec les hommes et les femmes, car il est très facile de comprendre que les hommes seront 40 %. C’est bien entendu plus généralement vrai avec toutes les variables prenant deux modalités.
Autre idée : la présentation d’histogrammes tridimensionnels est le plus généralement distractrice.
Et surtout, éviter de présenter des graphiques sans interprétation ! Des graphiques très simples peuvent souvent donner des indications précieuses.
2.2. Exemple
La moyenne d'âge des candidats à la qualification aux fonctions de maître de conférence en sciences de l’éducation en 2009.est de 42,1 et l’écart type de 9,2, ce qui est assez important. Ces données sont bien entendu insuffisantes pour caractériser la distribution. Le graphique suivant montre la forme de cette dernière

Illustration 1: Distribution des âges des candidats à la qualification aux fonctions de MC, 2009, 70e section
Il est facile de voir que cette distribution ne saurait en aucun cas être du type Laplace-Gauss. Elle signale l’existence de plusieurs sous-populations : des jeunes ayant préparé le doctorat dans leur formation initiale, des moins jeunes ayant exercé une autre activité avant de se tourner vers la thèse et ce qu’on pourrait appeler des seniors, s’étant tournés vers la recherche après 45 ans.
On peut se demander comment se répartissent les âges des qualifiés et des non qualifiés.
Le principe a été de représenter la distribution de l’âge (arrondi à l’année supérieure) pour les deux sous populations, en utilisant la technique des « boîtes à moustache ».
Illustration 2: distribution des âges en fonction du résultat à la qualification, 2009
On observe que les ages se distribuent de manière assez similaire de 27 à 63 ans, les qualifiés étant cependant un peu plus jeunes. Un quart des candidats environ a moins de 33 ans et un quart plus de 50. La médiane est du même ordre pour les deux populations.
Pour analyser plus avant, il conviendrait de rechercher l’influence d’autres variables, mais cela sortirait du cadre de ce billet.
3. À propos de tests statistiques
La prudence est particulièrement de rigueur lorsqu’on applique des tests d’hypothèse. Voici un exemple tiré d’une publication récente, dont je préfère taire la source.
Les auteurs considèrent deux groupes de 15 personnes (ce qui est très peu), dont ils comparent les scores à certaines questions. Pour l’une d’elles ils concluent, sur la foi d’un test de Student, que le groupe A réussit mieux que le groupe B, la différence étant significative au seuil de 5 %. Que penser d’un tel résultat ? Quelle est sa validité ? Il est possible de se faire une idée en regardant le tableau suivant :
Groupe A : m1 = 3,175, σ1 (écart type) = 0, 175
groupe B : m2 = 2,852, σ2 = 0, 478
S’agissant du test de Student, la validité du raisonnement repose de manière cruciale sur le fait que les écarts types sont du même ordre. Cette exigence est particulièrement forte lorsque les échantillons sont petits. Or ici, le rapport entre eux est supérieur à 3. Il n’était pas légitime d’appliquer le test de Student dans un tel cas. Le résultat obtenu n’a donc aucune valeur.
Même si les écarts types avaient été du même ordre, une expérience de pensée permet d’apprécier la fragilité du résultat : si un seul individu du groupe B avait eu un score augmenté de seulement 1, la moyenne aurait augmenté de 1/15, soit 0,07 environ ; c’est-à-dire que m2 serait passé à 2,92, ce qui est très proche de m1…
4. Que conclure ?
Ma conclusion est simple : les statistiques existent, elles apportent souvent des résultats déterminants. Il convient cependant de les utiliser avec parcimonie, au service d’une argumentation et de n'utiliser que des procédures que l'on maîtrise (ou qui sont garanties par un tiers compétent). En particulier pas de graphiques non commentés se contentant de présenter différemment les résultats de tris croisés, du respect pour les chiffres significatifs et pour la bonne utilisation des procédures de test…
5. Références
LANGOUËT, G., & Porlier, J. -. C. (1998). Mesure et statistique en milieu éducatif. Paris : Esf Editeur.
MOSCOVICI, Serge ; BUSCHINI, Fabrice[ dir.] (2003). Les méthodes en sciences humaines. Paris : PUF. - 476 p. - ISBN : 2 13 053066 4.
POITEVINEAU., Jacques (2004). L'usage des tests statistiques par les chercheurs en psychologie : aspects normatif, descriptif et prescriptif. Mathématiques & sciences humaines, (167), 5 - 24. Retrouvé Novembre 2, 2009, de http://msh.revues.org/document2900.html
QUIVY, Raymond ; CAMPENHOUDT (Van), Luc (1995). Manuel de recherche en sciences sociales. Paris : Dunod. 287 p. - ISBN : 2 10 002656 9.
VAN DEN MAREN, Jean-Marie (1996). Méthodes de recherche pour l'éducation. Bruxelles: de Boeck Université. - 502 p. - ISBN : 2-8041-2364-2.

Commentaires
Amitiés
Josette Singer (bientôt ex documentaliste IUFM de Toulouse site d'Albi. Ce n'est pas moi qui part, ce sont les IUFM qui partent en fumée et avec eux la formation des maîtres)