wikistat.quebec | Capsules didactiques

Autres pages de capsules

Avoir l'intuition du hasard, incertitude des mesures, ce n'est pas donné. Il ne suffit pas de lancer des dés, des pièces de monnaie. Il y a lieu de commencer tout cours de statistique, analyse de données par des expériences qui mettent les étudiants en instance de réflexion: là où ne rencontre ni incertitudes, ni imprécisions, il n'y a pas de probabilité, pas de statistique.

Voici un fichier où on décrit une expérience didactique: il s'agit pour un ensemble d'étudiants de mesurer plusieurs clous plusieurs fois, à l'aide de deux instruments de mesure. On illustre le maxime de W.E. Deming « There is no true value of anything » :

Quelle est la longueur des clous de 6,35cm?

On peut penser utiliser les téléphones portables des étudiants pour mesurer des temps de réaction. Après avoir expliqué le protocole expérimental (c'est dans le texte), on peut procéder à un exposé des principales statistiques descriptives, par lesquelles commence toute analyse de données.

Attention. Les données sont au centre de tout cours de proba-stat. Ne jamais commencer par des éléments de probabilité, ces abominables jeux de cartes, des dés, des pièces de monnaie. Au grand jamais! On commence par des données réelles, si possible recueillies en classe grâce à de petites expériences, telle que celle proposée ici.

À la fin de cette expérience, un étudiant comprendra que toute mesure est sujet à variations//imprécisions//erreurs, que le concept de base en probabilité est donc fonction de masse ou de densité. Que l'échantillonnage doit être bien contrôlé.

Transmettre, c'est avant tout motiver... Et quoi de plus motivant que la dissonance cognitive! Les paradoxes font dresser l'oreille et se gratter le coco des plus blasés. Les apparences sont trompeuses. Oui, l'éducation importe...

Les paradoxes de Bayes (c'en est un), et celui de Simpson sont élémentaires. Ils demandent peu de technique probabiliste. On peut les présenter dans la foulée du concept très intuitif de probabilité conditionnelle. La dissonance cognitive permet de montrer hors de tout doute que les connaissances statistiques sont nécessaires à ls compréhension du monde:

Paradoxe de Bayes et de Simpson

De plus en plus il faut penser pour les applications à enseigner les concepts au delà du presse-bouton qu'on pratique beaucoup trop de sorte que les cours ne servent à rien.

En fait, ils ne servent qu'à faire détester la statistique par tous les scientifiques des SHS qui ne rêvent que se débarrasser de l'appareil statistique : aussitôt un cours de méthodes quantitatives, c'est l'euphémisme utilisé, terminé, et forcément réussi avec de fortes notes bien sûr, aussitôt floché comme on dit au Québec de façon très méprisante (de l'anglais flushed, je vous laisse le soin de trouver l'origine du terme!) pour donner profondément les idées mais sans équations ou presque... Un sacré défi !

On comprend pourquoi il y a tant d'efforts consacrés aujourd'hui, dans la foulée de la quatrième révolution industrielle, à développer des statisticiens automatiques : gougouler «automatic statistician».

Les deux derniers exemples concernant les premiers pas de l'inférence statistique: les intervalles de confiance & les tests statistiques. En fait, passé la description des données, la statistique commence vraiment quand on parle d'inférence. Pas d'inférence, pas de statistique!

On pourrait arguer que la statistique c'est la théorie générale de l'inférence sur des données. En fait, ne pourrait-on pas faire l'hypothèse que la statistique c'est la méthode scientifique elle-même. Ici, nous nous en tenons au paradigme fréquentiel de l'inférence statistique, dit aussi le paradigme de Neyman-Pearson, du nom de ses inventeurs.

L'intuition est souvent trompeuse! On l'a vu sur le paradoxe de Bayes plus haut. Ici on compare des intervalles de confiance pour une moyenne quand la variance est connue et dans le cas contraire (cas traités dans tous les cours de base). On pense souvent que plus d'information est gage de plus de précision. Ce n'est pas toujours le cas. Ainsi, lorsque la variance d'une variable aléatoire est inconnue et qu'on doit l'estimer (moins d'information), la largeur de l'IC calculé est plus petite, pour les tailles échantillonnales habituelles (n de 50 à 100), dans une proportion pouvant aller jusqu'à 50%!.. Une fois sur deux, quoi! Combien d'enseignants sont convaincus du contraire:

Largeurs respectives des IC avec variances connues et inconnues

Pour l'esprit de la statistique, voir l'essai lumineux du grand historien de la statistique:
Stephen M. Stigler (2016), The seven pillars of statistical wisdom, Cambridge MA: Harvard University Press.

On trouvera sous ce lien la présentation orale de ce texte au JSM-2014 de Boston, ce fut le President's invited lecture des ces JSM.

On trouvera également sur cette même page la présentation de la Deming Lecture de ce même JSM, donnée par Sharon Lohr: « Red beads and profound knowledge: Deming and the quality of education. »

L'enseignement de la statistique a beaucoup évolué depuis la fin du siècle dernier. On est passé à un enseignement fondé sur des données. On a adopté les nouvelles technologies de l'information. Le concept principal qu'on doit faire passer est celui de variable aléatoire (VA). Il ne s'agit pas de faire de l'épistémologie, mais de bien faire passer le fait qu'une VA, c'est la donnée d'une fonction de masse, pour une probabiliste une fonction de densité.

Pour en faire un apprentissage plutôt intuitif, on utilise beaucoup la simulation Le logiciels offrent des simulations pour plusieurs VA d'utilisation courante. Il convient de bien comprendre, la façon de faire, du moins pour les futurs ingénieurs qui ont à simuler des lois empiriques. Voici deux textes qui s'adressent à ces questions. On quitte décidément l'envergure de la courte capsule, surtout pour le premier que j'ai écrit pour servir de rappel lorsque j'enseignais un deuxième cours de proba-stat, c'est un «abrégé de proba-stat». Quant au second, il s'agit d'un travail pratique pour comprendre la simulation des lois statistiques:

Abrégé des proba-stat
Simuler pour comprendre

Fiabilité

Une fois assimilé le concept de variable aléatoire et celui de densité de probabilité (densité de masse de masse pour un ingénieur), le premier exemple qu'on peut enseigner, je parle surtout pour les ingénieurs est celui de fiabilité, ou de vie utile d'un outil qui est bien sûr une variable aléatoire.

Les concepts de base sont assez simples à exposer. Le premier des deux fichiers qui suivent est assez élémentaire, développe l'intuition des concepts. Le second développe sur un exemple les principes d'accélération du vieillissement d'un outil à l'aide d'une variable d'accélération (par exemple la chaleur où on teste une fiabilité), à l'aide de laquelle on peut extrapoler la fiabilité aux conditions normales d'utilisation.

Pourquoi accélérer? Pensons un peu : si on veut connaître la longévité moyenne d'une ampoule lumineuse par exemple, on ne peut en essayer un grand nombre jusqu'à non fonctionnement (plusieurs mois ou même années d'utilisation jusqu'au non fonctionnement de la dernière en essai), pour en connaître la moyenne des temps de bon fonctionnement (MTBF), une étape pour en faire approuver la mise en marché par les institutions d'homologation...

Autres pages de capsules